用PHP使Web数据分析进入更高境界_PHP
程序员文章站
2024-02-10 21:14:40
...
计您的数据分析,做比简单原始计数更多的事
对 Web 数据进行有效和多层次的分析是许多面向 Web 企业能够生存的关键因素,数据分析检验的设计(和决策)通常是系统管理员和内部应用程序设计人员的工作,而他们可能除了能够把原始计数制成表格之外,对统计学没有更多的了解。在本文中,Paul Meagher 向 Web 开发人员传授了将推论统计学应用到 Web 数据流所需的技能和概念。
动态网站不断生成大量的数据 — 访问日志、民意测验和调查结果、客户概要信息、订单及其它,Web 开发人员的工作不仅是创建生成这些数据的应用程序,而且还要开发使这些数据流有意义的应用程序和方法。
通常,对于由管理站点所产生的不断增长的数据分析需求,Web 开发人员的应对是不够的。一般而言,除了报告各种描述性统计信息之外,Web 开发人员并没有其它更好的方法来反映数据流特征。有许多推论统计步骤(根据样本数据估计总体参数的方法)可以被充分利用,但目前却没有应用它们。
例如,Web 访问统计信息(按当前所编辑的)只不过是以各种方式进行分组的频率计数。以原始计数和百分比表示民意测验和调查结果的情况比比皆是。
开发人员用比较浅显的方法处理数据流的统计分析或许已经足够了,我们不应期望太多。毕竟,有从事较复杂的数据流分析的专业人士;他们是统计师和受过训练的分析师。当组织需要的不仅仅是描述性统计时,可以请他们加入。
但另一种应对是承认对推论统计学日益加深的了解正成为 Web 开发人员工作描述的一部分。动态站点正在生成越来越多的数据,事实表明,设法将这些数据变成有用的知识正是 Web 开发人员和系统管理员的责任。
我提倡采取后一种应对;本文旨在帮助 Web 开发人员和系统管理员学习(或重温,如果知识已遗忘的话)将推论统计学应用到 Web 数据流所需的设计和分析技能。
使 Web 数据与实验设计相关
将推论统计学应用到 Web 数据流需要的不仅仅是学习作为各种统计检验基础的数学知识。将数据收集过程与实验设计中的关键差别关联起来的能力同样很重要:测量尺度是什么?样本的代表性如何?总体是什么?正在检验的假设是什么?
要将推论统计学应用到 Web 数据流,需要先把结果看作是由实验设计生成的;然后选择适用于该实验设计的分析过程。即使您可能认为将 Web 民意测验和访问日志数据看作实验的结果是多此一举,但这样做确实很重要。为什么?
1.这将帮助您选择适当的统计检验方法。
2.这将帮助您从收集的数据中得出适当的结论。
在确定要使用哪些适当的统计检验时,实验设计的一个重要方面是选择数据收集的衡量尺度。
衡量标准的示例
测量尺度只是指定了一个对所感兴趣的现象分配符号、字母或数字的步骤。例如,千克尺度允许您给一个物体分配数字,根据测量仪器的标准化的偏移量指示该物体的重量。
有四种重要的衡量标准:
定比尺度(ratio)— 千克尺度是定比尺度的一个示例 ? 分配给物体属性的符号具有数字意义。您可以对这些符号执行各种运算(如计算比率),而对于通过使用功能不那么强大的衡量标准获得的数值,您不能使用这些运算。
定距尺度(interval)— 在定距尺度中,任意两个相邻测量单位之间的距离(也称为间距)是相等的,但零点是任意的。定距尺度的示例包括对经度和潮汐高度的度量,以及不同年份始末的度量。定距尺度的值可以加减,但乘除则没有意义。
定序尺度(rank)— 定序尺度可应用于一组有顺序的数据,有顺序指的是属于该尺度的值和观察值可以按顺序排列或附带有评级尺度。常见的示例包括“好恶”民意测验,其中将数字分配给各个属性(从 1 = 非常厌恶到 5 = 非常喜欢)。通常,一组有序数据的类别有自然的顺序,但尺度上相邻点之间的差距不必总是相同的。对于有顺序的数据,您可以计数和排序,但不能测量。
定类尺度(nominal)— 衡量标准的定类尺度是衡量标准中最弱的一种形式,主要指将项目分配给组或类别。这种测量不带数量信息,并且不表示对项目进行排序。对定类尺度数据执行的主要数值运算是每一类别中项目的频率计数。
下表对比了每种衡量标准的特征:
衡量标准尺度 属性具有绝对的数字含义吗? 能执行大多数数学运算吗?
定比尺度 是。 是。
定距尺度 对于定距尺度是这样;零点是任意的。 加和减。
定序尺度 不是。 计数和排序。
定类尺度 不是。 只能计数。
在本文中,我将主要讨论通过使用测量的定类尺度收集的数据,以及适用于定类数据的推论技术。
使用定类尺度
几乎所有 Web 用户 — 设计人员、客户和系统管理员 — 都熟悉定类尺度。Web 民意测验和访问日志类似,因为它们常常使用定类尺度作为衡量标准。在 Web 民意测验中,用户常常通过请求人们选择回答选项(如“您偏爱品牌 A、品牌 B,还是品牌 C?”)来衡量人们的偏好。通过对各类回答的频率进行计数来汇总数据。
类似的,测量网站流量的常用方法是对一个星期内一天之中的每次点击或访问都划分给这一天,然后对每一天出现的点击或访问的数目计数。另外,您可以(也确实可以)通过浏览器类型、操作系统类型和访问者所在的国家或地区 — 以及任何您想得到的分类尺度 — 对点击计数。
因为 Web 民意测验和访问统计信息都需要对数据归入某一特定性质类别的次数进行计数,所以可以用相似的无参数统计检验(允许您根据分布形状而不是总体参数作出推论的检验)来分析它们。
David Sheskin 在他的 Handbook of Parametric and Non-Parametric Statistical Procedures 一书(第 19 页, 1997)中,是这样区分参数检验和非参数检验的:
本书中将过程分类为参数检验和非参数检验所使用的区别主要基于被分析数据所代表的测量级别。作为通用规则,评估类别/定类尺度数据和顺序/等级-顺序数据的推论统计检验被归类为非参数检验,而那些评估定距尺度数据或定比尺度数据的检验则被归类为参数检验。
当作为参数检验基础的某些假设值得怀疑时,非参数检验也很有用;当不满足参数假设时,非参数检验在检测总体差异时有很大的作用。对于 Web 民意测验的示例,我使用了非参数分析过程,因为 Web 民意测验通常使用定类尺度来记录投票者的偏好。
我并不是在建议 Web 民意测验和 Web 访问统计信息应该始终使用定类尺度衡量标准,或者说非参数统计检验是唯一可用于分析这类数据的方法。不难设想有(譬如)这样的民意测验和调查,它们要求用户对每个选项提供数值评分(从 1 到 100),对此,参数性的统计检验就比较合适。
尽管如此,许多 Web 数据流包括编辑类别计数数据,而且通过定义定距尺度(譬如从 17 到 21)并将每个数据点分配给一个定距尺度(如“年轻人”),可以将这些数据(通过使用功能更强大的衡量标准测量)变成定类尺度数据。频率数据的普遍存在(已经是 Web 开发人员经验的一部分),使得专注于非参数统计学成为学习如何将推论技术应用到数据流的良好起点。
为了使本文保持合理的篇幅,我将把对 Web 数据流分析的讨论局限于 Web 民意测验。但是请记住,许多 Web 数据流都可以用定类计数数据表示,而我讨论的推论技术将使您能做比报告简单的计数数据更多的事情。
从抽样开始
假设您在您的站点 www.NovaScotiaBeerDrinkers.com 上进行每周一次的民意测验,询问成员对各种主题的意见。您已经创建了一个民意测验,询问成员喜爱的啤酒品牌(在加拿大新斯科舍省(Nova Scotia)有三种知名的啤酒品牌:Keiths、Olands 和 Schooner)。为了使调查尽可能范围广泛,您在回答中包括“其它”。
您收到 1,000 条回答,请观察到表 1 中的结果。(本文显示的结果只作为演示之用,并不基于任何实际调查。)
表 1. 啤酒民意测验Keiths Olands Schooner 其它
285(28.50%) 250(25.00%) 215(21.50%) 250(25.00%)
这些数据看上去支持这样的结论:Keiths 是最受新斯科舍省居民欢迎的品牌。根据这些数字,您能得出这一结论吗?换句话说,您能根据从样本获得的结果对新斯科舍省的啤酒消费者总体作出推论吗?
许多与样本收集方式有关的因素会使相对受欢迎程度的推论不正确。可能样本中包含了过多 Keiths 酿酒厂的雇员;可能您没有完全预防一个人投多次票的情况,而这个人可能使结果出现偏差;或许被挑选出来投票的人与没有被挑选出来投票的人不同;或许上网的投票人与不上网的投票人不同。
大多数 Web 民意测验都存在这些解释上的困难。当您试图从样本统计数据得出有关总体参数的结论时,就会出现这些解释上的困难。从实验设计观点看,在收集数据之前首先要问的一个问题是:能否采取步骤帮助确保样本能够代表所研究的总体。
如果对所研究的总体得出结论是您做 Web 民意测验的动机(而不是为站点访问者提供的消遣),那么您应该实现一些技术,以确保一人一票(所以,他们必须用唯一的标识登录才能投票),并确保随机选择投票者样本(例如,随机选择成员的子集,然后给他们发电子邮件,鼓励他们投票)。
最终,目标是消除(至少减少)各种偏差,它们可能会削弱对所研究总体得出结论的能力。
检验假设
假设新斯科舍省啤酒消费者统计样本没有发生偏差,您现在能够得出 Keiths 是最受欢迎品牌这一结论吗?
要回答这个问题,请考虑一个相关的问题:如果您要获得另一个新斯科舍省啤酒消费者的样本,您希望看到完全相同的结果吗?实际上,您会希望不同样本中所观察到的结果有一定的变化。
考虑这个预期的抽样可变性,您可能怀疑通过随机抽样可变性是否比反映所研究总体中的实际差异能更好地说明观察到的品牌偏好。在统计学术语中,这个抽样可变性说明被称为虚假设(null hypothesis)。(虚假设由符号 Ho 表示)在本例中,用公式将它表示成这样的语句:在作出回答的所有类别中,各种回答的期望数目相同。
Ho:# Keiths = # Olands = # Schooner = # Other
如果您能够排除虚假设,那么您在回答 Keiths 是否是最受欢迎品牌这个最初的问题上取得了一些进展。那么,另一个可接受的假设是在所研究的总体中,各种回答所占比例不同。
这个“先检验虚假设”逻辑在民意测验数据分析中的多个阶段都适用。排除这一虚假设,这样数据就不会完全不同,随后您可以继续检验一个更具体的虚假设,即 Keiths 和 Schooner,或者 Keiths 与其它所有品牌之间没有差别。
您继续检验虚假设而不是直接评估另一假设,是因为对于在虚假设条件下人们希望观察到的事物进行统计建模更容易。接下来,我将演示如何对在虚假设下所期望的事物建模,这样我就可以将观察结果与在虚假设条件下所期望的结果加以比较。
对虚假设建模:X 平方分布统计
到目前为止,您已经使用一个报告每种回答选项频率计数(和百分比)的表汇总了 Web 民意测验的结果。要检验虚假设(表单元频率之间不存在差别),计算每个表单元与您在虚假设条件下所期望值的总体偏差度量要容易得多。
在这个啤酒欢迎度民意测验的示例中,在虚假设条件下的期望频率如下:
期望频率 = 观察数目 / 回答选项的数目
期望频率 = 1000 / 4
期望频率 = 250
要计算每个单元中回答的内容与期望频率相差多少的总体度量,您可以将所有的差别总计到一个反映观察频率与期望频率相差多少的总体度量中:(285 - 250) + (250 - 250) + (215 - 250) + (250 - 250)。
如果您这么做,您会发现期望频率是 0,因为平均值的偏差的和永远是 0。要解决这个问题,应当取所有差值的平方(这就是X 平方分布(Chi Square)中平方的由来)。最后,为了使各样本(这些样本具有不同的观察数)的这个值具有可比性(换句话说,使它标准化),将该值除以期望频率。因此,X 平方分布统计的公式如下所示(“O”表示“观察频率”,“E”等于“期望频率”):
图 1. X 平方分布统计的公式
如果计算啤酒欢迎度民意测验数据的 X 平方分布统计,会得到值 9.80。要检验虚假设,需要知道在假设存在随机抽样可变性的情况下获得这么一个极限值的概率。要得出这一概率,需要理解 X 平方分布的抽样分布是什么样的。
观察 X 平方分布的抽样分布
图 2. X 平方分布图
在每幅图中,横轴表示所得到的 X 平方分布值大小(图中所示范围从 0 到 10)。纵轴显示各 X 平方分布值的概率(或称为出现的相对频率)。
当您研究这些 X 平方分布图时,请注意,当您在实验中改变*度(即 df)时,概率函数的形状会改变。对于民意测验数据的示例,*度是这样计算的:记下民意测验中的回答选项(k)的数目,然后用这个值减 1(df = k - 1)。
通常,当您在实验中增加回答选项的数目时,获得较大 X 平方分布值的概率会下降。这是因为当增加回答选项时,就增加了方差值的数目 — (观察值 - 期望值)2 — 您可以求它的总数。因此,当您增加回答选项时,获得大的 X 平方分布值的统计概率应该增加,而获得较小 X 平方分布值的概率会减少。这就是为什么 X 平方分布的抽样分布的形状随着 df 值的不同而变化的原因。
此外,要注意到通常人们对 X 平方分布结果的小数点部分不感兴趣,而是对位于所获得的值右边曲线的总计部分感兴趣。该尾数概率告诉您获取一个象您观察到的极限值是可能(如一个大的尾数区域)还是不可能(小的尾数区域)。(实际上,我不使用这些图来计算尾数概率,因为我可以实现数学函数来返回给定 X 平方分布值的尾数概率。我在本文后面讨论的 X 平方分布程序中会采用这种做法。)
要进一步了解这些图是如何派生出来的,可以看看如何模拟与 df = 2(它表示 k = 3)对应的图的内容。想象把数字 1、2 和 3 放进帽子里,摇一摇,选一个数字,然后记录所选的数字作为一次尝试。对这个实验进行 300 次尝试,然后计算 1、2 和 3 出现的频率。
每次您做这个实验时,都应当期望结果有稍微不同的频率分布,这一分布反映了抽样的可变性,同时,这个分布又不会真正偏离可能的概率范围。
下面的 Multinomial 类实现了这一想法。您可以用以下值初始化该类:要做实验的次数、每个实验中所做尝试的次数,以及每次试验的选项数目。每个实验的结果记录在一个名为 Outcomes 的数组中。
清单 1. Multinomial 类的内容
// Multinomial.php
// Copyright 2003, Paul Meagher
// Distributed under LGPL
class Multinomial {
var $NExps;
var $NTrials;
var $NOptions;
var $Outcomes = array();
function Multinomial($NExps, $NTrials, $NOptions) {
$this->NExps = $NExps;
$this->NTrials = $NTrials;
$this->NOptions = $NOptions;
for ($i=0; $i NExps; $i++) {
$this->Outcomes[$i] = $this->runExperiment();
}
}
function runExperiment() {
$Outcome = array();
for ($i = 0; $i NExps; $i++){
$choice = rand(1,$this->NOptions);
$Outcome[$choice]++;
}
return $Outcome;
}
}
?>
请注意,runExperiment 方法是该脚本中非常重要的一部分,它保证在每次实验中所做出的选择是随机的,并且跟踪到目前为止在模拟实验中做出了哪些选择。
为了找到 X 平方分布统计的抽样分布,只需获取每次实验的结果,并且计算该结果的 X 平方分布统计。由于随机抽样的可变性,因此这个 X 平方分布统计会随实验的不同而不同。
下面的脚本将每次实验获得的 X 平方分布统计写到一个输出文件以便稍后用图表表示。
清单 2. 将获得的 X 平方分布统计写到输出文件
// simulate.php
// Copyright 2003, Paul Meagher
// Distributed under LGPL
// Set time limit to 0 so script doesn't time out
set_time_limit(0);
require_once "../init.php";
require PHP_MATH . "chi/Multinomial.php";
require PHP_MATH . "chi/ChiSquare1D.php";
// Initialization parameters
$NExps = 10000;
$NTrials = 300;
$NOptions = 3;
$multi = new Multinomial($NExps, $NTrials, $NOptions);
$output = fopen("./data.txt","w") OR die("file won't open");
for ($i=0; $i// For each multinomial experiment, do chi square analysis
$chi = new ChiSquare1D($multi->Outcomes[$i]);
// Load obtained chi square value into sampling distribution array
$distribution[$i] = $chi->ChiSqObt;
// Write obtained chi square value to file
fputs($output, $distribution[$i]."n");
}
fclose ($output);
?>
为了使运行该实验所期望获得的结果可视化,对我来说,最简单的方法就是将 data.txt 文件装入开放源码统计包 R,运行 histogram 命令,并且在图形编辑器中编辑该图表,如下所示:
x = scan("data.txt")
hist(x, 50)
正如您可以看到的,这些 X 平方分布值的直方图与上面表示的 df = 2 的连续 X 平方分布的分布近似。
图 3. 与 df=2 的连续分布近似的值
在下面几节中,我将侧重于说明这个模拟实验中所使用的 X 平方分布软件的工作原理。通常情况下,X 平方分布软件将用于分析实际的定类尺度数据(例如 Web 民意测验结果、每周的流量报告或者客户品牌偏好报告),而不是您使用的模拟数据。您可能还会对该软件生成的其它输出 — 例如汇总表和尾数概率 — 感兴趣。
X 平方分布的实例变量
我开发的基于 php 的 X 平方分布软件包由用于分析频率数据的类构成,频率数据是按照一维或两维(ChiSquare1D.php 和 ChiSquare2D.php)进行分类的。我的讨论将仅局限于说明 ChiSquare1D.php 类的工作原理,以及说明如何将其应用于一维 Web 民意测验数据。
在继续之前,应当说明:按照两维对数据进行分类(例如,按照性别对啤酒偏好进行分类),允许您通过查找列联表单元中的系统关系或条件概率开始说明您的结果。尽管下面的许多讨论将有助于您理解 ChiSquare2D.php 软件的工作原理,但本文未讨论的其它实验、分析和可视化问题也是使用这个类之前必须处理的。
清单 3 研究了 ChiSquare1D.php 类的片段,它由以下部分构成:
1.一个被包含的文件
2.类实例变量
清单 3. 带有被包含的文件和实例变量的 X 平方分布类的片段
// ChiSquare1D.php
// Copyright 2003, Paul Meagher
// Distributed under LGPL
require_once PHP_MATH . "dist/Distribution.php";
class ChiSquare1D {
var $Total;
var $ObsFreq = array(); // Observed frequencies
var $ExpFreq = array(); // Expected frequencies
var $ExpProb = array(); // Expected probabilities
var $NumCells;
var $ChiSqObt;
var $DF;
var $Alpha;
var $ChiSqProb;
var $ChiSqCrit;
}
?>
清单 3 中这个脚本的顶部包含了一个名为 Distribution.php 的文件。所包含的路径合并了在 init.php 文件中设置的 PHP_MATH 常量,假定 init.php 文件已包含在调用脚本中。
所包含的文件 Distribution.php 包含了为几个常用的抽样分布(T 分布、F 分布和 X 平方分布)生成抽样分布统计信息的方法。ChiSquare1D.php 类必须能够访问 Distribution.php 中的 X 平方分布方法,以计算所得到的 X 平方分布值的尾数概率。
这个类中的实例变量列表值得注意,因为它们定义了由分析过程生成的结果对象。这个结果对象包含了有关检验的所有重要详细信息,包括三个重要的 X 平方分布统计 — ChiSqObt、ChiSqProb 和 ChiSqCrit。关于如何计算每个实例变量的详细信息,可以查阅该类的构造函数方法,所有这些值都源自那里。
构造函数:X 平方分布检验的主干
清单 4 给出了 X 平方分布的构造函数代码,它构成了 X 平方分布检验的主干。
清单 4. X 平方分布的构造函数
class ChiSquare1D {
function ChiSquare1D($ObsFreq, $Alpha=0.05, $ExpProb=FALSE) {
$this->ObsFreq = $ObsFreq;
$this->ExpProb = $ExpProb;
$this->Alpha = $Alpha;
$this->NumCells = count($this->ObsFreq);
$this->DF = $this->NumCells - 1;
$this->Total = $this->getTotal();
$this->ExpFreq = $this->getExpFreq();
$this->ChiSqObt = $this->getChiSqObt();
$this->ChiSqCrit = $this->getChiSqCrit();
$this->ChiSqProb = $this->getChiSqProb();
return true;
}
}
?>
构造函数方法中值得注意的四个方面是:
1.构造函数接受一个由观察到的频率组成的数组、alpha 概率断开点(cutoff score)和一个可选的期望概率的数组。
2.前六行涉及了相对简单的赋值和被记录的计算值,以便于完整的结果对象可用于调用脚本。
3.最后四行执行大量的获取 X 平方分布统计的工作,这些统计是您最感兴趣的。
4.该类只实现 X 平方分布检验逻辑。没有与该类相关联的输出方法。
您可以研究本文的代码下载中包含的类方法,以了解关于如何计算每个结果对象值的更多信息(请参阅参考资料)。
处理输出问题
清单 5 中的代码展示了使用 ChiSquare1D.php 类执行 X 平方分布分析是多么容易。它还演示了输出问题的处理。
该脚本调用一个名为 ChiSquare1D_HTML.php 的包装器脚本。这个包装器脚本的目的是使 X 平方分布过程的逻辑与它的表示方面相分离。_HTML 后缀表明输出针对的是标准的 Web 浏览器或其它显示 HTML 的设备。
包装器脚本的另一个目的是用便于理解数据的方式组织输出。为了达到这个目的,该类包含了两个用于显示 X 平方分布分析结果的方法。showTableSummary 方法显示了在代码后面展示的第一个输出表(表 2),而 showChiSquareStats 显示了第二个输出表(表 3)。
清单 5. 利用包装器脚本组织数据
// beer_poll_analysis.php
require_once "../init.php";
require_once PHP_MATH . "chi/ChiSquare1D_HTML.php";
$Headings = array("Keiths", "Olands", "Schooner", "Other");
$ObsFreq = array(285, 250, 215, 250);
$Alpha = 0.05;
$Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha);
$Chi->showTableSummary($Headings);
echo "
";
$Chi->showChiSquareStats();
?>
该脚本生成了下列输出:
表 2. 运行包装器脚本而获得的期望频率和方差
Keiths Olands Schooner 其它 合计
观察值 285 250 215 250 1000
期望值 250 250 250 250 1000
方差 4.90 0.00 4.90 0.00 9.80
表 3. 运行包装器脚本获得的各种 X 平方分布统计信息统计
DF 获得值 概率 临界值
X 平方分布 3 9.80 0.02 7.81
表 2 显示了期望频率以及每个单元的方差度量 (O - E)2 / E。方差值的和等于获得的 X 平方分布(9.80)值,这个值显示在汇总表的右下单元中。
表 3 报告了各种 X 平方分布统计信息。它包括了分析中使用的*度,并再次报告了获得的 X 平方分布值。获得的 X 平方分布值被重新表示成尾数概率值 — 在本例中是 0.02。这意味着,在虚假设条件下,观察到 X 平方分布极限值 9.80 的概率是 2%(这是一个相当低的概率)。
如果您决定排除虚假设 — 结果可以按照零分布的随机抽样可变性获得,那么大多数统计师都不会有争议。您的民意测验结果更有可能反映了新斯科舍省的啤酒消费者总体对于啤酒品牌偏好的真正差别。
为了确认这一结论,可以用获得的 X 平方分布值与临界值进行比较。
为什么临界值很重要呢?临界值建立在为该分析设置的某一重要级别(即 alpha 断开级别)之上。alpha 断开值按照惯例被设置为 0.05(上述分析使用的就是该值)。该设置用于查找 X 平方分布的抽样分布中包含尾数区域等于 alpha 断开值(0.05)的位置(或临界值)。
在本文中,获得的 X 平方分布值大于临界值。这意味着超出了保持虚假设说明的阈值。另一种假设 — 对象总体中存在着比例差异 — 在统计上可能更正确。
在数据流的自动化分析中,alpha 断开设置可以为知识-发现算法(例如 X 平方分布自动交互检测(Chi Square Automatic Interaction Detection,CHIAD))设置输出过滤,这样的算法自身在发现真正有用的模式方面无法为人们详细的指导。
重新进行民意测验
单向 X 平方分布检验的另一个有趣应用是重新进行民意测验,以了解人们的回答是否已发生变化。
假定过一段时间后,您打算对新斯科舍省的啤酒消费者进行另一次 Web 民意测验。您再次询问他们喜爱的啤酒品牌,现在观察到下列结果:
表 4. 新的啤酒民意测验
Keiths Olands Schooner 其它
385 (27.50%) 350 (25.00%) 315 (22.50%) 350 (25.00%)
旧的数据如下所示:
表 1. 旧的啤酒民意测验(再一次显示)
Keiths Olands Schooner 其它
285 (28.50%) 250 (25.00%) 215 (21.50%) 250 (25.00%)
民意测验结果之间的明显区别在于,第一次民意测验有 1,000 个调查对象,而第二次有 1,400 个调查对象。这些额外调查对象的主要影响是,使得每个回答情形的频率计数增加了 100 点。
当准备好对新的民意测验进行分析时,可以利用缺省的方法 — 计算期望频率来分析数据,也可以利用每个结果的期望概率(基于前一次民意测验所观察到的比例)来初始化分析。在第二种情形中,您将以前获得的比例装入期望概率数组($ExpProb),并使用它们来计算每个回答选项的期望频率值。
清单 6 显示了用于检测偏好变化的啤酒民意测验分析代码:
清单 6. 检测偏好的变化
// beer_repoll_analysis.php
require_once "../init.php";
require PHP_MATH . "chi/ChiSquare1D_HTML.php";
$Headings = array("Keiths", "Olands", "Schooner", "Other");
$ObsFreq = array(385, 350, 315, 350);
$Alpha = 0.05;
$ExpProb = array(.285, .250, .215, .250);
$Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha, $ExpProb);
$Chi->showTableSummary($Headings);
echo "
";
$Chi->showChiSquareStats();
?>
表 5 和 6 显示了 beer_repoll_analysis.php 脚本生成的 HTML 输出:
表 5. 运行 beer_repoll_analysis.php 而获得的期望频率和方差
Keiths Olands Schooner 其它 合计
观察值 385 350 315 350 1400
期望值 399 350 301 350 1400
方差 0.49 0.00 0.65 0.00 1.14
表 6. 运行 beer_repoll_analysis.php 所获得的各种 X 平方分布统计信息统计
DF 获得值 概率 临界值
X 平方分布 3 1.14 0.77 7.81
表 6 表明,在虚假设条件下,获得 X 平方分布值 1.14 的概率是 77%。我们不能排除这样的虚假设,即自从上一次民意测验以来,新斯科舍省啤酒消费者偏好已经发生了变化。观察频率和期望频率之间的任何差异都可以解释为新斯科舍省相同啤酒消费者的期望抽样可变性。考虑到最初民意测验结果的转换只是通过向前面每个民意测验结果添加常数 100 完成的,那么这种零发现也不应当有什么令人吃惊的地方了。
但是,您可以设想结果已经发生了变化,并且设想这些结果可能暗示着另一种品牌的啤酒正在变得更加流行(请注意表 5 中每列底部报告的方差大小)。您可以进一步设想这一发现对所讨论的酿酒厂的财务方面有显著的含义,因为酒吧老板往往会采购酒吧里最畅销的啤酒。
这些结果将受到酿酒厂老板极其详细的检查,他们会对分析过程和实验方法的适合性提出疑问;特别地,他们会对样本的代表性提出疑问。如果您打算进行一次 Web 实验,该实验可能具有重要的实际含义,那么,对于用来收集数据的实验方法和用来从数据得出推论的分析技术,您需要给予同等的关注。
因此,本文不仅为您奠定了一个良好的基础,以便于可以加强您对 Web 数据的有效理解,它还提供了一些建议,这些建议是有关如何保护您的统计检验选择的,并且使得从数据获得的结论更具合理性。
应用学到的知识
在本文中,您已经了解了如何将推论统计学应用于普遍存在的用于汇总 Web 数据流的频率数据,侧重于 Web 民意测验数据的分析。但是,所讨论的简单的单向 X 平方分布分析过程也能够有效地应用于其它类型的数据流(访问日志、调查结果、客户概要信息和客户订单),以便将原始数据转换成有用的知识。
在将推论统计学应用于 Web 数据时,我还介绍了希望将数据流视作 Web 实验的结果,以便于在作推论时提高引用实验设计考虑事项的可能性。通常由于您对于数据采集的过程缺乏足够的控制,因此您不能做出推论。但是,如果在将实验的设计原则应用于 Web 数据收集过程时您更加主动(例如,在您的 Web 民意测验过程中随机选择投票者),那么可以改变这种情形。
最后,我演示了如何模拟不同*度的 X 平方分布的抽样分布,而不只是仅说明其来源。在这样做的过程中,对于测量类别的期望频率小于 5(换而言之,即小 N 实验)— 我还演示了一种变通方法(使用小 $NTrials 值模拟实验的抽样分布)来禁止使用 X 平方分布检验。因此,我不只是使用研究过程中的 df 来计算样本结果的概率,对于数量较小的尝试,可能还需要使用 $NTrials 值作为参数来求得所观察 X 平方分布结果的概率。
考虑您可能会如何分析小 N 实验是值得的,因为您通常可能希望在数据采集完成之前分析您的数据 — 当每次观察的代价都很昂贵时,当观察需要花费很长时间才能获得时,或者只是因为您很好奇。在尝试这一级别的 Web 数据分析时,最好谨记下面这两个问题:
*您是否有理由在小 N 条件下进行推论?
*模拟有助于您决定在这些环境下获得什么推论吗?
对 Web 数据进行有效和多层次的分析是许多面向 Web 企业能够生存的关键因素,数据分析检验的设计(和决策)通常是系统管理员和内部应用程序设计人员的工作,而他们可能除了能够把原始计数制成表格之外,对统计学没有更多的了解。在本文中,Paul Meagher 向 Web 开发人员传授了将推论统计学应用到 Web 数据流所需的技能和概念。
动态网站不断生成大量的数据 — 访问日志、民意测验和调查结果、客户概要信息、订单及其它,Web 开发人员的工作不仅是创建生成这些数据的应用程序,而且还要开发使这些数据流有意义的应用程序和方法。
通常,对于由管理站点所产生的不断增长的数据分析需求,Web 开发人员的应对是不够的。一般而言,除了报告各种描述性统计信息之外,Web 开发人员并没有其它更好的方法来反映数据流特征。有许多推论统计步骤(根据样本数据估计总体参数的方法)可以被充分利用,但目前却没有应用它们。
例如,Web 访问统计信息(按当前所编辑的)只不过是以各种方式进行分组的频率计数。以原始计数和百分比表示民意测验和调查结果的情况比比皆是。
开发人员用比较浅显的方法处理数据流的统计分析或许已经足够了,我们不应期望太多。毕竟,有从事较复杂的数据流分析的专业人士;他们是统计师和受过训练的分析师。当组织需要的不仅仅是描述性统计时,可以请他们加入。
但另一种应对是承认对推论统计学日益加深的了解正成为 Web 开发人员工作描述的一部分。动态站点正在生成越来越多的数据,事实表明,设法将这些数据变成有用的知识正是 Web 开发人员和系统管理员的责任。
我提倡采取后一种应对;本文旨在帮助 Web 开发人员和系统管理员学习(或重温,如果知识已遗忘的话)将推论统计学应用到 Web 数据流所需的设计和分析技能。
使 Web 数据与实验设计相关
将推论统计学应用到 Web 数据流需要的不仅仅是学习作为各种统计检验基础的数学知识。将数据收集过程与实验设计中的关键差别关联起来的能力同样很重要:测量尺度是什么?样本的代表性如何?总体是什么?正在检验的假设是什么?
要将推论统计学应用到 Web 数据流,需要先把结果看作是由实验设计生成的;然后选择适用于该实验设计的分析过程。即使您可能认为将 Web 民意测验和访问日志数据看作实验的结果是多此一举,但这样做确实很重要。为什么?
1.这将帮助您选择适当的统计检验方法。
2.这将帮助您从收集的数据中得出适当的结论。
在确定要使用哪些适当的统计检验时,实验设计的一个重要方面是选择数据收集的衡量尺度。
衡量标准的示例
测量尺度只是指定了一个对所感兴趣的现象分配符号、字母或数字的步骤。例如,千克尺度允许您给一个物体分配数字,根据测量仪器的标准化的偏移量指示该物体的重量。
有四种重要的衡量标准:
定比尺度(ratio)— 千克尺度是定比尺度的一个示例 ? 分配给物体属性的符号具有数字意义。您可以对这些符号执行各种运算(如计算比率),而对于通过使用功能不那么强大的衡量标准获得的数值,您不能使用这些运算。
定距尺度(interval)— 在定距尺度中,任意两个相邻测量单位之间的距离(也称为间距)是相等的,但零点是任意的。定距尺度的示例包括对经度和潮汐高度的度量,以及不同年份始末的度量。定距尺度的值可以加减,但乘除则没有意义。
定序尺度(rank)— 定序尺度可应用于一组有顺序的数据,有顺序指的是属于该尺度的值和观察值可以按顺序排列或附带有评级尺度。常见的示例包括“好恶”民意测验,其中将数字分配给各个属性(从 1 = 非常厌恶到 5 = 非常喜欢)。通常,一组有序数据的类别有自然的顺序,但尺度上相邻点之间的差距不必总是相同的。对于有顺序的数据,您可以计数和排序,但不能测量。
定类尺度(nominal)— 衡量标准的定类尺度是衡量标准中最弱的一种形式,主要指将项目分配给组或类别。这种测量不带数量信息,并且不表示对项目进行排序。对定类尺度数据执行的主要数值运算是每一类别中项目的频率计数。
下表对比了每种衡量标准的特征:
衡量标准尺度 属性具有绝对的数字含义吗? 能执行大多数数学运算吗?
定比尺度 是。 是。
定距尺度 对于定距尺度是这样;零点是任意的。 加和减。
定序尺度 不是。 计数和排序。
定类尺度 不是。 只能计数。
在本文中,我将主要讨论通过使用测量的定类尺度收集的数据,以及适用于定类数据的推论技术。
使用定类尺度
几乎所有 Web 用户 — 设计人员、客户和系统管理员 — 都熟悉定类尺度。Web 民意测验和访问日志类似,因为它们常常使用定类尺度作为衡量标准。在 Web 民意测验中,用户常常通过请求人们选择回答选项(如“您偏爱品牌 A、品牌 B,还是品牌 C?”)来衡量人们的偏好。通过对各类回答的频率进行计数来汇总数据。
类似的,测量网站流量的常用方法是对一个星期内一天之中的每次点击或访问都划分给这一天,然后对每一天出现的点击或访问的数目计数。另外,您可以(也确实可以)通过浏览器类型、操作系统类型和访问者所在的国家或地区 — 以及任何您想得到的分类尺度 — 对点击计数。
因为 Web 民意测验和访问统计信息都需要对数据归入某一特定性质类别的次数进行计数,所以可以用相似的无参数统计检验(允许您根据分布形状而不是总体参数作出推论的检验)来分析它们。
David Sheskin 在他的 Handbook of Parametric and Non-Parametric Statistical Procedures 一书(第 19 页, 1997)中,是这样区分参数检验和非参数检验的:
本书中将过程分类为参数检验和非参数检验所使用的区别主要基于被分析数据所代表的测量级别。作为通用规则,评估类别/定类尺度数据和顺序/等级-顺序数据的推论统计检验被归类为非参数检验,而那些评估定距尺度数据或定比尺度数据的检验则被归类为参数检验。
当作为参数检验基础的某些假设值得怀疑时,非参数检验也很有用;当不满足参数假设时,非参数检验在检测总体差异时有很大的作用。对于 Web 民意测验的示例,我使用了非参数分析过程,因为 Web 民意测验通常使用定类尺度来记录投票者的偏好。
我并不是在建议 Web 民意测验和 Web 访问统计信息应该始终使用定类尺度衡量标准,或者说非参数统计检验是唯一可用于分析这类数据的方法。不难设想有(譬如)这样的民意测验和调查,它们要求用户对每个选项提供数值评分(从 1 到 100),对此,参数性的统计检验就比较合适。
尽管如此,许多 Web 数据流包括编辑类别计数数据,而且通过定义定距尺度(譬如从 17 到 21)并将每个数据点分配给一个定距尺度(如“年轻人”),可以将这些数据(通过使用功能更强大的衡量标准测量)变成定类尺度数据。频率数据的普遍存在(已经是 Web 开发人员经验的一部分),使得专注于非参数统计学成为学习如何将推论技术应用到数据流的良好起点。
为了使本文保持合理的篇幅,我将把对 Web 数据流分析的讨论局限于 Web 民意测验。但是请记住,许多 Web 数据流都可以用定类计数数据表示,而我讨论的推论技术将使您能做比报告简单的计数数据更多的事情。
从抽样开始
假设您在您的站点 www.NovaScotiaBeerDrinkers.com 上进行每周一次的民意测验,询问成员对各种主题的意见。您已经创建了一个民意测验,询问成员喜爱的啤酒品牌(在加拿大新斯科舍省(Nova Scotia)有三种知名的啤酒品牌:Keiths、Olands 和 Schooner)。为了使调查尽可能范围广泛,您在回答中包括“其它”。
您收到 1,000 条回答,请观察到表 1 中的结果。(本文显示的结果只作为演示之用,并不基于任何实际调查。)
表 1. 啤酒民意测验Keiths Olands Schooner 其它
285(28.50%) 250(25.00%) 215(21.50%) 250(25.00%)
这些数据看上去支持这样的结论:Keiths 是最受新斯科舍省居民欢迎的品牌。根据这些数字,您能得出这一结论吗?换句话说,您能根据从样本获得的结果对新斯科舍省的啤酒消费者总体作出推论吗?
许多与样本收集方式有关的因素会使相对受欢迎程度的推论不正确。可能样本中包含了过多 Keiths 酿酒厂的雇员;可能您没有完全预防一个人投多次票的情况,而这个人可能使结果出现偏差;或许被挑选出来投票的人与没有被挑选出来投票的人不同;或许上网的投票人与不上网的投票人不同。
大多数 Web 民意测验都存在这些解释上的困难。当您试图从样本统计数据得出有关总体参数的结论时,就会出现这些解释上的困难。从实验设计观点看,在收集数据之前首先要问的一个问题是:能否采取步骤帮助确保样本能够代表所研究的总体。
如果对所研究的总体得出结论是您做 Web 民意测验的动机(而不是为站点访问者提供的消遣),那么您应该实现一些技术,以确保一人一票(所以,他们必须用唯一的标识登录才能投票),并确保随机选择投票者样本(例如,随机选择成员的子集,然后给他们发电子邮件,鼓励他们投票)。
最终,目标是消除(至少减少)各种偏差,它们可能会削弱对所研究总体得出结论的能力。
检验假设
假设新斯科舍省啤酒消费者统计样本没有发生偏差,您现在能够得出 Keiths 是最受欢迎品牌这一结论吗?
要回答这个问题,请考虑一个相关的问题:如果您要获得另一个新斯科舍省啤酒消费者的样本,您希望看到完全相同的结果吗?实际上,您会希望不同样本中所观察到的结果有一定的变化。
考虑这个预期的抽样可变性,您可能怀疑通过随机抽样可变性是否比反映所研究总体中的实际差异能更好地说明观察到的品牌偏好。在统计学术语中,这个抽样可变性说明被称为虚假设(null hypothesis)。(虚假设由符号 Ho 表示)在本例中,用公式将它表示成这样的语句:在作出回答的所有类别中,各种回答的期望数目相同。
Ho:# Keiths = # Olands = # Schooner = # Other
如果您能够排除虚假设,那么您在回答 Keiths 是否是最受欢迎品牌这个最初的问题上取得了一些进展。那么,另一个可接受的假设是在所研究的总体中,各种回答所占比例不同。
这个“先检验虚假设”逻辑在民意测验数据分析中的多个阶段都适用。排除这一虚假设,这样数据就不会完全不同,随后您可以继续检验一个更具体的虚假设,即 Keiths 和 Schooner,或者 Keiths 与其它所有品牌之间没有差别。
您继续检验虚假设而不是直接评估另一假设,是因为对于在虚假设条件下人们希望观察到的事物进行统计建模更容易。接下来,我将演示如何对在虚假设下所期望的事物建模,这样我就可以将观察结果与在虚假设条件下所期望的结果加以比较。
对虚假设建模:X 平方分布统计
到目前为止,您已经使用一个报告每种回答选项频率计数(和百分比)的表汇总了 Web 民意测验的结果。要检验虚假设(表单元频率之间不存在差别),计算每个表单元与您在虚假设条件下所期望值的总体偏差度量要容易得多。
在这个啤酒欢迎度民意测验的示例中,在虚假设条件下的期望频率如下:
期望频率 = 观察数目 / 回答选项的数目
期望频率 = 1000 / 4
期望频率 = 250
要计算每个单元中回答的内容与期望频率相差多少的总体度量,您可以将所有的差别总计到一个反映观察频率与期望频率相差多少的总体度量中:(285 - 250) + (250 - 250) + (215 - 250) + (250 - 250)。
如果您这么做,您会发现期望频率是 0,因为平均值的偏差的和永远是 0。要解决这个问题,应当取所有差值的平方(这就是X 平方分布(Chi Square)中平方的由来)。最后,为了使各样本(这些样本具有不同的观察数)的这个值具有可比性(换句话说,使它标准化),将该值除以期望频率。因此,X 平方分布统计的公式如下所示(“O”表示“观察频率”,“E”等于“期望频率”):
图 1. X 平方分布统计的公式
如果计算啤酒欢迎度民意测验数据的 X 平方分布统计,会得到值 9.80。要检验虚假设,需要知道在假设存在随机抽样可变性的情况下获得这么一个极限值的概率。要得出这一概率,需要理解 X 平方分布的抽样分布是什么样的。
观察 X 平方分布的抽样分布
图 2. X 平方分布图
在每幅图中,横轴表示所得到的 X 平方分布值大小(图中所示范围从 0 到 10)。纵轴显示各 X 平方分布值的概率(或称为出现的相对频率)。
当您研究这些 X 平方分布图时,请注意,当您在实验中改变*度(即 df)时,概率函数的形状会改变。对于民意测验数据的示例,*度是这样计算的:记下民意测验中的回答选项(k)的数目,然后用这个值减 1(df = k - 1)。
通常,当您在实验中增加回答选项的数目时,获得较大 X 平方分布值的概率会下降。这是因为当增加回答选项时,就增加了方差值的数目 — (观察值 - 期望值)2 — 您可以求它的总数。因此,当您增加回答选项时,获得大的 X 平方分布值的统计概率应该增加,而获得较小 X 平方分布值的概率会减少。这就是为什么 X 平方分布的抽样分布的形状随着 df 值的不同而变化的原因。
此外,要注意到通常人们对 X 平方分布结果的小数点部分不感兴趣,而是对位于所获得的值右边曲线的总计部分感兴趣。该尾数概率告诉您获取一个象您观察到的极限值是可能(如一个大的尾数区域)还是不可能(小的尾数区域)。(实际上,我不使用这些图来计算尾数概率,因为我可以实现数学函数来返回给定 X 平方分布值的尾数概率。我在本文后面讨论的 X 平方分布程序中会采用这种做法。)
要进一步了解这些图是如何派生出来的,可以看看如何模拟与 df = 2(它表示 k = 3)对应的图的内容。想象把数字 1、2 和 3 放进帽子里,摇一摇,选一个数字,然后记录所选的数字作为一次尝试。对这个实验进行 300 次尝试,然后计算 1、2 和 3 出现的频率。
每次您做这个实验时,都应当期望结果有稍微不同的频率分布,这一分布反映了抽样的可变性,同时,这个分布又不会真正偏离可能的概率范围。
下面的 Multinomial 类实现了这一想法。您可以用以下值初始化该类:要做实验的次数、每个实验中所做尝试的次数,以及每次试验的选项数目。每个实验的结果记录在一个名为 Outcomes 的数组中。
清单 1. Multinomial 类的内容
// Multinomial.php
// Copyright 2003, Paul Meagher
// Distributed under LGPL
class Multinomial {
var $NExps;
var $NTrials;
var $NOptions;
var $Outcomes = array();
function Multinomial($NExps, $NTrials, $NOptions) {
$this->NExps = $NExps;
$this->NTrials = $NTrials;
$this->NOptions = $NOptions;
for ($i=0; $i NExps; $i++) {
$this->Outcomes[$i] = $this->runExperiment();
}
}
function runExperiment() {
$Outcome = array();
for ($i = 0; $i NExps; $i++){
$choice = rand(1,$this->NOptions);
$Outcome[$choice]++;
}
return $Outcome;
}
}
?>
请注意,runExperiment 方法是该脚本中非常重要的一部分,它保证在每次实验中所做出的选择是随机的,并且跟踪到目前为止在模拟实验中做出了哪些选择。
为了找到 X 平方分布统计的抽样分布,只需获取每次实验的结果,并且计算该结果的 X 平方分布统计。由于随机抽样的可变性,因此这个 X 平方分布统计会随实验的不同而不同。
下面的脚本将每次实验获得的 X 平方分布统计写到一个输出文件以便稍后用图表表示。
清单 2. 将获得的 X 平方分布统计写到输出文件
// simulate.php
// Copyright 2003, Paul Meagher
// Distributed under LGPL
// Set time limit to 0 so script doesn't time out
set_time_limit(0);
require_once "../init.php";
require PHP_MATH . "chi/Multinomial.php";
require PHP_MATH . "chi/ChiSquare1D.php";
// Initialization parameters
$NExps = 10000;
$NTrials = 300;
$NOptions = 3;
$multi = new Multinomial($NExps, $NTrials, $NOptions);
$output = fopen("./data.txt","w") OR die("file won't open");
for ($i=0; $i// For each multinomial experiment, do chi square analysis
$chi = new ChiSquare1D($multi->Outcomes[$i]);
// Load obtained chi square value into sampling distribution array
$distribution[$i] = $chi->ChiSqObt;
// Write obtained chi square value to file
fputs($output, $distribution[$i]."n");
}
fclose ($output);
?>
为了使运行该实验所期望获得的结果可视化,对我来说,最简单的方法就是将 data.txt 文件装入开放源码统计包 R,运行 histogram 命令,并且在图形编辑器中编辑该图表,如下所示:
x = scan("data.txt")
hist(x, 50)
正如您可以看到的,这些 X 平方分布值的直方图与上面表示的 df = 2 的连续 X 平方分布的分布近似。
图 3. 与 df=2 的连续分布近似的值
在下面几节中,我将侧重于说明这个模拟实验中所使用的 X 平方分布软件的工作原理。通常情况下,X 平方分布软件将用于分析实际的定类尺度数据(例如 Web 民意测验结果、每周的流量报告或者客户品牌偏好报告),而不是您使用的模拟数据。您可能还会对该软件生成的其它输出 — 例如汇总表和尾数概率 — 感兴趣。
X 平方分布的实例变量
我开发的基于 php 的 X 平方分布软件包由用于分析频率数据的类构成,频率数据是按照一维或两维(ChiSquare1D.php 和 ChiSquare2D.php)进行分类的。我的讨论将仅局限于说明 ChiSquare1D.php 类的工作原理,以及说明如何将其应用于一维 Web 民意测验数据。
在继续之前,应当说明:按照两维对数据进行分类(例如,按照性别对啤酒偏好进行分类),允许您通过查找列联表单元中的系统关系或条件概率开始说明您的结果。尽管下面的许多讨论将有助于您理解 ChiSquare2D.php 软件的工作原理,但本文未讨论的其它实验、分析和可视化问题也是使用这个类之前必须处理的。
清单 3 研究了 ChiSquare1D.php 类的片段,它由以下部分构成:
1.一个被包含的文件
2.类实例变量
清单 3. 带有被包含的文件和实例变量的 X 平方分布类的片段
// ChiSquare1D.php
// Copyright 2003, Paul Meagher
// Distributed under LGPL
require_once PHP_MATH . "dist/Distribution.php";
class ChiSquare1D {
var $Total;
var $ObsFreq = array(); // Observed frequencies
var $ExpFreq = array(); // Expected frequencies
var $ExpProb = array(); // Expected probabilities
var $NumCells;
var $ChiSqObt;
var $DF;
var $Alpha;
var $ChiSqProb;
var $ChiSqCrit;
}
?>
清单 3 中这个脚本的顶部包含了一个名为 Distribution.php 的文件。所包含的路径合并了在 init.php 文件中设置的 PHP_MATH 常量,假定 init.php 文件已包含在调用脚本中。
所包含的文件 Distribution.php 包含了为几个常用的抽样分布(T 分布、F 分布和 X 平方分布)生成抽样分布统计信息的方法。ChiSquare1D.php 类必须能够访问 Distribution.php 中的 X 平方分布方法,以计算所得到的 X 平方分布值的尾数概率。
这个类中的实例变量列表值得注意,因为它们定义了由分析过程生成的结果对象。这个结果对象包含了有关检验的所有重要详细信息,包括三个重要的 X 平方分布统计 — ChiSqObt、ChiSqProb 和 ChiSqCrit。关于如何计算每个实例变量的详细信息,可以查阅该类的构造函数方法,所有这些值都源自那里。
构造函数:X 平方分布检验的主干
清单 4 给出了 X 平方分布的构造函数代码,它构成了 X 平方分布检验的主干。
清单 4. X 平方分布的构造函数
class ChiSquare1D {
function ChiSquare1D($ObsFreq, $Alpha=0.05, $ExpProb=FALSE) {
$this->ObsFreq = $ObsFreq;
$this->ExpProb = $ExpProb;
$this->Alpha = $Alpha;
$this->NumCells = count($this->ObsFreq);
$this->DF = $this->NumCells - 1;
$this->Total = $this->getTotal();
$this->ExpFreq = $this->getExpFreq();
$this->ChiSqObt = $this->getChiSqObt();
$this->ChiSqCrit = $this->getChiSqCrit();
$this->ChiSqProb = $this->getChiSqProb();
return true;
}
}
?>
构造函数方法中值得注意的四个方面是:
1.构造函数接受一个由观察到的频率组成的数组、alpha 概率断开点(cutoff score)和一个可选的期望概率的数组。
2.前六行涉及了相对简单的赋值和被记录的计算值,以便于完整的结果对象可用于调用脚本。
3.最后四行执行大量的获取 X 平方分布统计的工作,这些统计是您最感兴趣的。
4.该类只实现 X 平方分布检验逻辑。没有与该类相关联的输出方法。
您可以研究本文的代码下载中包含的类方法,以了解关于如何计算每个结果对象值的更多信息(请参阅参考资料)。
处理输出问题
清单 5 中的代码展示了使用 ChiSquare1D.php 类执行 X 平方分布分析是多么容易。它还演示了输出问题的处理。
该脚本调用一个名为 ChiSquare1D_HTML.php 的包装器脚本。这个包装器脚本的目的是使 X 平方分布过程的逻辑与它的表示方面相分离。_HTML 后缀表明输出针对的是标准的 Web 浏览器或其它显示 HTML 的设备。
包装器脚本的另一个目的是用便于理解数据的方式组织输出。为了达到这个目的,该类包含了两个用于显示 X 平方分布分析结果的方法。showTableSummary 方法显示了在代码后面展示的第一个输出表(表 2),而 showChiSquareStats 显示了第二个输出表(表 3)。
清单 5. 利用包装器脚本组织数据
// beer_poll_analysis.php
require_once "../init.php";
require_once PHP_MATH . "chi/ChiSquare1D_HTML.php";
$Headings = array("Keiths", "Olands", "Schooner", "Other");
$ObsFreq = array(285, 250, 215, 250);
$Alpha = 0.05;
$Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha);
$Chi->showTableSummary($Headings);
echo "
";
$Chi->showChiSquareStats();
?>
该脚本生成了下列输出:
表 2. 运行包装器脚本而获得的期望频率和方差
Keiths Olands Schooner 其它 合计
观察值 285 250 215 250 1000
期望值 250 250 250 250 1000
方差 4.90 0.00 4.90 0.00 9.80
表 3. 运行包装器脚本获得的各种 X 平方分布统计信息统计
DF 获得值 概率 临界值
X 平方分布 3 9.80 0.02 7.81
表 2 显示了期望频率以及每个单元的方差度量 (O - E)2 / E。方差值的和等于获得的 X 平方分布(9.80)值,这个值显示在汇总表的右下单元中。
表 3 报告了各种 X 平方分布统计信息。它包括了分析中使用的*度,并再次报告了获得的 X 平方分布值。获得的 X 平方分布值被重新表示成尾数概率值 — 在本例中是 0.02。这意味着,在虚假设条件下,观察到 X 平方分布极限值 9.80 的概率是 2%(这是一个相当低的概率)。
如果您决定排除虚假设 — 结果可以按照零分布的随机抽样可变性获得,那么大多数统计师都不会有争议。您的民意测验结果更有可能反映了新斯科舍省的啤酒消费者总体对于啤酒品牌偏好的真正差别。
为了确认这一结论,可以用获得的 X 平方分布值与临界值进行比较。
为什么临界值很重要呢?临界值建立在为该分析设置的某一重要级别(即 alpha 断开级别)之上。alpha 断开值按照惯例被设置为 0.05(上述分析使用的就是该值)。该设置用于查找 X 平方分布的抽样分布中包含尾数区域等于 alpha 断开值(0.05)的位置(或临界值)。
在本文中,获得的 X 平方分布值大于临界值。这意味着超出了保持虚假设说明的阈值。另一种假设 — 对象总体中存在着比例差异 — 在统计上可能更正确。
在数据流的自动化分析中,alpha 断开设置可以为知识-发现算法(例如 X 平方分布自动交互检测(Chi Square Automatic Interaction Detection,CHIAD))设置输出过滤,这样的算法自身在发现真正有用的模式方面无法为人们详细的指导。
重新进行民意测验
单向 X 平方分布检验的另一个有趣应用是重新进行民意测验,以了解人们的回答是否已发生变化。
假定过一段时间后,您打算对新斯科舍省的啤酒消费者进行另一次 Web 民意测验。您再次询问他们喜爱的啤酒品牌,现在观察到下列结果:
表 4. 新的啤酒民意测验
Keiths Olands Schooner 其它
385 (27.50%) 350 (25.00%) 315 (22.50%) 350 (25.00%)
旧的数据如下所示:
表 1. 旧的啤酒民意测验(再一次显示)
Keiths Olands Schooner 其它
285 (28.50%) 250 (25.00%) 215 (21.50%) 250 (25.00%)
民意测验结果之间的明显区别在于,第一次民意测验有 1,000 个调查对象,而第二次有 1,400 个调查对象。这些额外调查对象的主要影响是,使得每个回答情形的频率计数增加了 100 点。
当准备好对新的民意测验进行分析时,可以利用缺省的方法 — 计算期望频率来分析数据,也可以利用每个结果的期望概率(基于前一次民意测验所观察到的比例)来初始化分析。在第二种情形中,您将以前获得的比例装入期望概率数组($ExpProb),并使用它们来计算每个回答选项的期望频率值。
清单 6 显示了用于检测偏好变化的啤酒民意测验分析代码:
清单 6. 检测偏好的变化
// beer_repoll_analysis.php
require_once "../init.php";
require PHP_MATH . "chi/ChiSquare1D_HTML.php";
$Headings = array("Keiths", "Olands", "Schooner", "Other");
$ObsFreq = array(385, 350, 315, 350);
$Alpha = 0.05;
$ExpProb = array(.285, .250, .215, .250);
$Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha, $ExpProb);
$Chi->showTableSummary($Headings);
echo "
";
$Chi->showChiSquareStats();
?>
表 5 和 6 显示了 beer_repoll_analysis.php 脚本生成的 HTML 输出:
表 5. 运行 beer_repoll_analysis.php 而获得的期望频率和方差
Keiths Olands Schooner 其它 合计
观察值 385 350 315 350 1400
期望值 399 350 301 350 1400
方差 0.49 0.00 0.65 0.00 1.14
表 6. 运行 beer_repoll_analysis.php 所获得的各种 X 平方分布统计信息统计
DF 获得值 概率 临界值
X 平方分布 3 1.14 0.77 7.81
表 6 表明,在虚假设条件下,获得 X 平方分布值 1.14 的概率是 77%。我们不能排除这样的虚假设,即自从上一次民意测验以来,新斯科舍省啤酒消费者偏好已经发生了变化。观察频率和期望频率之间的任何差异都可以解释为新斯科舍省相同啤酒消费者的期望抽样可变性。考虑到最初民意测验结果的转换只是通过向前面每个民意测验结果添加常数 100 完成的,那么这种零发现也不应当有什么令人吃惊的地方了。
但是,您可以设想结果已经发生了变化,并且设想这些结果可能暗示着另一种品牌的啤酒正在变得更加流行(请注意表 5 中每列底部报告的方差大小)。您可以进一步设想这一发现对所讨论的酿酒厂的财务方面有显著的含义,因为酒吧老板往往会采购酒吧里最畅销的啤酒。
这些结果将受到酿酒厂老板极其详细的检查,他们会对分析过程和实验方法的适合性提出疑问;特别地,他们会对样本的代表性提出疑问。如果您打算进行一次 Web 实验,该实验可能具有重要的实际含义,那么,对于用来收集数据的实验方法和用来从数据得出推论的分析技术,您需要给予同等的关注。
因此,本文不仅为您奠定了一个良好的基础,以便于可以加强您对 Web 数据的有效理解,它还提供了一些建议,这些建议是有关如何保护您的统计检验选择的,并且使得从数据获得的结论更具合理性。
应用学到的知识
在本文中,您已经了解了如何将推论统计学应用于普遍存在的用于汇总 Web 数据流的频率数据,侧重于 Web 民意测验数据的分析。但是,所讨论的简单的单向 X 平方分布分析过程也能够有效地应用于其它类型的数据流(访问日志、调查结果、客户概要信息和客户订单),以便将原始数据转换成有用的知识。
在将推论统计学应用于 Web 数据时,我还介绍了希望将数据流视作 Web 实验的结果,以便于在作推论时提高引用实验设计考虑事项的可能性。通常由于您对于数据采集的过程缺乏足够的控制,因此您不能做出推论。但是,如果在将实验的设计原则应用于 Web 数据收集过程时您更加主动(例如,在您的 Web 民意测验过程中随机选择投票者),那么可以改变这种情形。
最后,我演示了如何模拟不同*度的 X 平方分布的抽样分布,而不只是仅说明其来源。在这样做的过程中,对于测量类别的期望频率小于 5(换而言之,即小 N 实验)— 我还演示了一种变通方法(使用小 $NTrials 值模拟实验的抽样分布)来禁止使用 X 平方分布检验。因此,我不只是使用研究过程中的 df 来计算样本结果的概率,对于数量较小的尝试,可能还需要使用 $NTrials 值作为参数来求得所观察 X 平方分布结果的概率。
考虑您可能会如何分析小 N 实验是值得的,因为您通常可能希望在数据采集完成之前分析您的数据 — 当每次观察的代价都很昂贵时,当观察需要花费很长时间才能获得时,或者只是因为您很好奇。在尝试这一级别的 Web 数据分析时,最好谨记下面这两个问题:
*您是否有理由在小 N 条件下进行推论?
*模拟有助于您决定在这些环境下获得什么推论吗?