在我的短期课程中,在关于平均值和标准差的演讲中,不可避免地会有人问起异常值。最后,我添加了一个关于如何使用Grubbs测试来辨别从数据体中分离出来的点是否可以丢弃的章节。但是什么是异常值呢?员工们会对一组数据进行判断,并随意丢弃一个“看起来不对”的点。字典上的定义是“在数值上明显不同于样本其他部分的统计观察结果”。在来自总体的样本数据中,离群值可以是高于或低于其他数据的数据;或者,一些异常值可能高于和/或低于数据体。

为什么会出现异常值?

有时异常值是由于人为错误造成的。例如,在笔记本上记录的测量值是800,而不是正确的80.0。大多数情况下,当出现异常值时,研究人员会正确地完成实验并记录数据,但当检查数据时,一个或多个数据点似乎与其余数据不匹配。

William Kruskal写了一篇关于野外观察,或者用我们的术语来说,异常值的短文。(2)Kruskal指出,如果一个异常值被识别出来了,就不能随意地抛弃它。该异常值必须与其余数据一起报告,然后从整体分析中排除,并给出合理的理由。排除的一个原因是研究人员确定地知道实验运行中存在缺陷。缺陷可能在实验结束前被发现,例如,树脂过热,或者在实验结束后,例如,笔记本可能记录使用了错误的程序。有时异常值是无法解释的。通常的做法是在一些统计检验的基础上排除异常值。如果排除了可疑的数据点,排除应该是不情愿的,对剩余数据的分析应该非常谨慎。在任何情况下,重复一遍,应该报告所有的数据,应该确定异常值,并给出为什么排除异常值的原因。

如何检测异常值?

使用点阵图或直方图等图形方法是识别可能的异常值的好方法(参见图1,表1中数据的直方图)。

当样本量很小时,例如,三个样本给出3,4和12的读数,研究人员可能立即决定丢弃12,因为它不接近其他两个,这两个匹配得很好。但这是危险的,因为结果的范围可能只是由于正常的实验变化。研究人员应该进行更多的重复。



对于回归,数据图可以显示一个异常值(图2)。诊断统计可以提示在分析数据时是否应该忽略可疑的异常值。该图显示第16点是可疑的,应该仔细检查。我们将在以后的文章中讨论回归。

总体中异常值的统计检验

在决定一个观察结果是一个可能的异常值,并且没有合理的解释为什么该观察结果应该被排除之后,研究人员就会战战兢兢地转向一个或多个统计检验。有些很简单;有些则不然。下面将讨论一个简短的清单。存在其他测试,但这些测试提供了一系列方法。

正负标准差
一个简单的测试是确定离群值在标准差方面离平均值有多远。Bienaymé-Chebyshev不等式(3)表示一个点在平均值k个标准差(s)内的概率为1/k2。因此,例如,放弃一个+ 4s的观测值的决定并不坏,因为距离平均值> 4s的离群值在16次中出现不到1次。这种测试在样本量至少为10的情况下效果最好,而且点数越多越好。

示例1

表1数据集的平均值为8.2,标准差为3.6。如果一个数据点比平均值大4s,则排除限制为8.2 +(4 * 3.6)= 22.6。由于可疑离群值为21,因此不能使用此测试丢弃可疑离群值。如果使用3s检验,则排除极限为8.2 +(3 * 3.6)= 19.0,可以丢弃可疑的离群值。危险在于,研究人员在9次中放弃1次是错误的,这不是很好的几率。

格拉布斯测验
Grubbs检验(4)形式化了标准偏差检验,并使用以下公式将计算结果Q与一组统计数据进行比较:



|平均值减去可能的异常值|
Q = ---------------- (1)
数据集的标准差
使用样本平均值和疑似离群值之间的差值的绝对值,因为离群值可能比数据集平均值更小或更大。将这个差值除以标准偏差得到Q。计算出来的Q与表2中使用总数据集中的观察数和适当的概率列的Q统计量进行比较。

示例2

表1数据集的平均值为8.2,标准差为3.6。运行第14次,结果为21,看起来是一个异常值。将该信息代入Grubbs方程,计算Q统计量。

| 8.2 - 21 | 12.8
Q = ------- = ------- = 3.6
3.6 - 3.6
将计算出的Q值与表中n = 22的Q值进行比较,可以以98%的置信度(A < 0.02)排除可疑的异常值,这意味着排除数据点的决定将错误小于2 / 100。使用Grubbs检验,异常值被移除,平均值将被重新计算并报告为7.6。标准差现在是2.3。记住,应报告所有22个数据点,并给出丢弃可疑观测的合理理由。

观察22也被怀疑是一个异常值,但格拉布斯检验只能在一组数据上使用一次。

箱线图
Tukey(5)开发了一种图形化方法来显示样本数据,即箱形图。图3所示的Box Plot显示了图1的数据。箱形图描绘了几个不同的统计数据以及任何异常点。方框本身根据数据计数描绘了第二个四分位数的下界和第三个四分位数的上限。方框内的一条线表示观测值的中值。胡须从盒子的顶部和底部延伸,表示最小和最大数据值,除非存在异常值,并且胡须的长度为四分位数的1.5。方框的宽度是点数对数的1.5倍,如果比较几个具有不同观测数的不同样本,这可能是有用的。还指出了可能的异常值。虽然不是来自Tukey,钻石图也可能包括在内。菱形的侧面点表示平均值,而菱形的顶部和底部点表示标准差。



迪克森测试
狄克逊检验基于有序数据的范围之比,因此不需要正态分布的数据。(6)在样本量小的情况下,测试效果良好。

数据按升序或降序排序,其中x1是疑似异常值。然后,从x1到x2和x1到xn的范围内计算出一个比率R。

| x1 - x2 |
R = ---------- (2)
| x1 - xn |
排除x1作为异常值的决定是通过将计算出的R统计量与临界值列表进行比较来做出的。表3给出了R的临界值,当n为3到7时使用。当n为8 ~ 10时,当n为11 ~ 13时,当n为14 ~ 30时,R统计数据有适用的表。

示例3

表1中的22个数据点以可疑离群值排在前:21、11、10、10、9、…、5、5、0。计算狄克逊比。

| 21 - 11 | 10
R = ----- = ----- = 0.476
| 21 - 0 | 21
将计算出的R值与表中n = 22的R统计值进行比较,可以以99%的置信度(A < 0.01)排除可疑的异常值,即决策的错误率小于1 / 100。异常值被移除,平均值将被重新计算并报告为7.6,标准偏差将为2.3。记住,应报告所有22个数据点,并给出丢弃可疑观测的合理理由。

皮尔斯的标准
在以前的离群值测试中,只能删除一个离群值。正如Ross所描述的,Pierce标准(7)允许连续消除一个或多个可疑异常值,无论它们都是高的,都是低的,或者可能有些是高的,有些是低的。

示例4

表1中的数据显示了两个可能的异常值——一个高值21;还有一个低值,0。分布的均值和标准差分别计算为8.2和3.6。表4中n = 22时,一个可疑观测值的P统计量值为2.251。属于数据集的一个数据点的最大允许偏差为3.6 * 2.251 = 8.1。第一个怀疑值的偏差为|21.0 - 8.2| = 12.8。该偏差大于最大允许偏差8.1,对应的异常点21从数据集中移除。由于第二个点可能是一个异常值,因此对两个可疑的观测值使用统计数据重复该过程。表中n = 22和2个可疑观测值的R统计量为1.960。最大允许偏差为3.6 * 1.960 = 7.1。 The deviation of the second most outlier point is |0 – 8.2| = 8.2 which is greater than 7.1 and so the second outlier point is rejected. If additional doubtful observations are present the process would be repeated until the deviation of a point from the mean is less than the calculated maximum allowable deviation. All 22 data points should be documented and the rational given for discarding the suspect observation. The average and standard deviation of the remaining eighteen remaining points should be reported as the values found for the experiment.

Hampel的方法
Hampel方法的结果是基于稳健统计的得分8,并使用了中位数,这比平均值更稳健。当使用平均值和标准偏差来确定异常值时,如在格拉布检验中,异常值将影响结果。例如,一个离群值位于平均值的偏高一侧;当它被丢弃时,平均值和标准差都变小了。当使用绝对偏差的中位数和中位数,丢弃离群值时,绝对偏差的中位数和中位数通常保持不变。另外,与其他只能丢弃一个异常值或连续丢弃异常值的测试相反,Hampel方法没有对潜在的异常值进行假设。

从所有值计算中位数,然后,计算实验值和中位数之间的绝对偏差(残差)。然后确定绝对偏差(MAD)的中位数。1.48 × MAD的值被用作中值离散度的稳健估计。用下面的公式计算Hampel分数H。

H = (xi - median) / MAD (3)

通常,当H大于某个截止统计量时,xi被认为是异常值。在排除异常值时,使用H = 2.5是非常自由的。更可靠的检验方法是H = 4或5。Hampel建议H值应大于4.5。

示例5

表1中的数据将用于演示Hampel评分的使用。22个数据点的中位数是8。每个数据点的绝对偏差由每个数据点减去中值| (xi - median) |来计算。绝对偏差的中位数为3。最后,通过绝对偏差除以中位数绝对偏差来计算H。对Hampel分数的回顾显示,实验14的H = 4.3,可能是一个异常值;实验0的H = 2.63,可能是可疑的,但如果没有其他原因,可能不应该被丢弃。

离群值会说谎吗?

如上所述,研究人员在考虑数据集时必须谨慎。诊断统计假设数据是正态分布的,也就是说,重复数据遵循正态分布——实验变化给出的值可能高于真实值,也可能低于真实值。在某些情况下,情况并非如此。例如,抗拉强度在平均值的低侧往往比在平均值的高侧有更多的值。样品中的缺陷导致样品过早破裂。抗拉强度数据集可能如下所示:2800、2850、2750、3800。我曾看到研究人员放弃了3800这个值,因为一个统计测试告诉他们这样做。值为3800的样本最有可能接近真实值,其他值来自过早失效。

另一个例子是防腐蚀涂层的生锈。一名研究人员勤奋地描述了复制面板的防锈性能,在盐水中浸泡5000小时后,表面锈蚀率为原来的10%和25%。研究人员计算并报告平均值和标准偏差。腐蚀试验与抗拉强度试验类似,试验变化不是正态分布。测试结果倾向于在高失败时给出更多的分数,在低失败时给出更少的分数。一个可能的原因是针孔的存在,这使得盐水到达面板表面。有25%锈蚀的面板可能并不能说明涂层的性能如何,而是表明面板的准备情况如何。在类似这些例子的倾斜测试中,获得更好结果的方法是运行更多的重复。

图1中的数据实际上是按响应值分组的流程数据。当图1中的数据按照测量的顺序绘制时(图4),潜在的异常值现在看起来像是工艺问题的指示,并且不能从数据集中排除。

作为发明的异常值

有时研究人员以一种漫不经心、漫不经心的方式使用统计设计,只看数字数据,做统计测试,而不真正看测试样本。当我评估基于丙烯酸多元醇的聚氨酯涂料的保光泽度时,我就想到了这一点。将三种具有不同物理和干燥性能的多元醇进行混合。这个想法是使用这些作为混合伙伴来获得中间属性。单独来说,每种树脂都能使涂层的佛罗里达保光度保持在原始光泽的50%左右,并且需要确认共混物能够保持这种质量。



建立了三种成分的混合设计,每种成分从0到100%不等。表6给出了涂层制备后的设计和光泽度,并在加速风化条件下模拟佛罗里达暴露四年,

所有用共混物制成的涂料,除一种外,都与用纯组分制成的涂料在同一范围内。人们倾向于说,这一点是一个异常值,并报告说,混合物可以成功地使用。最初我们就是这么做的。但当我们重新检查面板和数据时,我们发现成分B和c的混合具有意想不到的协同作用。作为优秀的研究人员,我们复制了这种配方。同样的高光泽保持再现。此外,当组分B的丙烯酸酯单体与组分C的丙烯酸酯单体结合并聚合时,新的丙烯酸多元醇的保光性同样好,并导致了新产品组分d。这导致了两项新专利:一项是物理共混物,一项是用单体共混物制成的新聚合物。这几个月的工作还不错。

结论

这个故事的寓意是,研究人员应该注意那些会导致下一个发现和发明的异常值。你不会想成为一个放弃一项发明的研究者。最安全的做法是对离群值实验进行额外的重复。