从Bonferroni Corretion说起

Mining of Massive Datasets一书中曾简要介绍了有关Bonferroni的知识。关于Bonferroni。统计学上，为了解决多重比较(Multiple comparisons)的问题，我们使用在同一数据集(Same Dataset)上检验多个独立假设的1/n方法，也即：将显著水平设置为仅检验一个假设时的1/n。之所以为每一次独立的假设加权，是因为在实际统计的过程中，我们无法预测巨大样本中出现的随机事件所占的百分比，更通俗的说法是：在同一数据集上进行的这种多重假设，若显著水平设为5%(normal)，那么每20个假设中就有一个可能纯粹由于随机概率的影响而达到显著。(Bonferroni/Olive Jean Dunn 1959&1961) Bonferroni Corretion的应用又称为Bonferroni T Tests，是目前最为常用的事后鉴定方法之一，用于解决方差分析中反应变量的平均数差异。这里反映了进行数据挖掘与分析时需要注意的很重要的一点——在对数据分析的过程中，需要理性看待假设，随机数据的结论很可能正与你心中的假设“巧合”，如果在这时对准等概率事件的判断失误，那么就将做出错误乃至更加危险的决策。当然，选择合适的统计学方法在一定程度上避免了这些情况的发生。得出真实有用的建议与意见，是建立在对数据的整体把握上的。

版权声明：自由转载-非商用-非衍生-保持署名 | Creative Commons BY-NC-ND 3.0
转载请注明：Chentao’s Home