从Bonferroni Corretion说起

从Bonferroni Corretion说起

Mining of Massive Datasets一书中曾简要介绍了有关Bonferroni的知识。 关于Bonferroni。统计学上,为了解决多重比较(Multiple comparisons)的问题,我们使用在同一数据集(Same Dataset)上检验多个独立假设的1/n方法,也即:将显著水平设置为仅检验一个假设时的1/n。之所以为每一次独立的假设加权,是因为在实际统计的过程中,我们无法预测巨大样本中出现的随机事件所占的百分比,更通俗的说法是:在同一数据集上进行的这种多重假设,若显著水平设为5%(normal),那么每20个假设中就有一个可能纯粹由于随机概率的影响而达到显著。(Bonferroni/Olive Jean Dunn 1959&1961) Bonferroni Corretion的应用又称为Bonferroni T Tests,是目前最为常用的事后鉴定方法之一,用于解决方差分析中反应变量的平均数差异。 这里反映了进行数据挖掘与分析时需要注意的很重要的一点——在对数据分析的过程中,需要理性看待假设,随机数据的结论很可能正与你心中的假设“巧合”,如果在这时对准等概率事件的判断失误,那么就将做出错误乃至更加危险的决策。 当然,选择合适的统计学方法在一定程度上避免了这些情况的发生。得出真实有用的建议与意见,是建立在对数据的整体把握上的。