一个更直接的例子是所谓“生日悖论”。在获得奥斯卡最佳男主角奖的73名演员之中,有六对演员的生日相同。考虑到一年有365天,这是一个相当不均匀的分布,难道我们据此可以说这六个生日是演员出生的幸运日么?实际上,哪怕一个班级只有23个人,其中有两人生日相同的概率就超过50%。进一步如果这个班级有57人,那么有超过99%的可能性会出现相同的生日。
即使考虑到河南是个人口大省,而清华这样的名校的媒体曝光率比较高,这两个地方的坏消息似乎也比相同量级的省份或相同知名度的大学高了一点。所以结论难道不是明摆着的吗?如果骗子是在中国各个人口大省随机分布的,如果抄袭者是在中国各个名牌大学随机分布的,那为什么恰恰是河南和清华“脱颖而出”?
从极少的几个事例中发现规律这种思维在多数情况下都是有益的,其实是人的重要生存本能。当发现有两个小学生吃了食堂的午饭就出现不适症状之后,立即怀疑食堂的饭菜有问题绝对是明智的选择。进化心理学可以很好的解释为什么人会有这种自发寻找规律的心理:那个亲眼看到两个同伴吃了一种奇异的蘑菇就倒下了,还去吃这种蘑菇的原始人,不可能是我们的祖先。但我们必须明白这个道理,有些看似很有规律的事情其实是随机的。就算是一个投注站连续开出两次大奖,也不能说明这是个幸运投注站,或者说有什么阴谋。就算我们连续三天听说关于河南人的坏消息,也不能下结论说河南骗子比别的省多。除非你有大规模的统计数字。
问题的关键是随机分布不等于均匀分布。人们往往认为如果是随机的,那就应该是均匀的,殊不知这一点仅在样本总数非常大的时候才有效。当初 iPod 最早推出“随机播放”功能的时候,用户发现有些歌曲会被重复播放,他们据此认为播放根本不随机。苹果公司只好放弃真正的随机算法,用乔布斯本人的话说,就是改进以后的算法使播放“更不随机以至于让人感觉更随机”。一旦出现不均匀,人们就会认为其中必有缘故,而事实却是这可能只不过都是偶然的。
如果你曾经被河南人骗过,如果你恰好听说自己的一个朋友也被河南人骗过,如果你进一步发现网上也有个人被河南人骗过,你是否会得出结论河南骗子多呢?如果去年有个清华毕业的硕士生被查出来抄袭,今年又有个清华教授被查出来抄袭,你是否会得出结论说清华纵容抄袭呢?
一个受过高等教育的人如果想表现自己的科学素养,最简单的办法是鄙视“彩票分析学”。这门学问完全合法地出现在各种晚报,新浪,搜狐甚至是人民网上,认为彩票的中奖号码跟股票一样,存在“走势”。它使用“双色历史号码”,“余数走势”,“五行码”等五花八门的数字曲线,使用“奇偶分析”,“跨度分析”,“大中小分析”,帮助彩民预测下一期中奖号码。网上大多数讨论彩票“规律”的文章,甚至包括一些“专家”接受记者的采访,都信誓旦旦地认为彩票是有规律的。而任何一个学过概率统计的大学生都可以告诉彩民:彩票开奖是个随机过程,所有号码中奖的概率都是一样的,这次的中奖号码跟历史号码完全没关系。
在下结论之前我们先考察1940年的伦敦大轰炸。当时伦敦在德军V2导弹的攻击下损失惨重,报纸公布标记了所有受到轰炸地点的伦敦地图之后,人们发现轰炸点的分布很不均匀。有些地区反复受到轰炸,而有些地区却毫发无损。对英国军方来说这是一个非常恐怖的事情,因为这意味着V2导弹的精度比预想的要高得多,以至于德军可以精确选择轰炸目标。而伦敦居民则相信,那些没有遭到轰炸的地区是德国间谍居住的地方,有些人甚至开始搬家。
研究双色球的余数走势无疑是个缺少科学素养的愚蠢行为。但事实是,即使是受过很好教育的人面对随机事件也可能会犯类似的错误。这个错误就是试图从本来没有规律的事情中找到规律。
然而事后证明V2是一个精度相当差的实验性质的武器,与其说是导弹还不如说是大炮 — 德军只能大概地把它打向伦敦,而根本无法精确控制落点。也就是说伦敦各地区受到的轰炸完全是随机的。一直到1946年,有人从数学角度分析了轰炸数据,把整个可能受到轰炸的地区分为576个小块,发现其中229块没有受到任何轰炸,而有8个小块受到了4 次以上的轰炸。这些数据虽然不均匀,但完全符合随机分布。实际上科学家可以用计算机模拟的办法得到更多“看上去很不随机”的随机结果。