无论爱因斯坦理论中的那些新概念是多么地令人震惊(钟表变慢、质量会随速度增加等等),但它们都遵从关联性原则。在宣告牛顿力学的滞后性的同时,爱因斯坦的理论没有否定那些以牛顿观点为基础的运动事实,或者是认定其毫无意义。相反,在速度较低的情况下,这两种理论做出了本质上相同的预测。爱因斯坦理论的高明之处在于,它能够解释更为广泛的新现象(有时是令人吃惊的),而这些是牛顿力学所做不到的。因此,即使是爱因斯坦理论这个在科学历史上最惊人的、基础性的概念重构,也依旧遵循着关联性原则。
在讨论“向更有效的研究方法迈进”之前,我们必须纠正读者的一个错误概念,这个错误概念源于第5章的讨论,那就是“相关研究在科学中没有什么用处”。的确,当一个因果关系的假说需要验证时,操纵变量的研究方法更受青睐。然而,这并不意味着相关研究对于知识的获得毫无帮助。首先,许多科学假设是以相关或者不相关的形式来表述的,因此这类研究是在直接验证这些假设。第二,尽管相关并不意味着因果关系,但因果关系一定包含相关。也就是说,如果一个相关研究不能肯定地证实因果关系的假设,那它可以起到排除这一因果假设的作用。第三,相关研究或许比它们看上去更有用,因为最近新发展的复杂相关设计可以让研究者做出有限的因果推论。我们在第5章讨论了偏相关这种复杂的相关技术,这一技术有可能检验出变量间的关联是否能够被第三变量所解释。
最后,聚合性证据原则能够让我们摒弃一个误区,这个误区的形成是由于我们在第2章对于证伪性的讨论过分简单化所造成的。当时的讨论似乎让人觉得,当第一个与自己的理论相抵触的证据出现时,这个理论就算是被证伪了。然而事实并非如此(Pigliucci,2002)。正如理论是被聚合性证据所支持一样,它也要被聚合性的研究结果所否定。
加利福尼亚古生物学者凯文·帕迪安(Kevin Padian)给出了另外一个例子,说明当人们无法意识到关联性原则的重要性时,会如何误解科学的本质。谈到堪萨斯州学校董事会将进化论从学生的必修课中删除的决定时,帕迪安指出:“我们在谈论有关‘科学如何被整合’的一个误解。那种认为可以抛弃一部分科学——特别是像进化论这样一个可以把整个生物学串联起来的核心理论——并认为它没有其他关联的想法,实在是太荒唐了”(Carpenter, 1999, p.117)。生物哲学家迈克尔·鲁斯(Michael Ruse, 1999)指出,进化论与许多独立的科学领域都呈现出关联性,例如古生物学、胚胎学、形态学、生物地理学、神经系统科学等等。同样,赫门(Shermer, 1997)指出,“如果宇宙和地球只有一万年的历史,那么宇宙学、天文学、物理学、化学、地质学、古生物学、古人类学以及关于早期人类历史的科学都将是错误的”(p.143)。著名的科学作家和考古生物学家史蒂文·古尔德(Stephen J.Gould)赞同这一观点,“教生物学不教进化论,就像教授英语不教英语语法一样”(Wright, 1999, p.56)。
加拿大心理学家提莫西·摩尔(Timothy Moore, 1996)认为,如果人们能更加普遍地意识到聚合性原则,那么在法庭上将会更好地利用专家证词。他特别讨论了依赖专家证词的问题。证词属于个人意见,难以代表该领域专家的共识。摩尔引述了在“犹大圣徒”一案中的专家证词。这起案件涉及两个青少年的自杀,他们的父母控告摇滚乐队“犹大圣徒”在歌曲中传达的潜意识信息诱发了他们孩子的自杀。尽管专家证词指出,当时的科学共识是:没有任何证据显示那些潜意识信息能产生这种效果(即使是现在,这一共识仍然成立),然而,在一个不能反映实证性共识的学者进行了一番言之凿凿的心理动力学解释之后,这个案子的法官多少还是受了些影响。摩尔总结说,这个学者误导了法庭,“他的观点虽然极富想象力和逻辑性,但与当时对于此问题的主流科学理解相悖。长长的履历和尊贵的职位并不足以保证其观点是科学有效的,单个专家的证词是独特的、个人化的,并且未经更广泛的科学团体的认定,这样的专家不足以引导整个法庭”(p.38)。
相反,如果所有已知的研究都只强有力地检验了B、C和E,并且数据结果支持C并否定了B和E,那么理论C的说服力就不如前面例子中那么强了。原因在于,尽管产生了支持理论C的数据,仍然没有强有力的证据能够排除其他可能的理论(A和D)。因此,当一系列实验始终支持某个假定的理论,同时又能共同排除那些非常重要的竞争性理论时,研究就具备了高度的聚合性。尽管没有一个单独的实验能够排除其他可能的解释,但如果将一系列具有部分诊断性的研究按照上述例子中的方式加以汇总,就能得到一个比较有说服力的结论。
聚合性原则的最后一个启示是,当一个问题的最初的研究结果看上去有些矛盾时,我们不应当对此感到绝望。在科学中,证据融合的过程就像投影仪慢慢将一张未知的幻灯片的焦点调清晰。起初,屏幕上的模糊影像可能代表任何东西。接着,随着一点点地调整焦距,虽然这个图像仍不能被清楚地识别出来,但许多其他的可能假设也许会被排除。最后,当焦距调准,就可以非常有信心地做出最终的判断。证据融合过程就好比一个调焦过程。幻灯片的模糊影像就如同互相矛盾的数据,或者是那些支持多重假设的证据。
想想遗传学和分子生物学在过去一个世纪中的突飞猛进。这些进步的产生不是因为一个爱因斯坦式的伟人在关键时刻现身,然后搞定了一切。相反,数百个存在瑕疵的实验产生出来的数十种灵感和洞见,促成了现代生物学的整合。这些进步的发生,凭借的不是革命性地重构一些重大概念,而是几种都能站得住脚的不同解释进行长期与反复的交锋和对峙。经过十几年没有定论的实验、无数次的理论构思、争辩与批判,科学家们终于弄明白了基因到底是由蛋白质还是由核酸组成的。他们达成新的共识,但不是通过一次跃进式的改变。原子核的发现者恩斯特·卢瑟福强调了关联性原则的重要性,“科学家不能仅仅依靠一个人的观点,而是要依靠千万人的智慧”(Holton & Roller, 1958, p.166)
对于某个特定问题的研究,通常是从相对较弱的方法过渡到可以做出较强结论的方法。例如,研究者对某个特定假设的兴趣,常常源于某个异常感兴趣的特殊个案。正如我们在第4章中讨论的,这就是个案研究的真正作用:为更有效力的进一步研究提供一些假设,同时激发科学家们用更为严格的方法去研究这些假设。个案研究之后,研究者多采用相关研究来确认变量之间是否存在真正的关联,而不仅是存在于几个个案中的巧合现象。如果相关研究证实了变量之间的关联,研究者就开始尝试采用实验法来对相关变量进行操纵,借以找到变量之间可能存在的因果关系。这个递进的顺序就是:从个案研究到相关研究,再到操纵变量。尽管并非每个研究领域都遵循这个渐进式途径(有时不同类型的研究同时进行),但这一向更有效方法迈进的进程的确是普遍发生的。
科学工作的不确定性是大部分公众所意识不到的。科学实验很少能完全确定某个问题,或支持某一理论从而排除其他理论。新的理论也很少能够全面超越所有先前存在的相互竞争的概念体系。很多问题的确定并不像科学电影里所描绘的那样,由一个关键实验所决定,而是要等到科学界逐渐开始有了共识,认为支持某种理论的证据比支持其他任何理论的证据要有力得多。科学家所评估的证据不是来自于某个设计得异常完美的实验的数据,与之相反,科学家往往需要去评估来自几十篇实验论文的数据,这些实验各有瑕疵,但都能提供部分答案。科学发展的这种渐进模式受到阻碍,正是因为爱因斯坦综合症在公众中造成了一种思维定势,认为所有科学都和物理学一样,因为对于物理学来说,科学进步的跃进模式或许是最适用的。
然而,爱因斯坦的成就如丰碑般矗立,让这种科学发展模式统治了公众的内心。这种统治是持久的,因为它与媒体报道大部分新闻事件时所采用的隐含“脚本”高度吻合。人类历史上,像相对论那样遭受了那么多的胡言乱语和不实推论的理论并不多见(不,爱因斯坦没有证明一切都是相对的”——见Holton, 1996; Randall, 2005)。当然,我们的目的不是去批驳这些谬论,而是为了后面讨论和评估心理学中的理论做铺垫。
这一共识的产生并非源自于某个单独的重大研究成果,而是当康奈尔大学的一组研究人员(Lazar, Darlington, Murray, Royce, & Sniper, 1982)在20世纪60年代和70年代早期将来自11个不同早期教育项目上的几百个被试的数据汇总起来分析时,这种共识才得以建立。尽管单一项目的研究结果有时候很难去解释,但当它们汇聚在一起时,整体的研究结果就非常清晰了。早期教育干预的短期项目没有顺理成章地让IQ增加30分。另一方面,心智开启计划以及一些类似项目也并没有绝对失败。早期教育干预项目的确能对参与此项目的儿童后继的教育历程产生具体的影响。这些儿童更少会留级,更少被安排到特殊教育班,而且对学校和学业成绩有更为积极的态度,并持续表现出学业成绩提高(也可见Lee, Brooks-Gunn, Schnur, ScLiaw, 1990; Ramey, 1999)。
事实上,在这里有必要讨论一个类似肺癌起因的科学问题。医学诊断和治疗中的许多决策,都建立在不同研究结果能否汇聚为一个结论的基础之上。例如,当流行病学调查(可以说是一种涉及人类的现场研究,目的在于寻求某一疾病与环境及地理因素的关联)、精确控制的动物实验以及人类被试的临床实验等不同类型的研究结果,都趋向于汇聚在一个结论上时,医学界才会对这一结论抱有较大的信心,认定这一结论是可靠的,医生们才愿意在这些证据的基础上实施治疗方案。
这种把爱因斯坦式的革新视为科学典型的倾向,诱使我们误以为所有科学进步靠的都是重大飞跃。问题就在于,人们倾向于将这些例子泛化成一种观念,认为科学进步理所应当是这样产生的。事实上,很多科学领域的进步靠的都不是某一个突然的突破,而是由一系列构不成重大影响的停顿及前进之间的反复所组成的。
例如,假设针对某一现象,有五种不同的理论(称它们为A、B、C、D和E)同时存在,且都经过了一系列的实验验证。假设一部分实验以很强的效力检验了理论A、B和C,结果数据否定了A和B,支持了C。再想象一下,另外一些实验则以同样的效力检验了理论C、D和E,结果数据否定了D和E,支持了C。这种情况下,对于理论C我们就有了强有力的聚合性证据。我们不仅有了支持理论C的数据,还拥有了对抗其他竞争性解释的数据。强调一下,没有一个实验能够检验所有的理论,但是汇总起来,一系列实验就能做出有力的推断。
先前的讨论引出了一个证据评估的原则,这个原则在心理学中至关重要。它常被称作聚合性证据原则(或者操作聚合原则)。科学家和那些科学知识的运用者常常不得不做出判断:海量的证据到底说明了什么。在这种情况下,聚合性证据原则就成了一个非常重要的工具。聚合性证据原则对于科学信息的外行使用者来说也是个有效的工具,尤其是在他们要对心理学主张做出评估的时候。尽管对于聚合性证据这个概念所做的详尽性技术讨论将很快让我们晕头转向,但事实上,此概念在实际应用方面的作用很容易理解。我们将探索两种方式来表述这个原则,一种是按照“瑕疵实验”的逻辑,另一种是按照理论检验。
评估电视暴力影响的问题是一个典型例子,告诉我们:在心理学中,数据最后是如何累积起来用于解决问题的。尤其是在社会急切关注的领域,切记,这些问题的答案只能在大量不同研究结果实现融合之后缓慢地出现。通过单个突破性的研究是不可能解决这些问题的。用一个简单原理来总结:在评估心理学的实证证据时,心中要想的是“科学共识”,而不是“重大突破”;是“渐进整合”,而不是“大步飞跃”。
有这样一个来自心理学的例子。假设有两种疗法被开发出来,用于帮助有严重阅读困难的孩子缓解其问题。两种疗法都没有经过实证性的检验。第一种,疗法A是一个训练程序,目的是在音位水平上促进儿童对语言片段的认知。第二种,疗法B通过让孩子蒙上眼睛走平衡木以训练前庭器官的感受性。疗法A和疗法B在一个方面上是一致的——它们的效果都没有经过直接的实证检验,二者反响都不好。然而,其中一种疗法在关联性原则方面是占据优势的。疗法A与研究文献中的广泛共识具有一致性,在这些研究文献中提到,具有严重阅读困难的孩子受到阻碍,是因为孩子还没有发展出足够的对于语言片段结构的认知(Snowling & Hulme, 2005; Vellutino et al., 2004)。疗法B没有和任何相应的学术共识发生关联。这种关联性的差异预示疗法A是一个更好的选择,即使二者都还没有经过直接的检验。
将许多临床实验的数据汇总起来,形成一个足够大的数据库,以消除困扰单个实验的统计不确定性。元分析的最大优点,就是能从结果遍布的多个实验之中产生出一个明确的结果。(Plotkin, 1996, p.70)
美国心理学会的一支工作团队在心理学期刊上所做的关于统计方法的一番阐述,为本节内容提供了一个恰当的总结(Wilkinson,1999)。这个工作团队说:“研究者不应仅针对单个研究的结果做出解释,就好像其他文献所报告的结果与之毫无关系似的”(p.602)。不同研究结果之间达成聚合效应,才有利于推动科学进步。一个研究的结果也只有通过针对特定问题的诸多研究获得聚合性解释,才是有意义的。
在达成共识之前,其他许多科学也都经历了令人困扰的不确定时期(Ioannidis, 2004; Simonton,2004)。格兰德威尔(Gladwell, 1996)讲述了近来关于脑创伤患者紧急救治认识的演进过程。一名纽约患者非常幸运地得到了世界顶级专家之一简姆·加哲医生(Drjam Ghajar)的治疗。这位医生始终致力于改变该领域中一个临床上的错误看法。格兰德威尔说,若干年前,当加哲和其他五位研究者在对一些创伤治疗中心进行调研时发现,尽管类固醇已经被反复地证明无助于减少颅内压力(而且会带来潜在危害),然而仍有75%的昏迷状态的病人是用类固醇来治疗的。他写道:
“共识而非突破”这一原则,可以通过有关“儿童早期补偿性教育计划”的争议加以说明。在20世纪60年代末和70年代初,当时关于林登·约翰逊(Lyndon B.Johnson)总统提出的“优质社会计划”是否真的有效的争论正进行得如火如荼,公众经常会在报纸上看到这样的头条:“早期干预可将智商提高30分”和“心智开启计划是一个败笔”等等。一个外行人该如何面对如此矛盾的信息呢?在这个例子中,“科学共识而非重大突破”原则无疑可以提供一些帮助,因为这一原则提醒我们,这两个报纸头条可能都不太成熟。事实上,研究者又花了十年的时间才在这个重要的社会问题上达成一个科学共识。
当谈到几年前他的同行的观点时,加哲说,并不是说神经外科医生太过懒惰,而是这儿的信息太过庞杂,让人感到困惑(p.39)。
部分问题在于,在神经外科领域里,很难在治疗过程或者治疗上形成可信的、科学的结论。再者,大脑的复杂性和神秘性导致了一种提倡直觉的文化,并让每一个神经外科医生坚信自己的经验与其他任何人的经验一样有效(p.39)。
从极端上讲,导致一个实验出错的方式有无数种(或用术语来说,就是变得混淆)。然而在大多数情况下往往不会有那么多干扰性的关键因素。在某个特定领域中拥有丰富经验的科学家,往往很清楚什么是最关键的因素。因此,当对某一研究结果进行审查时,科学家总能察觉实验中的关键瑕疵。接下来,聚合性证据原则提示我们去审查相关研究文献所呈现的瑕疵模式,因为这类模式要么支持、要么否定我们想要做出的结论。
第二种伎俩是宣称先前的数据与他们的主题无关,因而不予考虑。为了实现“不予考虑”的结果,他们通常强调新理论呈现出“前所未有”的新颖性。类似“关于现实的全新观念”和“前所未有”这样的语句被频频使用。但实际上,真正的花招还在后面。“新理论”注定如此具有突破性,以至于源于其他理论测试的实验证据都被宣称是与之不相关的。只有能被新理论的框架所兼容的数据才会被考虑,也就是说,关联性原则被完全破坏了。显然,这个理论是如此之新,以至于他们可以理直气壮地说:与之关联的实证证据尚不存在呢。如此这般,你就拥有了一个适宜伪科学发展的优质土壤:旧的、“不相关”的数据灰飞烟灭,新的相关数据尚不存在。这种伎俩很容易得逞,因为爱因斯坦综合症蒙蔽了关联性原则。而颇具讽刺意味的是,关联性原则的重要性就是由爱因斯坦理论本身所论证的。
卢瑟福的观点强调了另一种区分科学与伪科学的方法。科学总是遵循关联性原则,其特点在于众多个体的参与,而对这些个体的贡献进行评判的标准,是看它在多大程度上加深了我们对自然界的了解。没有哪个单独的个体能够依靠其特殊地位来主导讨论。当然,在第1章,我们已经讨论过科学的这种公共性,相比之下,伪科学经常认为特定的权威和研究者才有接近真理的“特殊”机会。
在健康心理学中,有一个研究方法演进的例子,它涉及A型行为模式和心脏病之间的关系(Curtis & O' Keefe, 2002; Matthews, 2005; Smith, 2003; SulsScBunde, 2005)。最初,A型行为模式这一概念源于两位心脏病专家的观察,这二位医生从他们一些病人的行为中发现了一种稳定的模式,这种行为模式包括时间紧迫感、飘忽不定的敌意,以及对成就的极度渴求。于是,一些医生通过对少数个案的观察,提出了“A型人格”这一想法。这些个案研究提出了这个概念,但并不能作为有力证据来证明这种特定的行为模式是导致心脏病的原因之一。要证明这一点,需要的不仅是少数几个个案研究,它还需要由心脏病专家、生物化学家和心理学家团队数十年的努力。
科学发展的“跃进式”模式——我们可以称之为爱因斯坦综合症——让我们误入歧途,以为新的发现必定违反关联性原则。这一观念很危险,因为如果舍弃关联性原则,最大的受益者将是那些伪科学和伪理论的贩卖者。这些理论之所以受到青睐和关注,就是因为它们总被说成是“全新的”。“毕竟,相对论在它所在的时代是新生事物,对吧?”这句话经常被用做一种说辞,以证明某种新鲜玩意儿是正确的。当然,在这个伪科学家虎视眈眈的领域里,先前积累的事实数据看上去似乎是个巨大的绊脚石。然而事实上,这块绊脚石也无法阻挡这些伪科学家,这是因为他们有两种强有力的伎俩来化解这一麻烦。一种伎俩我们之前已经讨论过(见第2章),就是解释数据前先将这个理论变得不可证伪,这样就令先前的数据毫无用处了。
鲁斯(1999)讲述了一个例子来描述达尔文如何使用关联性原则,并舍弃了某个与其他学科之间缺乏必要关联性的新理论。当时达尔文想探寻一种能与他的自然选择理论相匹配的遗传机制,为此他试图去建立一个所谓“泛生论”的理论。“身体的各部位都会产生一些小的胚芽,这样胚芽在体内循,并在性器官处聚集,从而传给下一代”(p.64)。一个问题是,这个理论和细胞学说并不一致。第二个问题是达尔文没有解释这些胚芽是怎样被运送的,因为输血试验已经证明胚芽不能通过血液传输。基于这两点以及其他一些原因,泛生论在科学阵营里被淘汰出局,“因为它与生物学的其他领域不相兼容”(p.64)。
但是科学团体的结论不单单是建立在相关证据之上的。研究者不仅对两个变量之间的关联进行简单的测量,还使用了更为复杂的相关技术,这些相关技术允许研究者得出一些因果性质的试探性结论(其中一个如偏相关,在第5章中曾提到)。这类技术中,有一种方法采用纵向设计,即在不同时间点测量相同的两个变量——在这里就是电视暴力和攻击性。由这一设计所得到的相关模式可以告诉我们二者是否有因果联系。有人已经进行过这类研究,得到的结果表明:观看暴力电视节目的确有可能增加人们日后的攻击行为。
在心理学中,我们必须像走钢索一样谨小慎微。例如,我们必须抵御这样的诱惑:当证据还不确凿时,就把某一假说当作已经证实了的理论来对待。本书连续几章都反复强调了这种怀疑态度。要注意不要从相关中推论因果,拒绝接受见证叙述式的证据。与此同时,我们不应该对知识的不完整和最后结论有待探索等事情反应过度,并开始怀疑心理学究竟能否产生有说服力的结论。我们也不应该被“心理学不可能成为一门科学”这种非理性的主张所诱惑。根据这一立场,聚合性证据的原则可用来平衡对假设性知识所做的过度诠释。尽管所有的心理学研究都存在这样那样的瑕疵,但聚合性能让我们获得有说服力的结论。
聚合性证据原则同样能以理论检验的形式加以表述。当一系列实验始终支持某个假定的理论,同时又能共同排除那些最主要的竞争性理论时,研究就具有高度的聚合性。尽管没有一个单一的实验能排除所有的可能解释,然而一系列具有一定诊断效力的实验(如果所有数据都呈现某种特定趋势的话)就能产生一个极具说服力的结论。
心理学实验具有高度模糊性的因素,这毫不奇怪,因为其研究的问题涉及复杂的人类行为。如果心理学家坦然承认这个事实,然后耐心地去解释这个事实所带来的结果,那么公众就能够更好地理解这门科学。心理学家应该承认,尽管心理科学已然存在并且在不断进步,但这种进步是缓慢的,并且许多结论往往都来自于令人感到折磨的长时间的统合和争论之中。对于媒体经常宣称的所谓突破性进展,我们要永远带着怀疑的态度,但心理学主张所经受的怀疑却是千真万确的。
然而,这两位研究者清楚地知道,这些仅凭被试在实验室里的反应而做出的结论太过单薄了。因为在实验室中,被试都是在自愿报名到实验室来参加实验之后才目睹紧急事件的。为此,拉坦和达利设计了另外一个有趣的实验,希望在另一个情境中重现这一现象。他们找到一个愿意合作的卖酒的商店,该商店同意假装店里发生了盗窃事件。当收银员在店铺的后面为一个“顾客”拿啤酒时,该“顾客”(实际上是研究者的同伴)拿起一箱啤酒走出店门。这一幕总发生在收银台前一个或两个真正的顾客的眼皮底下。收银员回来后问这一个或两个顾客,“嗨,刚才在这里的那个人到哪儿去了?你看见他离开了吗?”这样,就给了顾客一个机会向收银员报告刚才发生的盗窃事件。与实验室实验的结果吻合:当旁观者在场的时候,向收银员报告盗窃案的行为受到了抑制。
媒体上这类所谓的“突破性”头条新闻,在很大程度上误导了公众对于心理学和其他科学的认识。一个特别典型的误解就是,它们让公众以为,某一科学研究领域中的所有问题都能通过某个关键实验得到解决,或者是某一个重要的灵感成就了理论的进步,并彻底颠覆了先前众多研究者累积的全部知识。这种科学进步观非常符合新闻媒体炒作的胃口,在媒体的运作方式里,对历史的追溯就是呈现支离破碎、缺乏连贯的小’型事件。对于好莱坞娱乐业来说,这也不失为一种颇为便利的模式,那里,事件必须有一个开头和圆满的结尾,含糊的东西都被理得清清楚楚。然而,这只是对科学进步的一种歪曲,如果对此信以为真,就会导致关于科学进步的错误观念,并削弱人们在某一问题上评估科学知识的能力。在本章中,我们将会讨论科学的两个原则——关联性原则和聚合性证据原则,用这些原则描述科学发展,将比“跃进模式”更为准确。
然而,最重要的原因可能在于,有时出于道德或伦理的考虑,我们无法对一些变量进行操纵(例如,营养不良或肢体残障)。而另外一些变量,诸如出生顺序、性别、年龄等,则因其无法被操纵而具有天然的相关性,涉及它们的科学知识也因此必须建立在相关证据基础上。当然,这一情况并不是心理学领域所独有。天文学家们显然无法操纵所有影响其研究对象的变量,然而他们依然能够做出结论。
我们能从这个例子中得到的最后一点经验就是,科学概念总是在不断地演进。这个论点是在第3章讨论操作性定义时首次提出的。最近的研究似乎表明,将A型行为与心脏病之间的关系说成是整体性的显得过于简单化了。原因在于,只有该概念中的特定成分(特别是对抗性敌意)才与心脏病有关联(Curtis & O' Keefe, 2002; Matthews, 2005; SulsScBunde, 2005)。因此,这是个很好的例证,从中可以看出,随着科学的进步,它是如何不断地揭示特定的关联,以及理论概念是如何被细化的。
在爱因斯坦的理论中,那些被重新定义的关于物理世界的概念是如此地基础,以至于那些通俗读物经常将其等同于艺术领域里的概念变化(一个二流诗人经过重新评估,摇身一变成了天才;一个艺术流派被断言灭亡)。这种做法忽视了概念变化在艺术和科学中最根本的差别。
简而言之,和心理学的众多领域一样,该领域也充斥着许多尚未聚焦的研究,并且未能以一种有利于找到聚合性的方式加以概念化。因此在1994年,加哲和他的几个同事参加了一系列学术会议,在这些会议上,他们试图对所有的证据进行综合,以期发现某种聚合性。这些会议是由大脑创伤基金会发起的,研究者们审阅了涉及大脑创伤处理的14个领域、超过4000份的科学论文。大脑创伤基金会的执行主席描述了神经外科专家是怎样工作的:“他们所做的工作是对科学文献的证据进行论证,一旦有人说‘我以往的经验就是如此’,所有人都会说,‘哦,不,那不算,我们要看到证据’”(Gladwell, 1996,p.40)。最后的结果被证明是富有成效的:
假设来自大量不同实验的结果都很一致地支持了某一特定结论。假如实验本身并不完善,我们应该继续去评估这些研究瑕疵的性质和程度。如果所有的实验都是以同样一种方式出现瑕疵,这些情况将会降低我们对实验结论的信心,因为结论的一致性也许仅仅源于一个特定的瑕赃,而这个瑕疵是所有实验共有的;另一方面,如果所有实验都呈现出不同的瑕疵,我们对结论的信心就会大增,因为结果的一致性看似并非源自某一个让所有实验结果都混淆不清的干扰性因素。正如安德森(1996)所言,“不同的方法很有可能涉及不同的假设,当一个假设能够通过众多基于不同假设的证伪检验时,我们可以说是得到了一个强有力的结论”(p.742)。
简而言之,证据汇聚起来支持了“A型行为模式是导致心脏病的重要原因”这一假设。对这个问题的研究提供了一个很好的范例,从中我们能清楚看到,研究是怎样从一个感兴趣的个案研究走向相关技术,最后到可以操纵变量的实验研究的。
社会心理学家并不是唯一试图在不同的情境中重复其研究结果的人。认知心理学家们也开始探索如何推广他们的许多实验结果。例如,吉格伦泽(Gigerenzer, 1984)研究了“频率-效力效应”的普遍性。这个效应是指,一个陌生但看似有理的论断,不管是真是假,只要经过不断地重复,就会增加人们对它的相信程度。这个效应成功地得到了重复验证,但是这些研究都是在实验情境中,以大学生为被试(并且绝大多数在美国)。于是吉格伦泽做了一个非实验室情境、以非大学生为被试的研究。他在德国慕尼黑测试了许多非大学生的成年人,测试在这些人家里进行,也发现了“频率-效力效应”,而且其程度与实验室中美国大学生被试所得的几乎相同。
在第10章中,我们将讨论许多带有概率性质的决策原则,这些决策原则最早都产生于实验室,但都经过了现场式的检验。例如,研究者检验了理疗师、股票经纪人、陪审员、经济学家及赌徒在各自所属情境下,是以何种方式做出概率推理的(Belsky & Gilovich, 1999; Gilovich, Griffin, & Kahneman, 2002; Hilton, 2003; Kahneman & Tversky, 2000)。行为决定理论的原则业已用于许多应用性的领域,例如,决定丹佛市警局使用哪种型号的子弹最为理想,以及决定是否在亚利桑那州中部建立大坝(Hammond, Harvey, & Hastie, 1992)。
同样,有人批评纵向相关技术尚存在争议,这并非毫无道理,因为它确实有争议。关键在于,“电视暴力和攻击性行为之间存在因果联系”这一结论依靠的并不完全是简单或复杂的相关证据,因为研究者还进行了无数的实验室研究,在这些研究中,电视暴力的数目得到了直接操纵,而不仅仅是被评估。在第6章,我们曾讨论过变量的操纵,操纵与随机分配等控制手段共同使用,就能避免相关研究在解释问题时存在的不足。如果有两组儿童,在其他变量均得到了实验平衡之后,仍然表现出不同水平的攻击性行为;如果这两组儿童的唯一的区别就是一组观看暴力节目,而另一组没有观看暴力节目,那我们能做出正确的推断:被操纵的变量(电视暴力——自变量)导致了结果变量(攻击性行为——因变量)的变化。这个结果在大部分实验研究中都出现了。
最后,研究者釆用了实验研究对变量进行操纵,以期证实二者间是否具有因果关系。一些研究试图去验证是否某些生理机制影响了两者之间的关系,并以动物作为被试——某些人所谓的“不是真实的生活”的研究方法。另外一些研究则以犯过心脏病的人为被试。这些被试被随机分配到两个组中的一组。一个组接受咨询,帮助他们避免传统的风险行为,例如吸烟或者吃高脂肪食物;另一组在接受同样的咨询的同时,还接受了一个以减少他们的A型行为为目的的训练项目。三年之后,在接受A型行为辅导的病人中,心脏病复发的情况要明显少很多。
这种情形类似于吸烟和肺癌的关系。烟草公司的老板们经常试图去误导公众,暗示吸烟导致肺癌的结论只基于个别研究,然后便开始批评个别研究。恰恰相反,支撑这个结论的是很多聚合性的证据。来自于不同研究的数据的聚合性是很强的,这些数据的聚合性不会因为对某个研究的批判而彻底改变。
证明聚合性证据原则的最好方法,就是检验心理学中一些仍存在争议的领域。让我们通过一个例子看看聚合性证据原则的重要性。这个问题是,接触暴力电视节目是否会增加孩子们的攻击性行为。对于这个问题,目前的科学共识是:观看暴力电视节目(或者电影)的确能增加儿童的攻击性行为。这种影响不是很大,但真实存在。科学家们对于这个结论的信心并非来自于某个单一的、权威的研究,而是来自许多研究结果的汇总(如,Anderson, Berkowitz, Donnerstein, Huesmann, Johnson, Linz, Malamuth, & Wartella, 2003; Anderson & Dill, 1999; Anderson & Huesmann, 2005; Anderson, Huston, Schmitt Linebarger, Linebarger, & Wright, 2001; Bushman & Anderson, 2002; Paik & Comstock, 1994)。这一研究结论适用于电视游戏、电视及电影(Anderson & Bushman, 2001)。这些研究所采用的研究设计、被试规模以及特定技术都有很大差别,但现在能够清楚发现,这些差别是此领域内各种研究的优势,而不是弱点。
这个指导方针已经用于挽救生命,但是有趣的是,当加哲自己开始讨论这段医学史的时候,他强调了证据聚合原则的价值和科学知识的公共性(来自本书第1章的一个原则)。“人们想把它归功于具体的某个人,我猜这是人类的天性,他们想要说,‘这是加哲创立的规范,他是一个伟大的医生’,但事实并非如此。这些标准是建立在当前最好的科学证据之上的,而且每一个人都可以使用。”(Gladwell, 1996, p.40)
聚合原则同样也意味着,我们应当乐于看到多种不同方法应用于各个心理学研究领域之中。因为不同的研究技术各有其优势和不足,用于获得特定结论的各种方法之间呈现一种相对的平衡是比较理想的。心理学长期以来都因过于依赖基于实验室的实验技术而受到诟病。这种批评在心理学家之间也是个争议性的话题。然而,一种确定无疑的趋势是,近年来,心理学各个领域都已经开始使用不同的研究方法了。例如,由于过度依赖实验室技术,社会心理学家遭受的批评可能是最多的,但社会心理学家已经开始转向了更富想象力的现场设计,以寻求聚合性的证据来支持他们的理论(Kunda,1999)。
在否定所有科学进步的“飞跃”或者关键实验模式的有效性的同时,我们不是说这种关键实验和理论发展模式从未发生过,相反,科学历史上一些著名案例表明这种模式的确出现过。爱因斯坦提出“相对论”就是迄今为止最著名的一个例子,至此,一系列非凡的理论灵感重新定义了时间、空间和物质等基本概念。
国家阅读评审小组(NRP, 2000; Ehri, Nunes, Stahl, & Willows, 2001)对一些关于阅读教育的研究所做的元分析就证明了这一点。例如,他们得出结论,对38个不同的研究结果的元分析“有力地支持了这一观点,即相比其他课程提供的非系统或非语音教学,系统的语音教学在孩子的成长中发挥了更大的作用”(p.2-84)。在报告的另一部分,NPR报告说,对于52个语音意识训练研究的元分析说明,“教孩子掌握在语言中运用声音,能帮助他们学会阅读,在不同的教学、测验及参与者的个性条件下,其效应量都远远大于随机水平,并且,虽然这些效应有大有小,但大部分都处于中等水平”(p.2-5)。
很快,这个研究从永远也不可能证实假设的纯粹个案研究,转向了更有效力的研究方法。研究者发展和检验了A型行为模式的操作性定义。大范围的流行病学研究证实了A型行为和心脏病之间的相关性。然后这种相关研究工作就变得很复杂了。研究者使用复杂的相关技术来搜寻潜在的第三变量。由于行为模式与其他传统心脏病风险因素中的一种(例如吸烟、肥胖和血液中胆固醇水平)存在相关,因此A型行为和心脏病之间有可能存在虚假相关。当其他的变量在统计上被排除后,A型行为模式和心脏病之间仍然具有关联。
例如,关于这个问题,早期研究揭示了观看暴力节目的数量和儿童攻击性行为之间的相关。这些相关证据不能被视为因果关系,指出这一点是非常正确的。也许是第三个变量导致了这种关联,也许更有攻击性的儿童选择去观看更多的暴力节目(方向性问题)。
尽管电视所属的产业能给孩子带来负面影响,证据十分确凿,但那些电视网和电视游戏产业的老板们还是自然而然地会抵制这些证据。他们发起了一场误导公众的运动,利用的正是公众“不能意识到研究结果是建立在许多研究的聚合上而非某个单一的、具有决定意义的证明上”这一特性。电视网公司不断挑选个案并暗示,只要证明每一个研究都存在瑕疵,就可以全盘否定总体的结论。尽管社会科学研究者也许会去回应对于某个具体研究的批评,但并不能就此认为研究者总是轻易承认某个特定研究存在着缺陷。关键的区别就在于,研究者拒绝这样的暗示,即承认某个特定研究存在瑕疵,就否定了“影视暴力会对攻击性行为产生影响”这一普遍的科学共识。其原因就在于,普遍的结论来源于聚合性。即使是不包含这类瑕疵的研究,其结果也会指向同一方向。这一研究当然也有其自身的问题,但其他研究对此进行修正之后也产生了相似的结论。
科学中的概念变化遵从关联性原则,而这一原则在艺术中并不存在,或至少说是极为罕见的(见Bronowski, 1956, 1977; Dobzhansky, 1973)。就是说,一个新的科学理论,必须与先前已确立的实证事实建立关联。新的科学理论不仅仅要解释新的事实,还要兼容旧的事实,这样才会被认为是一个真正的理论进步。新的理论可以以一种迥然不同的方式来解释旧的证据,但是它必须能解释得通。这些要求保证了科学在原有的基础上持续进步。除非理论解释效力的范围被拓宽了,否则真正的进步是不会发生的。如果一个新的理论解释了一些新的现象,但是没有解释大部分旧的事实,那它将不会被认为是对于旧的理论的全面超越,因此不会立即取代那些旧理论,而新理论和旧理论将会以竞争性的面貌并存,直到有一个能整合二者的新理论出现。
总的来说,当前的心理学研究采用多种类型的实验技术和情境。尽管对于很多问题的研究有时候过于集中在使用某些特定的技术,但在心理学中,研究方法的多样性比过去几年丰富多了。
然而,所有这三种类型的研究都有其各自的缺陷。流行病学研究经常是相关性的,在变量之间存在虚假相关的可能性很高。实验室研究能被高度控制,但实验对象往往是动物而不是人类。医院环境下的临床试验在真正的治疗环境中使用人类作为被试,但仍有很多控制的问题,因为存在安慰剂效应和治疗病人的医疗团队的期望效应。就像吸烟和肺癌的例子中那样,尽管每一种研究都存在问题,但当来自不同方法的数据能较强地汇聚起来的时候,医学研究者们就能够做出有说服力的结论。这与心理学家可以用聚合性证据原则来帮助他们做出电视暴力对攻击性行为有影响的结论一样。
使用元分析来确定心理学结论的有效性,和医学的情形是类似的。两个实验组的比较得出的效应,可以纳入一个常规的统计矩阵中,这个矩阵能进行研究之间的比较。接着,这些结果以一种标准化的方式加以统计整合(Cooper & Hedges, 1994; Hunter & Schmidt, 1990)。如果整合过程达到了一定的统计学标准,就能形成一个关于这些效应的结论。当然,在某些情况下,有可能无法确定地得出一个结论,这时元分析的结果就是非结论性的。
重要的是,从现场实验而非实验室实验中也得到了相同的结论。一种叫做现场实验的设计也被用来研究电视暴力/攻击性行为问题。这类研究设计的存在提醒我们,不要认为实验情境和实验设计之间存在必然的联系。有时候人们认为,我们只有在实验室里才能操纵变量,在非实验室情境中只能进行相关研究。这个想法是不正确的。实验室里也常常进行相关研究,而非实验室情境下也常常可以操纵变量。尽管有时在非实验室的情境下操纵变量进行现场实验需要相当大的创造性,但这一方法在心理学领域中被越来越普遍地采用。
强调聚合的重要性的原因在于,心理学结论往往是建立在聚合性证据原则之上的。这个事实当然并不独特或罕见(在其他很多的科学中,结论也不是基于单一的、决定性的实验证据,而是基于众多结果不甚明晰的实验)。但这种情况在心理学中尤为突出,心理学实验的诊断性往往较低。也就是说,支持某一个理论的数据经常只能排除一小部分可能的解释,还遗留了许多有可能取代这种理论的“候补”理论。其结果是,只有收集并比较来自大量研究的数据之后,才能得到有说服力的结论。
每一个实验都有助于纠正其他实验在设计方面的错误,而其他实验反过来也检验它的瑕疵,使其获得支持。尽管各自多少都存在不同的缺点,并且实验技术也各有优劣,但只要大量的实验能够得到近似的结果,那么我们就可以说我们的实验证据实现聚合了。即使没有一个实验设计得十全十美,我们还是得到了一个相当有说服力的结果。因此,聚合性证据原则允许我们将结论建立在大量有些许差异的实验来源之上。这个原则之所以能让我们得出有说服力的结果,是因为这种方法所获得的结果的一致性不大可能是由某个实验程序的特殊性所造成的。
从这个例子可以明显看出,并不仅是心理学的研究领域中遍布各种发现,在其他科学中也不乏这种由于数据模式的模糊性而难以达成一致结论的例子。在一篇名为“图片问题”的文章中,格兰德威尔(Gladwell, 2004)讨论了人们为何很难理解医生对于乳腺X光片的作用还存在着分歧。这是因为乳腺X光透视在大多数人看来是如此地“精确有力”,以至于他们认为仅凭它就能做出确诊。其实这些人不理解,医生的诊断虽必不可少,但乳腺X光片评估和疾病预测从本质上来说是具有概率性的。格兰德威尔说,“图片保证确定性,但它不能兑现这种承诺。经过40年的研究之后,对于女性在50岁至69岁期间接受乳腺X光透视的益处,仍然存在着不小的分歧。进一步的争议则在于,是否有足够的证据能够证明,50岁以下和70岁以上的女性定期需要接受乳腺X光透视检查”(p.81)。然而格兰德威尔继续谈到,和心理学领域一样,在医学领域里,知识即使不确定也依然有用:“答案是乳腺X光透视不需要完全准确无误才能拯救生命……它没有我们想的那么好。但总归比没有它要强”(p.81)。
心理学者比伯·拉坦(Bibp Latane)和约翰·达利(John Darley)的研究为此提供了一个很好的例子。这些研究者们因对“旁观者现象”的研究而广为人知。旁观者现象是指,一些人在看到他人处于危难之中时并不施以援手。拉坦和达利(1970)指出了这样一个事实:在很多危急时刻,当有其他旁观者在场时,某个旁观者伸出援手的可能性会更低。
在这一章中我们看到,为何“跃进”模式对于心理学来说是一种糟糕的模式,以及为什么“渐进整合”模式提供了一个更好的框架,凭借这个框架,我们就能够理解心理学中的结论是如何形成的。聚合性证据原则描述了心理学上研究结果是如何被整合的:没有一个实验是可以一捶定音的,但是每一个实验至少都能帮助我们排除一些可能的解释,并让我们在接近真理的道路上向前迈进。多种不同方法的使用让心理学家更为确信,他们的研究结果是建立在稳固的实证基础上的。最后,当概念上的变化发生时,它必须遵循关联性原则:新的理论不仅要能解释新的科学数据,还必须能解释已有的数据。
越来越多的评论者开始呼吁,应更加重视元分析,并将之视为一种方法,来消除科学领域内相互对立研究之间的不断争议。这种方法有助于终止这种“公说公有理,婆说婆有理”的争论。对元分析的强调也揭示了一种观点:专业杂志上常见的观点对立可能只是表面现象,实际上我们拥有更多可靠和有用的发现。
实验与非实验结果的聚合性也成为教育心理学领域的突出特点。例如,针对不同课程安排所做的实验研究和现场研究都表明,早期语音教学有助于阅读技巧的习得(Ehri, Nunes, Stahl, & Willows, 2001; Pressley, 2005; Snowling & Hulme, 2005; Stanovich, 2000; Vellutino et al., 2004)。
这个团体确实在文献中发现了聚合性,并出版了一本专著来展示所有的科学证据以及脑创伤护理各阶段的最新治疗手段。这本指导手册是神经外科界首次成功建立的一套标准治疗规范,如果美国大多数创伤中心都能严格按照这些规范去做,每年就可以挽救一万名以上的病人。(Gladwell, 1996, p.40)
因此,研究早期所获得的矛盾数据不应该让我们对发现真相感到绝望。类似的情况不光发生在心理学领域,同样也发生在一些相对成熟的科学中。的确,公众经常意识不到科学中经常会得到一些矛盾的数据。这些矛盾只不过是因为我们对问题理解得还不够充分,这些矛盾还可能仅仅是偶然事件(我们将会在第11章中对此展开讨论),或者源于不同实验在方法上的细微差异。
我们曾提出过两个理念,能为理解心理学的规则提供一个有用的情境。首先,科学上没有哪个实验是被设计得完美无缺的,对任何一个实验数据的解释都存在着不确定性。科学家们评估一个理论,往往不是坐等一个完美的或者关键的实验的出现,而是对大量局部存在瑕庇的实验的总体趋势进行评估。第二,许多科学在即使没有爱因斯坦的情况下也取得了进步。这些进步是蹒跚而曲折的,而不是通过伟大的“爱因斯坦式整合”那样的阶梯式跃进。和心理学一样,其他许多科学也都是由那些原本缺乏共同主题的知识不断积累和拼接而成。
这些研究已经激起了一些“这不是真实的生活”的非议,这种非议连同那些毫无根据的指责,在先前的章节中都曾讨论过。无论怎样,电视暴力的影响并非针对某个特定群体的儿童,因为这些结果在美国不同的地区和世界的不同国家都得到了印证。使用不同的实验情境、不同电视节目作为实验刺激的各个研究都得到高度一致的结果。
当然,现场实验本身是有缺陷的,这些缺陷往往是其他研究的强项。总的来说,将观看电视暴力和儿童攻击性行为增加联系起来,所使用的证据并非仅仅依靠某一研究甚至某一类型的研究。
同样的情况也适用于心理学,哲学家马里奥·邦格(Mario Bimge, 1983)已经指出,认知心理学如果一开始就否定经典条件反射和操作性条件反射,那么它将无法在心理学中立足,因为它无法兼容行为科学中的其他知识。回忆第6章中对“辅助沟通疗法”的讨论,它之所以不能“治疗”自闭症语言障碍,是因为它打破了关联性原则——如果治疗有效,它将会要求我们重建神经病学、遗传学和认知心理学领域内的知识。这一假设性的疗法与科学中的其他知识没有任何关联。同样,神创论对进化论的反对也是如此,神创论在科学上没有遵守任何关联性原则。相反,进化论跟其他科学有着密不可分的关联。如生物学家西恩·卡罗尔(Sean Carroll, 2005)所说,“进化论不仅仅是一个生物学主题,它还是这一学科的基础。生物学没有进化论就像物理学没有重力学说一样”。(p.52)
“生物学实验揭开生命的奥秘!”、“思维控制上的新突破!”、“加利福尼亚科学家发现了延缓死亡的方法!”——如你所见,想仿制一条充斥于小报和电子媒体头版头条的“突破性”新闻简直易如反掌。由于部分缺乏责任感的媒体总是定期炮制这类“头版头条”,难怪大多数科学家都建议公众要以怀疑的态度来对待此类新闻。但是,本章的目的不仅仅在于反对夸大事实、以讹传讹的做法,也不仅仅提醒人们在评估科学进展报告时必须审慎地考察其来源,我们还想提出一种比前面章节中提到的理念都更为综合、全面的科学进步观。为此,我们将会详细阐述曾在第1章中介绍过的系统实证主义和公共知识。
在心理学和其他科学里,将来自不同研究的证据整合起来形成一个结论,已经能够通过一种更为正式的方法来实现,这就是一种叫做元分析的统计技术(Cooper & Hedges, 1994; Hunter & Schmidt, 1990; Rosenthal, 1995)。在医学语境中,元分析就是: