万维网迅速将互联网从纯文本网络转变为可以处理图片、声音和其他媒介的网络。1994年,网景公司发布了名为“领航员”的第一款商业化网络浏览器,由此,比以往任何时候都更丰富、更容易导航的多媒体奇观进入主流。网景公司的共同创始人之一是马克·安德森(Marc Andreessen),他当时是一名22岁的程序员,曾开发过早期的网络浏览器,我们将在第10章更多地谈到他。[4] 这一事件与先前主打学术的互联网的商业化进程成为“天作之合”。
这些问题太大,只用一本书是说不清楚的,更不用说是书里面的一章。但是在《思考,快与慢》一书中,卡尼曼对大量研究(许多是他自己进行的研究)给出了简单总结:
D 一般来说,你认为算法和人哪一个更易产生偏见?
它们创造了一个情景,在面试中试图确认我们对某些人的看法,而不是真正评估他们。
心理学家把这情况称为证实性偏见。我们基于轻度交流,做出了草率的、无意识的判断,此判断深受我们现有偏见和信念的影响。我们没有意识到这一点,于是把评估申请人的工作变成寻找证据来证实我们的初步印象。
随着技术的普及,后一类人不再低声下气。实际上,他们时来运转。电脑做了所有合乎逻辑、合乎规矩的工作,使他们得以脱身,从事哈默和钱皮所倡导的事务:做判断,做决定,与他人交流以解决问题,抓住机遇,服务顾客。
事实上,在我们看来,在当今大部分的商业场合中,系统1的重要性都在上升。卸任的公司老总写书时用上了诸如“坚守初心,直面艰难”这样的书名。而那些太过专注数据,与现实世界复杂性脱节的公司领导人,则背上了“技术控”的骂名。2010年出版的《重新思考MBA:十字路口商业教育》(Rethinking the MBA: Business Education at a Crossroads )一书将“在凌乱的非结构化环境中形成判断和直觉”列为MBA课程未能满足的重大需求之一。上述论据与《企业再造》的观点不谋而合:让人们发展、行使自己的直觉和判断力,做出明智的决定,让电脑做好计算和记录。我们已经多次听过、看过人脑与机器之间的这种分工,故而称之为“标准伙伴关系”。
我们并不这么看。虽然我们确实带有电脑所没有的偏见,但我们也有电脑不具备的优势。首先,我们一直从感官中吸收非常大量的数据,没有预先选择,只是来者不拒。即使在短时间内,我们也难以只倾听某些声音或只看到某些事物。而电脑正相反,它们很难从其开发者和程序员所允许的数据源搜集多种多样的数据。
事实上,诸多完全自动化的决策正在我们周围发生,以至经济学家布莱恩·阿瑟(Brian Arthur)用“第二经济”来形容它,其中交易没有人类的介入,其发生形态是“巨大的、沉静的、彼此连接的、看不见的、自主的”。随着时间的推移,这种自动化的第二经济正延伸到我们熟知的以人为中介的经济体,算法接管了专家和HiPPO人士的工作。全世界越来越多的信息被数字化了,由此带来了大量数据,它们可用于改进工作,将直觉转化为数据驱动的决策。
• 沙伊·丹吉格(Shai Danzinger)及其同事的一项研究表明,以色列法官在一天的开始和用餐休息之后更有可能给予假释。在法官休息之前,他们想必已经疲惫不堪,抑或血糖过低,因而更有可能建议继续监禁。其他研究支持了司法决定往往受手头罪案之外因素影响的观点。经济学家厄兹坎·埃伦(Ozkan Eren)和纳吉·莫坎(Naci Mocan)发现,在美国某个州,毕业于某所区域名校的法官在母校橄榄球队意外败北之后,马上就给出了极其严厉的判决,而且这些判决“多数由黑人被告背黑锅”。
• 算法远非完美。如果基于不准确或有偏差的数据,那么它们就会做出不准确或偏倚的决策。这些偏见可能是微妙的、无意的。算法的应用标准不在于其是否完美,而在于它们是否优于相关度量上的可替代方案,以及它们能否随时间而改进。
机会则是:人们通常可以测试和改进基于机器的系统。一经纠正,它们就不太可能再犯同样的错误。相比之下,让人类承认自己的偏见很难,有多少人会公开声称种族歧视或性别歧视呢?更不用说要克服这些困难了。采用一种决策系统(无论是基于机器,基于人类,还是基于两者的某种组合)的最终标准实际上都不是完美的。任何系统都可能会出错,都有偏见。因此,我们的目标应该是选择使偏差和错误最小化,并能够使之轻易快速被纠正的方法。
此后20年,基于万维网的企业级系统完成了各种常规任务,包括跟踪账户余额和交易,计算原材料交付的数量和时间,给员工发放工资,让客户选择产品并进行支付,等等,从而促成了越来越多的业务流程。
由心理学家威廉·格罗夫(William Grove)领导的一个团队查找了50年的文献,挑选出心理学和医学领域公开发表且经同行评议的论文,这些论文研究的是临床预测和统计预测的配对比较,即比较经验丰富的人类专家判断与100%数据驱动方法的预测。他们找到了136项这样的研究,涵盖从智商预测到心脏病诊断的方方面面。在48%的研究中,两者并无显著差异,换言之,平均来说,专家并没有比公式做得更好。
2014年12月,当一名伊朗牧师在澳大利亚悉尼的一家咖啡馆绑架18名人质时,这种做法使该公司受到非议。许多人逃离事发地区,其中有些人试图呼叫Uber。Uber的电脑系统启动高峰定价,应对这一突如其来的需求。对许多人来说,这是对一场危机的一个非常不合适的反应,于是该公司面临激烈抨击。
[8] 它有一个奇怪的名字叫“apophenia”。统计和机器学习的模型可能会犯同样的错误,通常被称为数据的“过度耦合”。
丹·瓦格纳(Dan Wagner)在巴拉克·奥巴马2012年成功连任的竞选活动中担任高级分析师,当时他发现机器分析原来可以这么精准,还能带来如此多的好处。瓦格纳和他的同事为每位美国选民建立名册。该分析团队使用机器学习技术(下一章将详细讨论),为名册上的每个人建立了三个单独的评分:一个“支持评分”,用于预测每个人支持奥巴马的可能性(相对于竞选对手米特·罗姆尼);一个“投票评分”,用于预测每个人在11月实际去投票站投票的可能性;以及一个“劝说评分”,用于预测每个人在接收奥巴马竞选团队的信息之后对他产生好感的可能性。
• 能够从多个角度来看待问题的人,能够有效迭代和实验的公司,都是时代的佼佼者。
拉坦娅·斯威尼,被捕?(1)输入名称和所在州(2)访问完整的背景信息。立即检查可至www.instantcheckmate.com。
仅靠系统2,一味对数字进行逻辑理性的计算,这种方法怎么可能比结合了系统2和系统1的方法更好呢?毕竟,系统1是人类与生俱来的、深刻的本能思维工具,它已经做得足够好,帮我们克服了各种无情的、全球75亿人口仍需面对的达尔文进化挑战,使人类获得生存,继续发展。它怎么会让我们这么失望呢?
F 你所在的组织是倾向于开展少数长期的高风险项目,还是开展大量更具迭代性的短期项目?
这些新机器的趋势是在各个层次上取代人类的判断力,而不是用机器的能量和力量取代人类的能量和力量。
诺伯特·维纳(Norbert Wiener),1949年
1. 信息过载很糟糕,所以我们尽力过滤……(但是)我们过滤掉的一些信息实际上是有用的、重要的。
2. 意义的缺失令人困惑,所以我们填补空白……(但是)我们寻求意义时会产生错觉。我们有时会想象由自己的假设所填补的细节,由此建构本来没有的意义和故事。[8]
3. (我们)需要快速行动,以免失去机会,所以我们匆匆得出结论……(但是)快速决策可能有严重缺陷。我们草率做出的一些快速反应和快速决策是不合适的,自私的,甚至是适得其反的。
4. 全部记住不易,所以我们试着记住要点……(但是)我们的记忆强化了误差。我们记住一些东西,留待他日所用,这只会使上述认知更有偏见,进一步损害我们的思维过程。
标准伙伴关系的说法很生动,但有时它根本不奏效。完全不靠人的判断,甚至不靠那些经验丰富、声誉卓著的人的判断,只依靠代入公式的数字,常常会带来更好的结果。
实验当然不局限于在线形式。它在实体环境的应用也会有成效。商学院教授戴维·加文(David Garvin)把许多大公司称为“多单元企业”。这些组织占有许多面向客户的区位,所有区位看起来都差不多,运营方式也大致相同。许多商业银行、连锁餐厅、零售商和服务商都是多单元企业。根据对《财富》100强企业的一项估计,其中的20%在某种程度上属于多单元企业。
[14] 菲利普·泰洛克在该领域撰写的作品《超预测:预见未来的艺术和科学》由中信出版社于2016年7月出版。——编者注
[12] 关于Uber在巴黎恐怖袭击期间继续高峰定价的谣言四处传播。
Uber发表了这样的声明:“我们没有(在悉尼事件期间)直接叫停高峰定价。这是错误的决定。”该公司也显然建立了在某些情况下推翻自动化高峰定价的能力。从2015年11月13日晚上开始,恐怖分子在巴黎进行了一系列袭击。事发30分钟内,Uber就取消了该市的高峰定价,并提醒其所有用户进入紧急状态。[12]
拉兹洛·伯克(Laszlo Bock)担任谷歌人事部负责人时就意识到,多数用于选择新员工的技术几乎无济于事。在考察公司员工在职表现差异的实际影响因素时,他的团队发现,招聘前的简历检查仅解释了约7%的差异,之前工作经历的年份解释了3%,非结构化的工作面试仍然是最常见的情形,它始于“你的最大优势是什么”或“请做自我介绍”等问题,但是只能解释14%的差异。伯克说,这些面试存在的问题是:
诚然,即使是高度优化的数据驱动系统也未臻完美,当输入的数据有质量缺陷时尤其如此。2016年,希拉里·克林顿的竞选团队采取了许多类似的方法,却以微弱劣势落败,其部分原因就是民调数据失准,本来预测她在中西部三个州大幅领先,最终却全部惜败。
讲到这里,读者可能对人类不善于预测未来不太惊讶了。毕竟,预测和决策是几乎不可分割的活动。要做一个好的决策,我们通常要对未来某些方面有准确的预测,具体说,如果我们决定了某种方式,那么可能会发生些什么?所以如果我们做不好两件事中的一件,那么另一件也做不好。确实,系统1的许多捷径和错误使我们做不了好的预测。
• 布莱恩约弗森的另一个项目更接近本行,这是一个为学术界开发的“开脑洞”模型。他与麻省理工学院的迪米特里斯·伯特西马斯(Dimitris Bertsimas)、约翰·希尔伯霍兹(John Silberholz)和沙查尔·雷奇曼(Shachar Reichman)合作,预测谁将在顶尖大学取得永久教职。他们研究了青年学者早期出版记录和引用形式的历史数据,并利用网络理论中的一些概念,观察有哪些学者写出最具影响力的论文。他们校正模型,预测哪些学者将最终在运筹学领域获得永久教职。该模型的预测结果有70%与职称委员会的意见一致,但是在不一致的情况下,通过模型预测产生的一批学者与职称委员会遴选的学者相比,前者此后在顶级期刊上发表了更多的论文,其研究也被更多地引用。
我们认为,这个实际的结论就是:我们要更少依赖专家的判断和预测。
数十年来的研究证实,我们实际上有两种不同的推理方式。这一突破性的工作使丹尼尔·卡尼曼[5] 获得了诺贝尔奖,他与合作者阿莫斯·特沃斯基(Amos Tversky)一起在行为经济学领域开宗立派。卡尼曼及其同事的工作表明,我们有“系统1”和“系统2”[6] 两种思维方式。系统1快速、自发、事关小脑皮层,不怎么费脑力,它与我们所说的直觉密切相关。系统2则相反,它是缓慢、有意识的,事关大脑皮层,很费脑力。正如卡尼曼在《思考,快与慢》(Thinking, Fast and Slow )一书中所写:
但我们必须先说出系统1的一些弱点。看看下面这些标新立异的研究,它们表明,即使是专家的判断和直觉也常常有严重的局限。
[11] 由第三方处理匹配过程以保护隐私,奥巴马竞选团队和评级公司不会看到彼此的名册。
万维网的出现,使企业级系统的覆盖面和功能通过电脑(以及稍后出现的平板电脑和手机)延伸到个人消费者。万维网诞生于1989年,当时,蒂姆·伯纳斯–李(Tim Berners-Lee)开发了一套协议,允许文本、图片等在线内容相互链接,从而使科技大腕范内瓦·布什(Vannevar Bush)和电脑预言家泰德·尼尔森(Ted Nelson)提出的超文本愿景变成现实,布什于1945年首先描述了这一设想,但只是使用微缩胶片进行理论探讨,而尼尔森的仙那度项目(Project Xanadu)则从未落地。
选举后,瓦格纳创立了Civis Analytics(一家大数据公司),将这种深受数据驱动的媒体购买方法做成产品,然后提供给企业和其他组织。他相信当下是这类产品的大好时机,在很大程度上,很多企业都有包罗万象的个人名册,如潜在客户,可能有后续采购的现有客户,等等。他说:“如果你销售昂贵的轮胎,那么会有一小部分人愿意花大价钱买它,另有90%的人丝毫不在乎,因为他们不开车,抑或他们从不购买昂贵轮胎。你对目标客户有相当好的判断,但是说到他们在看什么电视节目,你从没办法知道得同样精准,同样有把握。现在好了,你可以做到了。”对于广告商来说,投放电视广告是一个重要的决策,它用到一些数据,也用到许多判断。Civis Analytics正在努力改变这一点,使得媒体购买成为一种近乎优化而不是直觉的工作。
相对来说,通过网站把这种方法落到实处比较直截了当。网站搜集了用户活动的丰富数据,因此容易看出某项改变是否更好。一些电子商务网站对于与时俱进、革新求变是非常谨慎的。在20世纪90年代末的第一波网络热潮中,旅游网站Priceline如日中天。像当时其他许多高调的同行一样,它在世纪之交轰然坠地,究其原因,主要是用户对该公司原创的自主定价方式产生不满。
哈默和钱皮的基本想法是:企业不能认为自己是在部门内执行任务(例如在采购部门内购买原材料),它们应该把自己看成在执行业务流程(例如采购、组装并按客户订单装运),这本来就是跨部门的事。这种说法现在听起来理所当然,在当时却被认为是新颖的、重要的。20世纪杰出的商业大师彼得·德鲁克当时表示:“再造是新的,它必须完成。”流程视角往往能看出许多不必要的、可以剔除的任务,或者像哈默和钱皮说的那样,干脆把它们抹掉。
C 你在什么地方有过这样的机会:将标准合作伙伴关系掉转过来,从而将人的主观评估纳入数据驱动的分析,而不是与之相反?
[2] 企业信息系统很快因其多种应用(名称为三个英文单词的首字母组合)而广为人知,包括ERP(企业资源规划)、SCM(供应链管理)、CRM(客户关系管理)和HRM(人力资源管理)等。
这种方法广为流传,以至现在的人已经很难想起此前的文书流转时代,当时,一车车满载的文件夹往返于人群和部门之间。“文书矿井”是该时代“硕果仅存”且令人困扰的一个地方,它设在地下,是由美国政府人事管理办公室负责的一个低效率部门。保留这个地点,是为了处理联邦雇员退休时所需的行政手续。由于这些手续尚未电脑化,因此需要600人处理日常业务,他们在超市一般大小的房间工作,房间里放满了高高的文件柜。由于巴洛克设计风格的原因,这个房间设在地下200多英尺[1] 的一个废弃石灰岩矿井处。1977年,完成联邦雇员退休的文书工作平均需要61天。该项工作现在用的是基本相同的流程,仍然需时61天。在得克萨斯州,工作流程已经数字化,事情只用两天就做完了。
一些公司开始使用另一种有价值的方法,那就是把人机分工的标准安排颠倒过来。人类做判断时不再使用机器提供的数据作为输入,相反,人类的判断被用作算法的输入。谷歌率先将这一方法用于招聘工作,这是公司的关键领域,有分析表明,以往的标准安排在该领域效果不佳。
我们如何运用所有这些关于系统1和系统2的偏差与故障的知识呢?这些知识怎样才能引导我们更聪明地做决策,以及做出更好的决策呢?最明显的方法,就是在可能的情况下放手让机器做决策,系统2的纯数字化演绎因摩尔定律而功力大增,通过源源不断地导入数据,让它给出答案,无须系统1的输入。这正是越来越多的公司随着时间的推移而着手进行的事情。
请注意认知能力的另一个严重问题:我们无法知道系统1何时奏效,何时失效。换句话说,我们拿不准自己的直觉。我们不知道自己做出的快速判断或决定究竟是准确的,还是受制于自己的一种或多种偏见。于是,发生了与波兰尼悖论相悖的怪事:对系统1的认知结果而言,我们所知的竟然少于我们所能说的。系统2的理性计算通常可以复查,但是正如卡尼曼所指出的那样,系统1真的做不到,它只能靠自己。
这种反馈机制至关重要,因为它是系统1学习和改进的原理。正如卡尼曼和心理学家加里·克莱恩(Gary Klein)所写:“你不该相信自己的本能。你要把自己的直觉看作一个重要的数据点,但你必须有意识地、深思熟虑地评估它,看看它在此环境下是否有意义。”提高系统1的准确性并减少偏见的最好办法是举出很多例子,然后对系统1的准确性给出频繁快速的反馈。
• 现在由人类做出的许多决策、判断和预测都应该转交给算法。在某些情况下,人应该留在决策过程中,提供常识方面的检查。在其他情况下,他们应该完全退出决策过程。
[4] 英国伊丽莎白女王于2004年授予伯纳斯–李大英帝国爵级司令勋章,以表彰他实质上发明万维网。安德森是2013年首届伊丽莎白女王工程奖获奖者之一。
预测和实验不像决策一样易于自动化,但它们仍然非常适合严谨的数据分析。这些都是系统2的主要工具,也是第二次机器革命时代的主要工具。与此同时,系统1及其直觉、判断和个人经验累积等元素则需要给制定准确预测的手段让路,这样才会尽可能制定好的决策。简而言之,HiPPO人士必然成为组织内的“濒危物种”。
今天,有价值、高质量的完全自动化决策事例比比皆是。亚马逊和其他电子商务网站会为每位购物者的每次访问给出推荐,尽管许多人错过机会,但有些人受到极大的吸引。例如,亚马逊估计,其销售额的35%来自推荐项目之类的交叉销售活动。飞机航班和酒店客房的价格一直在变,反映了供需预测的演化,以及每分钟又如何发生实际的变更。对无数企业来说,这种被称为收益管理的定价方法至关重要(我们将在第7章讨论这个主题),但是,收益管理算法产生的价格在提交给客户之前,很少(如果有的话)由人工复查一遍。实体商品现在也实行自动化的价格变动。2015年感恩节之后的第一天,亚马逊和沃尔玛在美国的所有存货分别提价16%和13%。
[13] 实际上,在一项实验中,心理学家塞巴斯蒂安·博巴蒂拉–苏阿雷兹(Sebastian Bobadilla-Suarez)及其同事发现:即使人们得知自动化决策能使他们在整体上挣得更多,他们还是愿意为了保住资金分配的决策权而付出代价。人们喜欢决策的权力。Sebastian Bobadilla-Suarez, Cass R. Sunstein, and Tali Sharot, “The Intrinsic Value of Control: The Propensity to Under-delegate in the Face of Potential Gains and Losses.”SSRN, February 17, 2016. https://papers.ssrn.com/sol3/papers2.cfm?abstract_id=2733142.
• 历时20年的人机标准伙伴关系往往过于重视人的判断、直觉和本能。
• 在其他情况下,人的主观判断仍会被用到,若用在翻转的标准伙伴关系中:判断应该被量化,并被纳入定量分析。
然而以下发现给了人类判断力的优越性当头一棒:在46%的研究中,人类专家实际上表现得比纯数字和公式差得多。这意味着人类只在6%的研究中胜出。作者由此得出结论,几乎在人做得更好的所有研究中,“临床医生得到的数据比机械预测要多”。保罗·米尔(Paul Meehl)是一位传奇心理学家,他从20世纪50年代初开始记载和描述人类专家判断的不良记录,正如他所总结:
在优秀企业中间正在发生根本转变:远离长期预测、长期计划和大胆设想,开展持续的短期迭代、实验和测试。这些组织采纳计算机科学家艾伦·凯(Alan Kay)的重要建议:预测未来的最佳方式就是创造未来。它们从小处着手,步步为营,获取反馈,在必要时进行调整,而不是根据自以为是的预测结果,对遥远的事物自行其是。
20世纪90年代中期,有两项进展使业务流程再造运动加速,这就是企业信息系统和万维网。在企业信息系统出现之前,[2] 企业通常有一堆各种各样的软件包,其中许多没有相互连接。公司越大,软件就越杂乱。企业级系统坚守用单一大型软件包代替一堆软件的承诺,[3] 它设计清晰,用于执行一组特定的跨职能业务流程。这种软件可从思爱普和甲骨文等供应商那里购买现成产品,然后在一定程度上进行配置和定制。
企业信息系统迅速流行。据估计,到1999年,超过60%的《财富》1 000强公司已经采用了其中至少一种。尽管这些系统的安装维护相当昂贵和费时,但它们在很大程度上兑现了承诺。例如,布莱恩约弗森与同事思南·阿拉尔(Sinan Aral)和D. J. 吴(D. J. Wu)的研究发现,一旦企业开始使用新的企业级系统,那么其劳动生产率、库存周转率和资产利用率就有显著提高。
• 很明显,如果可以选择的话,与依靠有经验的人类专家的判断相比,单纯依靠数据和算法通常会得到更好的决策和预测。
万维网使企业能够将业务流程扩展到边界之外,一直延伸到消费者,这一趋势被称为电子商务。人们开始使用万维网,他们不仅可以搜索和了解企业的产品,而且还可以订购和支付。这种效率和便利性的结合被证明是无法抗拒的。网景浏览器推出10年后,电子商务占了美国非美食、非汽车类零售业销售额的10%左右。
这两个系统都可以随着时间的推移而改善。系统2通过学习数学或逻辑课程而改进,而系统1则通过谋生计、理解实例而变得更自如、更广博。消防队员久经历练,能够判断大火如何在建筑物蔓延;人事经理阅人无数,能够看出谁更适合公司;围棋选手用心下棋,终成大师。当然,这两个系统可以——也应该同步改进。病理学家(诊断疾病的医学专家)既研究生物化学,也观察许多患病组织和健康组织的实例,从而改善自己的技能。当我们既了解基本原理,又通过活生生的个案将其实例化时,学习往往更深入、更快速。
[6] “系统1”和“系统2”是特意挑选的中性、平淡的标识,以免引发长期存在的围绕其他术语的分歧和辩论。
• 布莱恩约弗森与沃顿商学院教授吴林恩(Lynn Wu)合作研发了一个预测房屋销量和价格的简单模型。他们使用谷歌趋势中的数据,这些数据显示了美国各州每月搜索“房地产代理”“房贷”和“房价”等关键词的次数。他们用该模型预测未来的房屋销量,并将预测结果与美国国家房地产经纪人协会专家发布的预测进行比较。结果,他们的模型以高达23.6%的优势完胜专家。这反映出将谷歌搜索数据纳入预测模型的威力。
2012年,一些评级公司已经远不满足于抓取电视节目人口统计数据,它们能够界定哪些人正在看节目。[10] 这正是瓦格纳及其同事所需的第二类数据。他们向这些公司提供竞选团队的“出门投票组”和“可说服组”列表,然后拿到了每组中有多少人观看每个节目的信息。[11] 这样一来,他们就轻而易举地找到最佳买点,也就是说,每一美元广告开支所买下的电视节目都能让最多属于“出门投票组”和“可说服组”的人看到。瓦格纳告诉我们说:“我们最终购买了美国有线电视台的深夜节目,这真的很奇怪。它就像冒出来似的,而它冒出来的原因无非就是很便宜。那些节目有很多‘可说服组’的选民观看,所以我们就买下来了。”
2006年,在财捷集团和微软工作的两位数据分析专家阿维纳什·考希克(Avinash Kaushik)和罗尼·科哈维(Ronny Kohavi)提出了首字母缩略词“HiPPO”,用它来总结大多数公司的主要决策风格。HiPPO的意思是“最高薪酬的人的意见”(highest-paid person’s opinion)。我们喜欢这种速记并多次使用它,因为它生动地说明了标准伙伴关系。即使做出决策的人不领最高薪酬,他们也总是以观点、判断、直觉、本能和系统1为依据。很明显,这种办法通常效果不佳,而且HiPPO往往败事有余。
• 社会学教授克里斯·斯奈德斯(Chris Snijders)用荷兰企业购买的5 200台电脑建立了一个数学模型,可用于预测预算的遵从度、交货的及时性及买家对每笔交易的满意度。然后,他使用这个模型来预测在若干行业发生的一组交易的相关结果,并同时请这些行业的一组采购经理做同样的预测。斯奈德斯的模型击败了经理人,甚至击败了处于平均水平以上的经理人。他还发现,资深的经理人比新手好不了多少,而且一般来说,经理人在分析自己所在行业的交易时,其结果与他们分析其他行业的交易差不多。
[9] 正如乔纳森·海德特在他所著的《象与骑象人:幸福的假设》中所说,“人们很容易编造理由来解释自己的行为,这一发现被称为‘虚构’。虚构常常伴随着裂脑患者和其他脑损伤人士,心理学家迈克尔·加扎尼加用‘解释模块’表示大脑左侧的语言中心,其工作是当场解释自我所做的事情,当然它无法得知自我行为的真正原因或动机。举例来说,如果‘走’字在大脑的右半球闪现,患者就可能站起来走开。当被问到为什么站起来时,他可能会说:‘我要去拿一杯可口可乐。’解释模块善于编造理由,但它自己都不知道已经编出来了”。Jonathan Haidt. The Happiness Hypothesis: Finding Modern Truth in Ancient Wisdom (New York: Basic Books, 2006), 8.
商业世界充斥着对未来的预测,因此以上发现应该引起重视。许多预测是直接清晰表现出来的:如某只股票的走势,利率的未来移动方向和幅度,某国明年出售的智能手机数量,等等。在许多其他情况下,预测则隐含在拟议的行动计划中。例如,网站的重新设计包含了一种隐性预测——访客会更喜欢它,银行分支机构的重新设计也是如此。一种吸引眼球的产品上市是建立在“顾客会喜欢它”这么一种高风险的预测基础之上,与之配合的营销活动则包含一个如何塑造顾客偏好的预测。
多年来,每个电视节目都有人口统计数据,例如,统计丹佛地区有多少18—24岁的男士在周二晚上10点观看动画节目《恶搞之家》(Family Guy )重播。传统上,传媒买家和战略家在做决策时严重依赖这些信息。如果奥巴马2012年的竞选团队想在科罗拉多州18—24岁的男士眼前发布信息,那么有很多公司和人士可以就周二晚上《恶搞之家》重播时是否插播竞选广告提供建议。
从1984年开始,政治学家菲利普·泰洛克(Philip Tetlock)和他的同事开展一个长达数十年的项目,对政治、经济和国际事务等许多领域的预测准确性进行评估。其研究结论一如既往地清晰、引人关注。在一项涉及超过8.2万次预测的测试中,泰洛克发现,就预测结果的准确性而言,“人类只是险胜黑猩猩而已”。
在《自然》杂志的一篇文章中,凯特·克劳福德(Kate Crawford)和赖恩·卡洛(Ryan Calo)指出了这么一种危险:“在当前的一些情况下,人工智能系统的缺点不成比例地影响了因种族、性别和社会经济背景等因素而处于不利地位的群体,这凸显了考虑此类系统有意或无意的社会影响的重要性。”
• 为什么人类的判断经常如此糟糕呢?因为快速、不动脑筋的“系统1”式推理方式受制于许多不同种类的偏见。更糟糕的是,它出错时不能自知,而且它劫持理性的系统2,为其草率的判断提供令人信服的理由。
[1] 1英尺=0.304 8米。——编者注
[5] 卡尼曼是第一位被授予诺贝尔经济学奖的非经济学者,以此表彰他的工作。
因此,我们的一个建议就是尽可能依靠“狐狸”而不是“刺猬”。“狐狸”可以通过其提出的多维度、多视角推理分析而发现,也可以通过一直以来的记录查出。具有可查证的准确预测记录的人可能就是“狐狸”。
• 随着技术的普及,我们有机会超越标准伙伴关系,以及使其摆脱对HiPPO人士的过度依赖并朝着更受数据驱动的决策发展。数据显示,这样做的公司通常比不谙此道者具有重大的优势。
尽管有这些令人信服的例子,我们仍需列出一些重要的条件,把关于算法成功的热议冷却一下。显然,为了将人的判断与数学模型进行比较,首先必须有一个模型。而如波兰尼悖论所暗示,这并不总是说有就有。这类模型必须用多种相似实例的数据集进行测试和改进,而这种情况只代表了人类必须做出的决策的一小部分。不过总体格局是明朗的,一旦模型可以建立和测试,那么在一个接一个的事例中,它的表现就与做类似决策的人类专家一样好,甚至更胜一筹。然而在许多情况下,即使机器做得更好,我们还是继续依靠人的判断。
该广告提示她有犯罪记录,但事实上她从未被捕。
• 经济学教授奥利·阿森费尔特(Orley Ashenfelter)建立了一个简单的模型,它仅使用4个可公开获取的气候变量,在波尔多葡萄酒还未能品尝的时候,该模型就成功地预测了它们的质量和价格。这些未熟酒的价格历来深受知名葡萄酒专家意见的影响,但是阿森费尔特写道:“这类研究提出的最有趣问题之一,就是它所暗指的专家意见对葡萄酒定价所起的作用……有证据表明,专家意见与葡萄酒质量的根本决定因素无关,亦即两者彼此独立……这自然而然地提出了一个悬而未决的问题,即究竟是什么决定了对专家意见的需求。”
多单元企业的多区位特点提供了绝佳的实验机会。据创新学者史蒂芬·汤姆克(Stefan Thomke)和企业实验家吉姆·曼兹(Jim Manzi)称,科尔士百货公司进行了一项涉及100家商店的实验,以此了解工作日推迟开店一小时是否对销售有害。结果表明,营业时间缩短不会使销售额显著降低,这对零售商而言是个好消息。不好的消息来自另一项实验的结果。该项实验涉及70家科尔士商店,它测试了首次出售家具的影响。实验发现,由于家具占用太多远离其他产品的空间,因此商店的整体销售额和客户流量实际上是下降了。虽然许多高管对推出的新品持乐观态度,但公司决定以实验结果为依据,不再提供家具。通常情况下,在多单元企业的每个区位同步推行一种新举措是不可行的,因此分阶段实施就为实验创造了一个自然的机会。通过一些规划,企业可以从这样的分阶段实施中了解很多事情,从而将实施新举措的区位与仍然用老办法做事的区位仔细比对。
[15] “狐狸和刺猬”也是哲学家以赛亚·柏林(Isaiah Berlin)的一篇文章的标题,该文将历史上的思想家分为两类:在整个职业生涯中孜孜以求一种大思想的人,以及那些探索许多不同想法的人。
但是,像其他大多数广告买家一样,奥巴马团队知道依靠人口统计数据很不靠谱。他们的广告受众可能主要是罗姆尼的铁杆支持者,又或者看广告的人基本上都已经决定投票选举奥巴马,那么这就是浪费时间。依靠人口统计意味着依靠判断和粗糙的估计,这样做几乎等同于以下猜测:选举期间特别抓取的一个更容易接受奥巴马竞选信息的群体,就是18—24岁的男士,或者说是《恶搞之家》的观众,甚至可以说是一般卡通片的观众。
系统1自发运行,不能随意关闭,因此直觉的错误往往难以防止。偏见总是难免,因为系统2可能没有错误的线索。
我们听过有人把这说成非人性化的方法。有些人觉得让电脑主导决策会把人推到边缘,趋于式微。我们知道,失去曾经拥有的决策权很不舒服,[13] 也没人喜欢做电脑仆人的感觉。但是,这是否意味着我们可以将错就错,固守陈规呢?仅仅为了让医生和心理学家保住饭碗,误诊率就必须虚高吗?仅仅为了让面试官感觉良好,企业就应该用错人吗?
自动信用评估很快成为常态。到1999年,《美国银行家》(American Banker )杂志报道说:“甚至无须(人)去评估任何5万美元以下的(信用申请),电脑就搞定了。”FICO及同类系统已被证明是高度可靠的还贷预测工具,而且,随着近年来个人数字信息的数量和类别的增加,这种“大数据”方法也被用来提升和延伸信用评分。
因此,在很多情况下,让人检查电脑决策以确保万无一失是有道理的。资深的数据分析和技术学者托马斯·达文波特(Thomas Davenport)把这种做法称为“看看窗外”。这句话不仅仅是一个令人深思的比喻。它是达文波特偶遇一位飞行员所得到的启示,飞行员讲述他自己如何严重依赖飞机的仪器,但发现视线偶尔扫向天际依然至关重要。这种方法非常有益,它不仅可以防止错误,而且还可以维护公司的声誉。
[10] 这些信息来自人们同意安装在家中的机顶盒。
另一种常见的风险是决策者不擅长优化正确的终极目标,也就是“HiPPO”一词的首创者之一罗尼·科哈维所说的“整体评估标准”。就算瓦格纳的团队能够成功地使克林顿在全民投票中的领先地位最大化,这也不是正确目标。决定美国总统大选结果的是选举团而不是全民投票,它需要有更加微妙的针对各个州的战略。同样,衡量在线广告活动产生的网页浏览量或点击率很容易,但大多数公司更关心的是长期销售,它通常经由不同类型的广告活动达到最大化。因此,仔细选择正确的数据输入和正确的绩效指标,特别是整体评估标准,是成功的数据驱动决策者的一个关键特征。
瓦格纳和他的同事们意识到,他们那份详尽的选民名册有可能生成一种好得多的媒体购买方式。有了这份名册,竞选团队可以确定哪些人属于最需要接触的两个群体:一是需要劝说以便在投票日真正去票站投票的奥巴马支持者,二是有可能被说服支持奥巴马的骑墙选民。前者是“出门投票组”,后者是“可说服组”。分析团队认为,这两组人分布在广泛的人口统计类别,所以仅仅基于人口统计数据来选定电视节目就会错失团队希望接触的人群。该团队还从早期的实验结果中获知,令两组人有反应的广告类型大不相同,因此在购买电视节目时段时要区分开来。
那么,更好的招聘方法是什么?谷歌决定更加依赖结构化面试,它解释了25%以上的在职表现。结构化面试包括一组预定义的问题,旨在评估一个人的一般认知能力等方面。该公司采用了一种招聘流程,在其中,所有面试官都进行结构化面试,提出的问题也基本相同。伯克解释说,“然后我们用一致的量表对面试进行评分……面试官必须指出申请人是怎么做的,每种表现水平都是明确的……一张简洁的招聘量表……将凌乱、模糊和复杂的工作情况变成可衡量、可比较的结果”。
随着进一步的研究,斯威尼发现,与劳丽(Laurie)、布兰登(Brendan)等白人的名字相比,搜索诸如特利文(Trevon)、拉基沙(Lakisha)或拉坦娅之类的非裔美国人名字更可能显示“被逮捕?”的信息。虽然我们不知道为什么会出现这种模式,但斯威尼提出了一种令人不安的解释:谷歌的自动化广告投放算法可能已经注意到,当广告与貌似黑人的名字相关联时,人们更可能点击去看。因此,这一种族偏见并非反映任何投放广告的人或谷歌公司的人有意歧视,它更可能是反映并放大了数百万用户点击广告而生成的全社会歧视决策类型。同样,2017年1月,在谷歌的图像搜索中输入“科学家”或“祖母”时,产生的绝大多数是白人头像。
这是关于一种共同信念的明确表述:即使身处硬件、软件和网络无处不在的世界,人类仍然因其判断力而彰显价值,我们的推理能力比利用现有数据进行机械式计算要高出一筹。大多数人都承认,如果我们能做的无非就是常规工作,那么我们现在就会失业,因为电脑做这些事太容易了。但几乎所有人也都相信,即使数字化技术继续从摩尔定律中获益,我们也能够比它们做更多的事。所谓摩尔定律,是指随着时间的推移,同额美元购买的电脑硬件在数量上剧增,导致处理能力的指数级增强。
迈克尔·哈默(Michael Hammer)和詹姆斯·钱皮(James Champy)于1993年出版《企业再造》(Reengineering the Corporation )一书,提出了化解世上繁文缛节的知识蓝图。这本书取得了巨大成功。它在世界各地的销量超过200万册,被《时代周刊》提名为有史以来最具影响力的25本商业书籍之一。
以上所列事例是否有代表性?是否公平?或者说,我们是否有意无意地凸显了人类判断败给纯数据驱动方法的个例,同时忽略了人类胜出的例子?有足够的研究表明,答案是否定的。
关于人在系统1和系统2方面的能力,一个公认的终极发现是人与人的差别很大。有的人在解方程、动脑筋方面得心应手,但缺乏直觉和实践智慧。有的人连算术都不会做,却具有强大的直觉能力。
这是一个违反直觉的发现。由于明显的原因,它也不受人欢迎。所以我们必须“一站到底”。然而在这样做之前,我们应该强调,系统1在商业上并非一文不值。事实上,它远非如此。我们将会看到,人类的直觉、判断力和快思维仍然具有重要的作用,领先的企业正在以新颖、精彩的方式运用它们,这些方式意味着人脑与机器之间新的、改进的伙伴关系。
像(统计预测与临床预测的相对效度)这样,展现数量如此众多的、多样化的定性研究,如此一致地指向同一方向,这在社会科学中是没有争议的。当你进行100多次调查,预测从足球比赛结果到肝脏疾病诊断之类的事情,而你却很难找到几项研究来表明哪怕是一点点有利于临床医师的趋势时,就是给出实际结论的时候了。
打车服务商Uber在2014年年底艰难地掌握了这种方法。当时,该公司因其高峰定价(繁忙时段提高票价)而臭名昭著,这是一种许多用户难以接受的方法。Uber坚称高峰定价有助于平衡这些时段的供需关系,我们也同意这一点。该公司的算法给出高价,以期当实际或预期的汽车供应跟不上消费者需求时,鼓励更多的司机参与进来。
E 你觉得更有说服力的是“狐狸”还是“刺猬”?
这种差异为米尔所说的“断腿角色”人群带来了一项重要的工作。看一看他举出的例子:几年来,有位教授每周二晚上都去看电影。电脑模型会合理地预测她下周是否会再去看电影。不幸的是,教授周二上午摔断了腿,臀部装了固定器,没法坐在电影院的座位上(这是1954年编造的故事)。任何一个人都会马上知道教授的电影之夜将被取消,但这种“特殊力量”不容易被电脑算法复制。影响教授行为的“不寻常的、意料之外的因素”实在太多了。任何设计电脑系统的人都无法搜集所有这些因素的优质数据,以使程序能够考虑它们。唯一的办法就是建立一个比任何电脑系统都要全面得多的世界级模型。
当然,所有这些预测并不都是错的。泰洛克发现了一些“超级预测者”,[14] 他们真的能够比常人更准确地给出预测。这些人倾向于从多个来源获取信息,也许更重要的是,他们在看待事物时有一种采用多方观点的能力。相比之下,不太准确的预测者倾向于在分析中固守一个视角,例如,热心的保守派和顽固的自由派往往会做出糟糕的政治预测。泰洛克把前一组人称为“狐狸”,他们是更成功的、多视角的预测者,然后把后一组人称为“刺猬”。他的这些标签来自古希腊诗人阿基罗库斯(Archilochus)的格言:“狐狸知道很多东西,但刺猬只知道一件重要的事情。”[15]
系统1的运行是无意识且快速的,不怎么费脑力,没有自主控制感。系统2将注意力转移到费脑力的活动上,包括复杂的计算。系统2的运行通常与行为、选择和专注等主观体验相关联。
最近的研究揭示了一种与波兰尼悖论有关的鬼使神差般的偏差:往往是系统1得出一个结论,然后让系统2来解释它。心理学家乔纳森·海德特(Jonathan Haidt)说:“判断和举证是两个独立的过程。”系统1激发的判断几乎在瞬间发生,然后系统2用理性、合理的说法给予肯定。[9] 这种“托词”不仅经常愚弄别人,而且也愚弄始作俑者自己。事实上,正如心理学家理查德·尼斯比特(Richard Nesbitt)和蒂莫西·德坎普·威尔逊(Timothy DeCamp Wilson)所说,我们往往“说的比我们知道的更多”。所以说,我们标记为理性化和自适化的行为并不只是制造借口的手段,它们是一些更本质的事情:工作中的系统1。
人们应该在决策中扮演什么角色?根据我们所知的系统1的偏见和错漏,以及唾手可得的海量数据和计算能力,第二经济看起来就要接管第一经济了,而数字化的系统2也很快就能做出大部分的决定。有一个古老的笑话,未来的工厂只有两个员工:一个人和一条狗。人的工作是喂狗,狗的工作是不让人接触任何机器。未来的企业果真如此吗?
大约10年前,该公司将自己重新改造为一组更为传统的旅游网站。然而,令它重获生机的是持续不断的数据驱动型实验。正如VentureBeat (互联网行业新闻博客)的记者马特·马歇尔(Matt Marshall)所说:“导致增长井喷的通常是小创意,例如调整网页上的颜色、措辞和数据安排,只求逐步提升,通过这些小小的努力来改善现有体验……Priceline发现,将描述某个属性的措辞从‘停车’改为‘免费停车’,就增加了2%的转换率,即使这个描述放在页面的不起眼处——一般读者很难注意到它。”这样的好处俯拾皆是。A / B测试是一种常见的在线实验协议,其中一半的访问者在访问网站时看到选项A,而另一半访问者则看到选项B。在一次严格的测试中,内衣公司Adore Me发现,让模特摆造型时把手放在头发中,而不是放在臀部,就可以使一些品类的销售翻番。在通常情况下,又快又准的方法是在线测试选项,而不是花费几个小时、几天乃至几周,请专家对变革计划进行分析和辩论。在线测试的结果通常也会令人惊讶。
基于米尔和达文波特所描述的原因,我们支持让人类进入模型决策过程,但是我们也主张企业尽可能地“保留分数”,即随时跟踪算法决策相对于人类决策的准确性。如果人类决策比基准算法更好,那么一切就应该照常。不然的话,事情就需要改变,而第一步就是让人们意识到自己真正的成功率。
大约20年前,世界各地的企业理顺了人与电脑之间的分工,它看起来合乎情理。机器负责基础计算、记录保存和数据传输。这样就把人解放出来,让他们做决策,做判断,利用自己的创造力和直觉,彼此交流以解决问题,服务好客户。
这些例子表明了让人类的主观判断和算法同时发挥作用的明智之处。但是,企业采用这种方式时要非常小心。人类非常喜欢自己的判断力,对此过分自信,所以即使电脑的决策更好,我们中的许多人(如果不是大部分人)也会很快地推翻它。本章前面提到克里斯·斯奈德斯针对采购经理的预测进行研究,他发现,“你通常看到的是,有电脑辅助的专家的判断效果处于模型和无电脑帮助的专家之间。所以说,如果你把模型给专家,他们会做得更好,但模型本身表现得更好”。
这些错漏的完整列表会使人不胜其烦,灰心丧气。罗夫·多贝尔里(Rolf Dobelli)关于这一主题的专著《清晰思考的艺术》(The Art of Thinking Clearly )共有99章,而根据最近的统计,维基百科的“认知偏见清单”有175个条目。软件公司Slack的产品经理巴斯特·本森(Buster Benson)找到了一种我们认为很好的方法,将这些偏见归类,并提醒我们它们带来的问题:[7]
[3] 或者更准确地说,是几种软件。即使是最自信的企业软件供应商,也不会说单一的系统足以满足一家公司要做的一切。
将决策交给机器的真正风险在于,算法系统中的偏见可能会延续甚至放大社会上的一些有害偏见。例如,哈佛大学教授拉坦娅·斯威尼(Latanya Sweeney)就有一段广为人知的郁闷经历,有一次她在谷歌搜索引擎中输入自己的名字,与搜索结果一起出现的还有这么一段广告:
• 决策流程应该基于正确的目标和明确的指标,为做出最佳决策而建立,而不应因决策者自我感觉良好而定。
长期以来,广告公司不仅帮助客户从事制作新电视广告片的创意工作,而且还帮他们确定在何时何地进行展示,即确定哪些电视节目、哪些地域市场和哪些时段最能匹配广告客户的目标和预算。就这项工作而言,数据和技术早有应用,热播剧《广告狂人》(Mad Men )的广告代理1969年就买下第一台电脑(IBM System/360),以帮助其更好地投放广告并吸引客户,但该项工作仍主要受人的判断和决策的驱动。
商业教育的主导方式也是这两个系统的结合。商学院学生通过会计、金融和微观经济学课程提高了系统2技能。他们还讨论了企业家精神、领导力、道德和其他领域的许多案例,以此改善自己的直觉和判断,这些是系统1技能。许多课程结合了两种方法。医学院和法学院也采取类似的措施。
• 在佛罗里达州布洛沃县学区,父母或老师的提名曾经是把孩子认定为天赋学生的第一步。布洛沃县的大多数学生都是少数族裔,但天赋班的学生中竟然有56%是白人。21世纪的前10年,该区决定取消主观选拔方式,尝试使其尽量系统、客观。他们让区内每个孩子进行非口头的智商测试。根据经济学家戴维·卡德(David Card)和劳拉·朱利亚诺(Laura Giuliano)的记录,这一变化的结果令人震惊:被认定为有天赋的非洲裔学生和西班牙裔学生分别增加了80%和130%。
据我们所知,在企业计算时代刚刚到来的时候就有了全自动化决策的先例,它就是体现人们信誉的数字化记分系统——评估人们偿还一定数额贷款的可能性。传统上,这一关键决策是由银行分行的本地贷款人员做出的,他们根据自己的经验评估贷款申请,有时也结合了相关规则或指南。然而比尔·法伊尔(Bill Fair)和伊尔·艾萨克(Earl Isaac)觉得用数据可以做得更好。他们于1956年创立了Fair Isaac(费埃哲公司),推出FICO(个人信用评分)计算信用评分。
对人机分工的标准安排做出重大改变,有时甚至推翻这种安排的想法使许多人感到不适。大多数人对人类的直觉、判断和决策能力抱有很大信心,对于自己尤其如此。我们和很多人讨论过这个话题,几乎从未听过有人承认其直觉或判断力低于平均水平。然而,关于这个问题的证据是如此清楚,不容置疑:在大多数情况下,如果可以选择,那么数据驱动的系统2的决策要优于我们大脑产生的、融合了系统1和系统2的决策。这并不是说我们的决策和判断毫无价值,只是说它们可以改进。我们所看到的多种方法——让算法和电脑系统做决策,有时用人的判断作为输入,让人们在适当的时候推翻电脑决策——就是这样的一些改进方法。
人类拥有的另一个巨大优势是古老常识。一些人比其他人有更多常识,但是所有人的常识都比最先进的电脑要多得多。人出生之后就开始学习关于世界如何运作的重要事情,我们认真、快速地学习。然而,尽管经过几十年的研究,我们仍然不太了解人如何获得常识,而且,正如我们在下一章所讨论的,迄今为止,将常识植入电脑的尝试是败绩累累。
B 在你的组织中,HiPPO人士最常见的决策在哪里?为什么是这样?
A 你是否系统地、严谨地追踪所在组织中由人和算法所做出的决策、判断和预测的表现?你知道哪些方面做得好吗?
在这种方法中,面试官的个人判断仍然有价值,但它们被量化了,用于为求职者打分。伯克认为,这种方法并非把面试过程平淡化、非人性化,而是恰恰相反。申请者本人喜欢受到客观公正的对待,80%被重新设计后的面试过程拒绝的申请人表示,他们会把在谷歌的求职经验推荐给朋友,招聘决策也变得更加容易。正如伯克所说,“你会看到优异和普通之间的清晰界限”。
我们认为,这些问题的答案是否定的。良好的决策对于社会的良好运作至关重要,它们帮助把车流、职位、医疗保健等恰当的资源在恰当的时候、恰当的地方引向恰当的人群。实现以上目标的最佳方法,通常不是哈默和钱皮所倡导的标准伙伴关系——由电脑做记录,由HiPPO人士行使判断力并做出决策。
我们认同这些关注,也看到越来越依赖算法决策的挑战和机会。挑战就是:这种方法会嵌入和延续不公平的、有害的和不必要的偏见。更糟糕的是,即使设计人员有创建无偏见系统的良好初衷,这些偏见也可能会出现,如果没有广泛的测试,它们可能难以识别。所有的系统设计都必须直面这一挑战。
简而言之,系统1很棒,但它同时也是错漏的真正所在。它常常走捷径,而不是透彻地推理。它还有一个惊人的偏见大集合。在心理学和卡尼曼帮助建立的行为经济学领域,研究人员已经确认了许多系统1的错漏并加以命名。
一旦企业级软件和万维网之类的技术把员工从繁文缛节中解放出来,那么他们应该做些什么呢?哈默和钱皮在《企业再造》一书中给出了明确的答案:随着电脑接管日常事务,人们应该被授权行使自己的判断力。“大多数的检查、调和、等待、监测、跟踪——也就是非生产性工作……通过再造被剔除了……在再造后的流程中工作的人必须得到授权。作为流程团队工作人员,他们被允许和被要求进行思考、交流,行使判断力,并做出决定。”
[7] 本森在休陪产假时研究了维基百科的认知偏见清单,然后提出了这一分类方法,并将其发表在“生活黑客”博客Better Humans 上(http://betterhumans.net)。这是源自在线大众的洞察力,我们将在本书第三部分详细讨论这一现象。
越来越多的美国公司也得出了同样的结论。布莱恩约弗森和多伦多大学教授克里斯蒂娜·麦克尔赫伦(Kristina McElheren)与美国人口普查局合作,对一个包含1.8万家制造工厂的代表性样本进行了调查,结果发现,数据驱动型决策的应用正在快速增加,其动力来自日益增多的信息技术应用,以及采用这一做法的公司的优异业绩。
撇开“超级预测者”不谈,我们对预测的最根本建议是少做预测。我们的世界越来越复杂,常处于混沌状态,又总是快速流动。这使得预测事情变得要么极其困难,要么不可能实现,时间跨度越大,预测就越不准确。
在这里,系统1又一次运行了,然后把它的偏见和缺陷引入一个重要的决定。
这些评分系统的开发人员必须小心翼翼,免得被误认是从事数字化歧视业务(一种非法业务,以种族或部落人群为由,拒绝或降低某些地理区域的信贷)。一般来说,他们提供了一种有价值的服务,让更多人获得信贷机会,让放款人有信心扩大业务。有证据显示,随着信贷决策趋于自动化,经济歧视实际上是减少了。2007年,美联储报告说,信用评分模式“减少了从事非法歧视行为的机会……有助于降低信贷决策受个人特征或法律禁止的其他因素(如种族、部落等)影响的可能性”。
• 法学教授泰德·鲁格(Ted Ruger)、宝丽·金(Pauline Kim)与政治学者安德鲁·马丁(Andrew Martin)、凯文·奎因(Kevin Quinn)一起,对马丁和奎因开发的一个6变量简单模型进行了测试,看看它对美国最高法院2002年期间的裁决预测是否优于一个由83位著名法律专家组成的团队的预测结果。这83位法律专家中,有38位担任过最高法院法官,33位是法学讲座教授,6位是现任或前任法学院院长。平均而言,该团队的预测与法院裁决结果相符的略低于60%。而算法则预测对了75%。