2009年,谷歌首席设计师道格·鲍曼(Doug Bowman)因为受不了随时随地的量化,愤然离职。“最近,我们竟然争辩边框是用3、4还是5倍像素,我居然被要求证明我的选择的正确性。天呐!我没办法在这样的环境中工作,”她离职后在博客上面大发牢骚,“谷歌完全是工程师的天下,所以只会用工程师的观点解决问题——把所有决策简化成一个逻辑问题。数据成为了一切决策的主宰,束缚住了整个公司。”
我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。
约翰·安德顿(John Anderton)是华盛顿特区警局预防犯罪组的负责人。这是特别的一天,早上,他冲进了住在郊区的霍华德·马克斯(Howard Marks)的家中并逮捕了他,后者打算用剪刀刺杀他的妻子,因为他发现他妻子给他戴了“绿帽子”。安德顿又防止了一起暴力犯罪案件的发生。他大声说:“我以哥伦比亚特区预防犯罪科的名义逮捕你,你即将在今天谋杀你的妻子萨拉·马克斯(SarahMarks)……”其他的警察开始控制霍华德,霍华德大喊冤枉,“我什么都没有做啊!”
大数据诱使我们犯下罗伯特·麦克纳马拉所犯的罪行,也让我们盲目信任数据的力量和潜能而忽略了它的局限性。把大数据等同于死亡人数,我们只需要想想上文提到的谷歌流感趋势。设想一下致命的流感正肆虐全国,而这并不是完全不可能出现的;医学专家们会非常感激通过检索词条,我们能够实时预测流感重灾地,他们也就能及时去到最需要他们的地方。
互联网出现之前,如艾可飞和益百利这样的专业数据收集公司就采集、记录了全球范围内大约几百万人口的数据,而它们提供的每个人的个人数据就多达好几百份。而互联网的出现使得监视变得更容易、成本更低廉也更有用处。如今,已经不只是政府在暗中监视我们了。亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,Twitter窃听到了我们心中的“TA”,Facebook似乎什么都知道,包括我们的社交关系网。
比方说,宾夕法尼亚大学教授理查德·伯克(Richard Berk)建立了一个大数据模型,他声称这个模型可以预测一个判缓刑或者假释的人一旦提前释放会不会再次杀人。他输入了海量的特定案件变量,包括监禁的原因、首次犯罪的时间、年龄、性别等个人数据。伯克说他的模型对未来行为预测的准确率可以达到75%。这听起来似乎还不错。但是,这也意味着如果假释委员会依靠他的分析,就会在每4个人中出现一次失误。
这都是如今的小数据时代所采用的“画像”背后的指导思想。在一个数据库中找到普遍联系,然后对适用于这种普遍联系的个人深入勘察。这适用于团体内的每个人,是一条普遍规则。当然,“画像”意义颇多,不只意味着对一个特定群体的区分,而且指“牵连犯罪”,不过这是一种滥用,所以“画像”有严重的缺陷。
大数据替我们规避了“画像”的缺陷,因为大数据区分的是个人而不是群体,所以我们不会再通过“牵连犯罪”给群体中的每个人都定罪。如今,一个用现金购买头等舱单程票的阿拉伯人不会再被认为是恐怖分子而接受额外的检查,只要他身上的其他数据表明他基本没有恐怖主义倾向。因此,大数据通过给予我们关于个人自身更详尽的数据信息,帮我们规避了“画像”的缺陷——直接将群体特征强加于个人。
詹姆斯·斯科特(James Scott)教授是耶鲁大学政治学和人类学教授,他在《国家的视角》(Seeing Like a State)一书中记录了政府如何因为它们对量化和数据的盲目崇尚而陷人民的生活于水深火热之中。
其实,我们一直在用“画像”来帮助我们确定个人的罪责,大数据所做的并没有本质的差别,只是让这种方法更完善、更精准、更具体和更个性化。因此,如果大数据预测只是帮助我们预防不良行为,我们似乎是可以接受的。但是,倘若我们使用大数据预测来判定某人有罪并对其尚未实施的行为进行惩罚,就可能让我们陷入一个危险的境地。
2006年8月,美国在线(AOL)公布了大量的旧搜索查询数据,本意是希望研究人员能够从中得出有趣的见解。这个数据库是由从3月1日到5月31日之间的65.7万用户的2000万搜索查询记录组成的,整个数据库进行过精心的匿名化——用户名称和地址等个人信息都使用特殊的数字符号进行了代替。这样,研究人员可以把同一个人的所有搜索查询记录联系在一起来分析,而并不包含任何个人信息。
麦克纳马拉对数字的执迷从年轻的时候就开始了,当时他还是哈佛商学院的学生,后来,他以24岁的年纪成为了最年轻的副教授。第二次世界大战期间,他把这种严密的数字意识运用到了工作之中,当时他是五角大楼里被称为“统计控制队”中的一名精英,这个队伍让世界权力的中心人物都开始依靠数据进行决策。在这之前,部队一直很盲目。比方说,它们不知道飞机备用零件的种类、数量和放置位置。1943年制作的综合清单为部队节省了36亿美元。现代战争需要资源的合理分配,他们所做的非常了不起。
也许,大数据预测可以为我们打造一个更安全、更高效的社会,但是却否定了我们之所以为人的重要组成部分——自由选择的能力和行为责任自负。大数据成为了集体选择的工具,但也放弃了我们的自由意志。
据《华盛顿邮报》2010年的研究表明,美国国家安全局每天拦截并存储的电子邮件、电话和其他通信记录多达17亿条。前美国安全局官员威廉·宾尼(William Binney)估计政府采集的美国及他国公民的通信互动记录有20万亿次之多,其中包括谁和谁通过话、发过电子邮件、进行过电汇等信息。为了弄明白这所有的数据,美国建立了庞大的数据中心,其中美国国家安全局就耗资12亿美元在犹他州的威廉姆斯堡建立了一个。
尽管如此,《纽约时报》还是在几天之内通过把“60岁的单身男性”、“有益健康的茶叶”、“利尔本的园丁”等搜索记录综合分析考虑后,发现数据库中的4417749号代表的是佐治亚州利尔本的一个62岁寡妇塞尔玛·阿诺德(Thelma Arnold)。当记者找到她家的时候,这个老人惊叹道:“天呐!我真没想到一直有人在监视我的私人生活。”这引起了公愤,最终美国在线的首席技术官和另外两名员工都被开除了。
我们比想象中更容易受到数据的统治——让数据以良莠参半的方式统治我们。其威胁就是,我们可能会完全受限于我们的分析结果,即使这个结果理应受到质疑。或者说,我们会形成一种对数据的执迷,因而仅仅为了收集数据而收集数据,或者赋予数据根本无权得到的信任。
大数据为监测我们的生活提供了便利,同时也让保护隐私的法律手段失去了应有的效力。面对大数据,保护隐私的核心技术不再适用了。同样,通过大数据预测,对我们的未来想法而非实际行为采取惩罚措施,也让我们惶恐不安,因为这否认了自由意志并伤害了人类尊严。
大数据大大地威胁到了我们的隐私和自由,这都是大数据带来的新威胁。但是与此同时,它也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。要揭示大数据分析的不可靠性,恐怕没有比罗伯特·麦克纳马拉(Robert McNamara)的例子更贴切的了。
20世纪70年代,罗伯特·麦克纳马拉一直担任世界银行行长。20世纪80年代,他俨然变成了和平的象征。他为反核武器和环境保护摇旗呐喊。然后,他经历了一次思想的转变并且出版了一本回忆录《回顾:越战的悲剧与教训》(In Retrospect:The Tragedy and Lessons of Vietnam),书中批判了战争的错误指导思想并承认了他当年的行为“非常错误”,他写道,“我们错了,大错特错!”但书中还是只承认了战争的整体策略的错误,并未具体流露出对数据和“死亡人数”饱含感情的忏悔。他承认统计数据具有“误导或者迷惑性”,“但是对于你能计算的事情,你应该计算;死亡数就属于应该计算的……”2009年,享年93岁的麦克纳马拉去世,他被认为是一个聪明却并不睿智的人。
我们可以用大数据来预防犯罪,听起来真不错。毕竟在犯罪发生之前及时制止比事后再惩罚要好得多,不是吗?因为我们避免了犯罪的发生,也就挽救了可能被伤害的人,同时社会整体也受益了。
麻烦的是,人们习惯性地从因果关系的视角来理解世界。因此,大数据总是被滥用于因果分析,而且我们往往非常乐观地认为,只要有了大数据预测的帮助,我们进行个人罪责判定就会更高效。
谷歌公司的创始人拉里·佩奇和谢尔盖·布林一直强调要得到每个应聘者申请大学时的SAT成绩以及大学毕业时的平均绩点。他们认为,前者能彰显潜能,后者则展现成就。因此,当40多岁、成绩斐然的经理人在应聘时被问到大学成绩的时候,就完全无法理解这种要求。尽管公司内部研究早就表明,工作表现和这些分数根本没有关系,谷歌依然冥顽不化。
如果大数据分析完全准确,那么我们的未来会被精准地预测,因此在未来,我们不仅会失去选择的权利,而且会按照预测去行动。如果精准的预测成为现实的话,我们也就失去了自由意志,失去了自由选择生活的权利。既然我们别无选择,那么我们也就不需要承担责任,这不是很讽刺吗?
我们在书中举过无数谷歌的例子,我们明白它的一切运作都是基于数据基础之上的。很明显,它大部分的成功都是数据造就的,但是偶尔谷歌也会因为数据栽跟头。
但是,主要的问题并不是出在社会需要面对更多威胁上,而是我们在人们真正犯罪之前对他进行惩罚否定了人的自由权利。我们永远不会知道这个受惩罚的人是否会真正犯罪,因为我们已经通过预测预先制止了这种行为,如此一来,我们就没有让他按照他的意愿去做,但是我们却依然坚持他应该为自己尚未实施的未来行为付出代价,而我们的预测也永远无法得到证实。
谷歌对数据的依赖有时太夸张了。玛丽莎·迈尔(Marissa Mayer)曾任谷歌高管职位,居然要求员工测试41种蓝色的阴影效果中,哪种被人们使用最频繁,从而决定网页工具栏的颜色。谷歌的数据独裁就是这样达到了顶峰,同时也激起了反抗。
基于未来可能行为之上的惩罚是对公平正义的亵渎,因为公平正义的基础是人只有做了某事才需要对它负责。毕竟,想做而未做不是犯罪。社会关于个人责任的基本信条是,人为其选择的行为承担责任。如果有人在被别人用枪威胁的情况下打开了公司的保险柜,他并不需要承担责任,因为他别无选择。
1989年,柏林墙倒塌,之前的近40年间,民主德国国家安全局“Stasi”雇用了十万左右的全职间谍,时刻在街上开车监视着成千上万民众的一举一动。他们拆看信件、偷窥银行账户信息、在民众家中安装窃听器并且窃听电话。他们还会让情人、夫妇、父母和孩子相互监视,导致人与人之间丧失了最基本的信任。结果,详细记录普通人最私密生活信息的文件至少包括了3900万张索引卡片和铺开足有113公里长的文档。民主德国是一个史无前例的受到如此全面监控的国家。
我们倾向于从数字数据的增长和奥威尔写《1984》时所处“监视炼狱”的角度去理解大数据给个人隐私带来的威胁。但是事实上,不是所有的数据都包含了个人信息。其实,不管是传感器从炼油厂采集的数据、来自工厂的机器数据、机场的气象数据,还是沙井盖爆炸数据都不包含个人信息。英国石油公司和纽约爱迪生联合电力公司不需要(也不想要)个人信息,就能分析挖掘出他们所需要的数据价值。事实上,这方面的数据分析并不威胁个人隐私。
当然,精准的预测是不现实的。大数据分析只能预测一个人未来很有可能进行的行为。
在孟菲斯市,一个名为“蓝色粉碎”的项目为警员提供情报,关于哪些地方更容易发生犯罪事件,什么时候更容易逮到罪犯。这个系统帮助执法部门更好地分配其有限的资源。这个项目自2006年启动以来,孟菲斯的重大财产和暴力犯罪发生率约下降了26%(虽然这与这个项目不一定有因果关系)。
在里士满市的另一个项目中,警察把犯罪数据与其他数据相关联,比方说市里的大公司何时给员工发工资,当地举办音乐会或者运动赛事的时间。这证实了警方对犯罪趋势的预测,有时也会帮助警方推算出更准确的犯罪趋势。例如,里士满市的警察一直觉得在枪击事件之后会出现一个犯罪高峰期,大数据证明了这种想法,但是也发现了一个漏洞,即高峰不是紧随枪击事件而来的,而是两个星期之后才会出现。
随着越来越多的事物被数据化,决策者和商人所做的第一件事就是得到更多的数据。“我们相信上帝,除了上帝,其他任何人都必须用数据说话。”这是现代经理人的信仰,也回响在硅谷的办公室、工厂和市政厅的门廊里。善加利用,这是极好的事情,但是一旦出现不合理利用,后果将不堪设想。
20世纪,我们见证了太多由于数据利用不合理所导致的惨剧。比如1943年,美国人口普查局递交了地址数据来帮助美国政府拘留日裔美国人(当时它没有提交街道名字和具体街号的数据,居然幻想着这样能保护隐私);荷兰著名的综合民事记录数据则被纳粹分子用来搜捕犹太人;纳粹集中营里罪犯的前臂上刺青的五位数号码与IBM的霍瑞斯穿孔卡片上的号码是一致的,这一切都表明是数据处理帮助实现了大规模的屠杀。
德国统一20年之后,更多的个人信息被采集和存储了下来。我们时刻都暴露在“第三只眼”之下,不管我们是在用信用卡支付、打电话还是使用身份证。2007年,英国的一家报社曾讽刺地报道,在乔治·奥威尔创作《一九八四》的地方,也就是他的伦敦公寓外60米范围内,起码有30多架摄像机在监视着他的一举一动。
比方说,如今在美国和欧洲部署的一些智能电表每6秒钟采集一个实时读数,这样一天所得到的数据比过去传统电表收集到的所有数据还要多。因为每个电子设备通电时都会有自己独特的“负荷特征”,比如热水器不同于电脑,而它们与Led大麻生长灯又不一样,所以能源使用情况就能暴露诸如一个人的日常习惯、医疗条件和非法行为这样的个人信息。
通过把奈飞公司的数据与其他公共数据进行对比分析,得克萨斯大学的研究人员很快发现,匿名用户进行的收视率排名与互联网电影数据库(IMDb)上实名用户所排的是匹配的。
大数据预测给我们带来的威胁,不仅仅局限于司法公正上,它还会威胁到任何运用大数据预测对我们的未来行为进行罪责判定的领域,比如民事法庭案件中判定过失以及公司解雇员工的决策。
在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。如今很多用户都觉得自己的隐私已经受到了威胁,当大数据变得更为普遍的时候,情况将更加不堪设想。
答案是肯定的。大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增来改变现状。我们也将分析它是如何加深对我们隐私的威胁的,同时还将面对一个新的挑战,即运用大数据预测来判断和惩罚人类的潜在行为。这是对公平公正以及自由意志的一种亵渎,同时也轻视了决策过程中深思熟虑的重要性。
与25年之前的民主德国相比,现在我们所受的监控没有减少,反而变得越来越容易、严密以及低成本。采集个人数据的工具就隐藏在我们日常生活所必备的工具当中,比如网页和智能手机应用程序。我们知道大多数的汽车中都装了一个“黑盒子”——用来监测安全气囊激活的情况,而如今,一旦出现具有争议的交通案件,这个黑盒子所采集的数据就可以在法庭上充当证据。当然,如果企业采集数据只是来提高绩效,我们就不用像被Stasi窃听那样而感到那么害怕。毕竟企业再强大,也不如国家强制力。
当然,目前所采集的大部分数据都包含有个人信息,而且存在着各种各样的诱因,让我们想尽办法去采集更多、存储更久、利用更彻底,甚至有的数据表面上并不是个人数据,但是经由大数据处理之后就可以追溯到个人了。
大数据洞察
我们已经看到了这种社会模式的萌芽。30多个州的假释委员正使用数据分析来决定是释放还是继续监禁某人。越来越多的美国城市,从洛杉矶的部分地区到整个里士满(美国弗吉尼亚州首府),都采用了“预测警务”(也就是大数据分析)来决定哪些街道、群体还是个人需要更严密的监控,仅仅因为算法系统指出他们更有可能犯罪。
不过,即使它们不具备国家强制力,想到各种各样的公司在我们不知情的情况下采集了我们日常生活方方面面的数据,并且进行了数据共享以及一些我们未知的运用,这还是很恐怖的。对大数据大加利用的不只是私营企业,政府也不甘落后。
不过,虽然企业和政府拥有的这种采集个人信息的能力,让我们感到很困扰,但也还是没有大数据所引起的另一个新问题让我们更恐慌,那就是用预测来判断我们。
同样,一开始的时候就要用户同意所有可能的用途,也是不可行的。因为这样一来,“告知与许可”就完全没有意义了。大数据时代,告知与许可这个经过了考验并且可信赖的基石,要么太狭隘,限制了大数据潜在价值的挖掘,要么就太空泛而无法真正地保护个人隐私。
不幸的是,我们的担忧一语中的。大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。这就颠覆了当下隐私保护法以个人为中心的思想:数据收集者必须告知个人,他们收集了哪些数据、作何用途,也必须在收集工作开始之前征得个人的同意。虽然这不是进行合法数据收集的唯一方式,“告知与许可”已经是世界各地执行隐私政策的共识性基础(虽然实际上很多的隐私声明都没有达到效果,但那是另一回事)。
同时,那些尝到大数据益处的人,可能会把大数据运用到它不适用的领域,而且可能会过分膨胀对大数据分析结果的信赖。随着大数据预测的改进,我们会越来越想从大数据中掘金,最终导致一种盲目崇拜,毕竟它是如此的无所不能。这就是我们必须从麦克纳马拉的故事中引以为戒的。
如今,不再只是负责反恐的秘密机关需要采集更多的数据,所有的政府部门都需要,所以,数据采集扩展到了金融交易、医疗记录和Facebook状态更新等各个领域,数据量之巨可想而知。政府其实处理不了这么多数据,那为什么要费力采集呢?
必须杜绝对数据的过分依赖,以防我们重蹈伊卡洛斯的覆辙。他就是因为过分相信自己的飞行技术,最终误用了数据而落入了海中。下一章,我们将探讨如何让数据为我们所用,而不让我们成为数据的奴隶。
它们使用地图来确定社区重建,却完全不知道其中民众的生活状态。它们使用大量的农收数据来决定采取集体农庄的方式,但是它们完全不懂农业。它们把所有人们一直以来用之交流的不健全和系统的方式按照自己的需求进行改造,只是为了满足可量化规则的需要。在斯科特看来,大数据使用成了权力的武器。
同时,想在大数据时代中用技术方法来保护隐私也是天方夜谭。如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。我们把谷歌街景作为一个例子来看,谷歌的图像采集车在很多国家采集了道路和房屋的图像(以及很多备受争议的数据)。但是,德国媒体和民众强烈地抗议了谷歌的行为,因为民众认为这些图片会帮助黑帮窃贼选择有利可图的目标。有的业主不希望他的房屋或花园出现在这些图片上,顶着巨大的压力,谷歌同意将他们的房屋或花园的影像模糊化。但是这种模糊化却起到了反作用,因为你可以在街景上看到这种有意识的模糊化,对盗贼来说,这又是一个此地无银三百两的例子。
大数据的力量
就像福特的员工将零件投入河中一样,下级军官为了达成命令或者升官,会汇报可观的数字给他们的上级,只要那是他们的上级希望听到的数字。麦克纳马拉和他身边的人都依赖并且执迷于数据,他认为只有通过电子表格上有序的行、列、计算和图表才能真正了解战场上发生了什么。他认为掌握了数据,也就进一步接近了真理(上帝)。
然而,我们要探讨的主要是大数据是否改变了这种威胁的性质,而不是是否加剧了这种威胁。如果仅仅是加剧了这种威胁,那么我们现在采用的保护隐私的法律法规依然是有效的,我们只需要付出加倍的努力来确保有效性就可以。然而,倘若威胁的性质已经改变了,我们就需要寻求新的解决方案。
其实,卓越的才华并不依赖于数据。史蒂夫·乔布斯多年来持续不断地改善Mac笔记本,依赖的可能是行业分析,但是他发行的iPod、iPhone和iPad靠的就不是数据,而是直觉——他依赖于他的第六感。当记者问及乔布斯苹果推出iPad之前做了多少市场调研时,他那个著名的回答是这样的:“没做!消费者没义务去了解自己想要什么。”
这是一个典型的滑坡,可能直接导致《少数派报告》中的情况成为现实——我们将生活在一个没有独立选择和自由意志的社会,在这里我们的道德指标将被预测系统所取代,个人一直受到集体意志的冲击。简单地说,如果一切都成为现实,大数据就会把我们禁锢在可能性之中。
这是电影《少数派报告》(Minority Report)开始时的场景,这部电影描述的是一个未来可以准确预知的世界,而罪犯在实施犯罪前就已受到了惩罚。人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。虽然电影中预测依靠的不是数据分析,而是三个超自然人的想象,但是《少数派报告》所描述的这个令人不安的社会正是不受限制的大数据分析可能会导致的:罪责的判定是基于对个人未来行为的预测。
麦克纳马拉是典型的20世纪经理人——完全依赖数字而非感情的理智型高管,他可以把他的数控理论运用到任何领域。1960年,他被任命为福特汽车公司的总裁,在位只有几周,他就被肯尼迪总统任命为美国国防部部长。
我们可能觉得,这种做法很合理,但是事实上,这是完全错误的。相关性并不意味着有因果关系。通过这种方式找出的人,可能根本就没有感染流感。他们只是被预测所害,更重要的是,他们成了夸大数据作用同时又没有领会数据真谛的人的替罪羊。谷歌流感趋势的核心思想是这些检索词条和流感爆发相关,但是这也可能只是医疗护工在办公室听到有人打喷嚏,然后上网查询如何防止自身感染,而不是因为他们自己真的生病了。
美国军方在越战时对数据的使用、滥用和误用给我们提了一个醒,在由“小数据”时代向大数据时代转变的过程中,我们对信息的一些局限性必须给予高度的重视。数据的质量可能会很差;可能是不客观的;可能存在分析错误或者具有误导性;更糟糕的是,数据可能根本达不到量化它的目的。
这否定了法律系统或者说我们的公平意识的基石——无罪推定原则。因为我们被追究责任,居然是为了我们可能永远都不会实施的行为。对预测到的未来行为判罪也否认了我们进行道德选择的能力。
事隔仅仅两个月之后,也就是2006年10月,DVD租赁商奈飞公司做了一件差不多的事,就是宣布启动“Netflix Prize”算法竞赛。该公司公布了大约来自50万用户的一亿条租赁记录,并且公开悬赏100万美金,举办一个软件设计大赛来提高他们的电影推荐系统的准确度,胜利的条件是把准确度提高10%。同样,奈飞公司也对数据进行了精心的匿名化处理。然而还是被一个用户认出来了,一个化名“无名氏”的未出柜的同性恋母亲起诉了奈飞公司,她来自保守的美国中西部。
与数据为伴的人可以用一句话来概括这些问题,“错误的前提导致错误的结论。”有时候,是因为用来分析的数据质量不佳;但在大部分情况下,是因为我们误用了数据分析结果。大数据要么会让这些问题高频出现,要么会加剧这些问题导致的不良后果。
这是数据独裁放大了的写照。同样,也是这种自大导致美国基于死亡人数而不是更理智的衡量标准来扩大越南战争的规模。1976年,在与日俱增的国内压力下,麦克纳马拉在一次演讲中说道,“事实上,真的不是每一个复杂的人类情况都能简化为曲线图上的线条、图表上的百分点或者资产负债表上的数字。但是如果不对可量化的事物进行量化,我们就会失去全面了解该事物的机会。”只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成强大的武器。
大多数情况下,我们已经在以预测之名采用大数据分析。它把我们放在一个特定的人群之中来对我们进行界定。保险精算表上指出,超过50岁的男性更容易患前列腺癌,所以你如果不幸正好处于这个年龄段,就需要支付更多的保险费用,即使你根本就没得过这个病。没有高中文凭的人更容易偿还不起债务,所以如果你没有高中文凭,就可能贷不到款或者必须支付更高的保险费。有的人在过安检的时候,可能会需要进行额外的检查,仅仅是因为他带有某种特定的特征。
谷歌本应该懂得抵制数据的独裁。考试结果可能一生都不会改变,但是它并不能测试出一个人的知识深度,也展示不出一个人的人文素养,学习技能之外,科学和工程知识才是更适合考量的。谷歌在招聘人才方面如此依赖数据让人很是费解,要知道,它的创始人可是接受过注重学习而非分数的蒙台梭利教育。谷歌就是在重蹈前人覆辙,过去美国的科技巨头们也把个人简历看得比个人能力重要。如果按谷歌的做法,其创始人都没有资格成为传奇性的贝尔实验室的经理,因为他们都在博士阶段辍学了;比尔·盖茨和马克·扎克伯格也都会被淘汰,因为他们都没有大学文凭。
另一条技术途径在大部分情况下也不可行,那就是匿名化。匿名化指的是让所有能揭示个人情况的信息都不出现在数据集里,比方说名字、生日、住址、信用卡号或者社会保险号等。这样一来,这些数据就可以在被分析和共享的同时,不会威胁到任何人的隐私。在小数据时代这样确实可行,但是随着数据量和种类的增多,大数据促进了数据内容的交叉检验。
大数据有利于我们理解现在和预见未来的风险,如此一来,我们就可以相对应地采取应对措施。大数据预测可以帮助患者、保险公司、银行和顾客,但是大数据不能告诉我们因果关系。相对地,进行个人罪责推定需要行为人选择某种特定的行为,他的选择是造成这个行为的原因。但大数据并不是建立在因果关系基础上的,所以它完全不应该用来帮助我们进行个人罪责推定。
更重要的是,大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。所以,公司无法告知个人尚未想到的用途,而个人亦无法同意这种尚是未知的用途。但是只要没有得到许可,任何包含个人信息的大数据分析都需要向个人征得同意。因此,如果谷歌要使用检索词预测流感的话,必须征得数亿用户的同意,这简直无法想象。就算没有技术障碍,又有哪个公司能负担得起这样的人力物力支出呢?
但是这很危险,因为如果我们可以用大数据来预防犯罪,我们就可能会想进一步惩罚这个未来的罪犯。这也是符合逻辑的,因为我们会觉得如果只是阻止了他的犯罪行为而不采取惩罚措施的话,他就可能因为不受损失而再次犯罪;如果我们因为他未实施的犯罪行为而惩罚他的话,可能就会威慑到他。
麦克纳马拉对数据的执迷迅速升温,开始凡事都考虑数据集。工厂经理迅速地生成麦克纳马拉所要求的数字,不管对错。他规定只有在旧车型的所有零件的存货用完之后才能生产新车型,愤怒的生产线经理们一股脑将剩余的零件全部倒进了附近的河里。当前线员工把数据返回的时候,总部的高管们都满意地点了点头,因为规定执行得很到位。但是工厂里盛行一个笑话,是说河面上可以走人了,因为河里有很多1950年或者1951年生产的车型的零件,在河面上走就是在生锈的零件上走。
麦克纳马拉是一个执迷于数据的人。20世纪60年代早期,在越南局势变得紧张的时候,他被任命为美国国防部长。任何事情,只要可以,他都会执意得到数据。他认为,只有运用严谨的统计数据,决策者才能真正理解复杂的事态并做出正确的决定。他眼中的世界就是一堆桀骜不驯的信息的总和,一旦划定、命名、区分和量化之后,就能被人类驯服并加以利用。麦克纳马拉追求真理,而数据恰好能揭示真理。他所掌握的数据中有一份就是“死亡名单”。
除了对隐私和倾向的不良影响,大数据还有一个弊端。我们冒险把罪犯的定罪权放在了数据手中,借以表达我们对数据和我们的分析结果的崇尚,但是这实际上是一种滥用。应用得当,大数据会是我们合理决策过程中的有力武器;倘若运用不当,它就可能会变成权贵用来镇压民众的工具,轻则伤害顾客和员工的利益,重则损害公民的人身安全。我们所冒的风险比想象中还要大。如果在隐私和预测方面对大数据管理不当,或者出现数据分析错误,会导致的不良后果比定制化的在线广告要严重得多。
这是因为在大数据时代,监控的方式已经改变了。过去,调查员为了尽可能多地知道嫌疑人的信息,需要把鳄鱼夹夹到电话线上。当时最重要的是能深入调查某个人,而现在情况不一样了,比如谷歌和Facebook的理念则是人就是社会关系、网上互动和内容搜索的加和。所以,为了全面调查一个人,调查员需要得到关于这个人的最广泛的信息,不仅是他们认识的人,还包括这些人又认识哪些人等。过去的技术条件没法做到这样的分析,但是今非昔比了。
基于预测基础上的惩罚似乎也是我们现在惯行方法的一种提升。现代社会是建立在预防不健康、危险和非法行为基础上的。我们为了预防肺癌而减少吸烟率、为了避免在车祸中死亡而系安全带、为了避免被劫机而不允许带枪支登机,所有这些预防措施都限制了我们的自由,但是我们愿意为了防止更大的灾难而做出适当的牺牲。
这些系统通过预测来预防犯罪,最终要精准到谁会犯罪这个级别。这是大数据的新用途。众多科幻小说的丰富演绎进一步揭示了机场日常安检的平庸和困境。美国国土安全部正在研发一套名为未来行为检测科技(Future Attribute Screening Technology,简称FAST)的安全系统,通过监控个人的生命体征、肢体语言和其他生理模式,发现潜在的恐怖分子。研究者认为,通过监控人类的行为可以发现他们的不良意图。美国国土安全部声称,在研究测试中,系统检测的准确度可以达到70%。(测试方法并不可知,难道是要志愿者假扮恐怖分子,然后看看系统是否能发现他们的不良意图吗?)尽管这些研究还处于早期阶段,执法者和监管部门还是对其给予了高度重视。
战争结束的时候,他们决定通力合作拯救濒临倒闭的福特汽车公司。福特二世(Henry Ford Ⅱ)绝望地交出了自己的控制权。就像他们投入战争的时候完全不懂军事一样,这一次,他们也不关心如何制作汽车。但是奇妙的是,这群精明小子居然救活了福特公司。
1977年,一架直升机从西贡的美国大使馆屋顶上撤离了最后一批美国公民。两年之后,一位退休的将军道格拉斯·金纳德(Douglas Kinnard)发表了《战争管理者》(The War Managers)。这是一个关于将军们对越战看法的里程碑式的调查。它揭露了量化的困境。仅仅只有2%的美国将军们认为用死亡人数衡量战争成果是有意义的,而三分之二的人认为大部分情况下数据都被夸大了。一个将军评论称,“那都是假的,完全没有意义”;另一个说道,“公开撒谎”;还有一个将军则认为是像麦克纳马拉这样的人表现出了对数据的极大热忱,导致很多部门一层一层地将数字扩大化了。
但是在危急时刻,政府领导可能会认为只知道哪里流感疫情最严重还远远不够。如果试图抑制流感的传播,就需要更多的数据。所以他们呼吁大规模的隔离,当然不是说隔离这个地区的所有人,这样既无必要也太费事。大数据能给我们更精确的信息,所以我们只需隔离搜索了和流感有最直接关系的人。如此,我们有了需要隔离的人的数据,联邦特工只需通过IP地址和移动GPS提供的数据,找出该用户并送入隔离中心。
大数据洞察
随着越南战争升级和美军加派部队,这变成了一场意志之战而非领土之争。美军的策略是逼迫越共走上谈判桌。于是,评判战争进度的方法就是看对方的死亡人数。每天报纸都会公布死亡人数。支持战争的人把这作为战争胜利的标志,反战的人把它作为道德沦丧的证据。死亡人数是代表了一个时代的数据集。
教育似乎在走下坡路?用标准化测试来检验学生的表现和评定对老师或学校的奖惩是不合理的。考试是否能全面展示一个学生的能力?是否能有效检测教学质量?是否能反映出一个有创造力、适应能力强的现代师资队伍所需要的品质?这些都饱受争议,但是,数据不会承认这些问题的存在。
大数据洞察
大数据洞察
在美国在线的案例中,我们被我们所搜索的内容出卖了。而奈飞公司的情况则是因为不同来源数据的结合暴露了我们的身份。这两种情况的出现,都是因为公司没有意识到匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。
概括地说,研究发现每对6部不出名的电影进行排序,我们就有84%的概率可以辨认出奈飞公司这个顾客的身份。而如果我们知道这个顾客是哪天进行了排序的话,那么他被从这个50万人的数据库中挑出来的概率就会高达99%。
科罗拉多大学的法学教授保罗·欧姆(Paul Ohm),同时也是研究反匿名化危害的专家,认为针对大数据的反匿名化,现在还没有很好的办法。毕竟,只要有足够的数据,那么无论如何都做不到完全的匿名化。更糟的是,最近的研究表明,不只是传统数据容易受到反匿名化的影响,人们的社交关系图,也就是人们的相互联系也将同受其害。
大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。让人们为还未实施的未来行为买单是带来不利影响的主要原因,因为我们把个人罪责判定建立在大数据预测的基础上是不合理的。
进行大数据分析的人可以轻松地看到大数据的价值潜力,这极大地刺激着他们进一步采集、存储、循环利用我们个人数据的野心。随着存储成本继续暴跌而分析工具越来越先进,采集和存储数据的数量和规模将爆发式地增长。如果说在互联网时代我们的隐私受到了威胁,那么大数据时代是否会加深这种威胁呢?这就是大数据的不利影响吗?
如何防止恐怖主义?创造一层层的禁飞名单、阻止任何与恐怖主义有关的个人搭乘飞机,这真的有用吗?回答是:值得怀疑。想想那件非常出名的事情,马萨诸塞州参议员特德·肯尼迪(Ted Kennedy)不就因为仅仅与该数据库中的一个人名字相同而被诱捕、拘留并且调查了吗?