大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。偶尔也会带来屈辱或固执的同样混乱的大脑运作,也能带来成功,或在偶然间促成我们的伟大。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。就好像我们学习处理混乱数据一样,因为这些数据服务的是更加广大的目标。毕竟混乱构成了世界的本质,也构成了人脑的本质,而无论是世界的混乱还是人脑的混乱,学会接受和应用它们才能得益。
“我对因果关系不感兴趣,除非它用行动说话。”弗劳尔解释道。“因果关系是别人的事,坦白说,谈论因果关系是非常冒险的。我不认为有人提出房产止赎程序和那个地方是否长期存在结构性的火灾风险之间有任何关系。我认为这么想很愚蠢。他们会认为有一些潜在的因素,但没有人会站出来承认。我不想深究这个,我需要一个能够把握的特定数据点来告诉我它的意义。如果它很重要,我们就会采取行动。如果不重要,我们就不会行动。你知道,我们有真正需要解决的问题。我不会闲逛,或者像现在一样想着因果关系的事儿。”
当大数据成为日常生活的一部分后,它将会极大地改变我们对未来的看法。大约五百年前,欧洲在逐渐发展为更加自由、科学、文明的世界的进程中,欧洲人经历了对时间认知的重大转变。在此之前,时间被认为是循环的,生命也是轮转的。每天或每年与过去的日子如出一辙,甚至连生命的终结也与起点相似,因为濒死的成人会显示出孩子的特征。认知转变后,时间变作线性的,成了一条岁月演变过程,过程中世界因人变化,生命的轨迹也受到相应的影响。如果说这以前的历史中,过去、当下、未来的概念是完全交织在一起的,那么通过塑造当下,人类现在便有了过去可以回顾,有了未来可以展望。
大数据也被用于发展经济和理解如何预防冲突。基于手机动向数据显示,非洲许多贫民窟地区经济活动十分活跃。大数据还揭示了最可能引发种族关系紧张的社区以及解除难民危机的方式。只有当科技应用至生活的方方面面时,大数据的使用范围才能进一步扩大。
他主要负责后勤事务,而不是相关的法律工作。他负责将证人运送到绿色区域,其间需要安全通过无数每天都会上演的简易爆炸装置袭击(IED)。他看到了军队人员是如何将这当作数据问题来进行处理的。情报分析员结合实地考察报告和过去IED袭击地点、时间和人员伤亡的详细信息,据此预测一天中最安全的运送路线。
他们最早处理的事件之一是“非法改建”,即将一套住房隔出很多小房间,这样就能够多容纳10倍的人。非法改建会带来巨大的火灾隐患,也是犯罪、毒品、疾病和虫害孵化的温床。乱麻一般的分机线绳会沿墙壁穿过,电炉可能会放在床单的上面,一旦发生火灾,人也许会被裹得紧紧地葬身火海。2005年,两名消防队员因营救非法改建住房的人而死亡。纽约市每年会受到约25000起非法改建的投诉,但只有200名检察员在处理这些事情。似乎没有什么好办法来区分简单的滋扰事件和严重的爆炸起火事件。但对弗劳尔和他的小伙子们来说,这看起来更像是一个可以用大量数据来解决的问题。
大数据在实用层面的影响很广泛,解决了大量的日常问题。大数据更是利害攸关的,它将重塑我们的生活、工作和思维方式。在某些方面,我们面临着一个僵局,比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。我们脚下的地面正在移动。过去确定无疑的事情正在受到质疑。大数据需要人们重新讨论决策、命运和正义的性质。我们的世界观正受到相关性优势的挑战。拥有知识曾意味着掌握过去,现在则更意味着能够预测未来。
我们“做新、做多、做好、做快”的能力能释放出无限价值,产生新的赢家和输家。大部分的信息价值来自二级用途,即潜在价值,而不是我们所习惯认为的基本用途。结果,对于大多数数据来说,尽可能多地收集、等待信息增值并且让其他更适合挖掘其价值的人来分析它才是明智之举(前提是此人能够分享开发出的利润)。
这种分析法或许揭示了:有些历史最悠久的做事方法并不是最好的,就好比《点球成金》中的球探们不得不接受他们直觉中的缺陷一样。例如,人们将城市“311”投诉热线的来电数量作为衡量问题严重性的指标,来电越多说明问题越严重。但是这种引导是错误的。在繁华的上东区发现一只老鼠也许会在仅仅一个小时之内引发30个投诉电话。然而在布朗克斯区,街坊只有在看到成群结队的老鼠时,才会觉得有必要打个投诉电话。同样,很多非法改建的投诉也许会让人们议论纷纷,但是其后果并没有那么严重。
如果真变成这样,为人类开辟出一块领地,为直觉、常识和意外运气腾出空间就十分必要,以确保它们不被数据和机器回答挤兑出去。人类最伟大之处正是运算法和硅片没有揭示也无法揭示的东西,因为数据也无法捕捉到这些。并不是“人类最伟大的东西是什么”,而是“什么不是人类最伟大的产物”——真空、人行道上的裂缝、未说出口的话还是未想到的事?
当我们准备开发电子商务、寓生活于互联网、进入计算机时代或者拿起算盘时,这些事情比那些代表他们的问题更加重要。我们寻找原因的想法可能被高估了,很多情况下,弄清楚“是什么”比找寻“为什么”更加重要,因为前者表明事实才是我们生活和思维的基础。这些问题可能没有答案。或许,它们是关于人在宇宙中的位置以及能否在喧嚣混乱、不可理喻的世界中寻找到意义这一永恒争论的一部分。
大数据将成为理解和解决当今许多紧迫的全球问题所不可或缺的重要工具。例如要应对气候变化问题时,需要对污染相关数据进行分析,得出最佳方案,来指导努力方向,找出缓解问题的方法。全球范围内遍布的大量传感设备,包括智能手机内部的传感器,使我们能够以更高的细节水平模拟环境。而世界贫困人口迫切需要提高医疗保健服务,降低医疗费用,这很大程度上可以靠自动化来实现。当下许多似乎需要人类判断才能进行的事情,其实完全可以交由电脑来做,比如癌细胞活检、传染病爆发前期的模式预测等。
最初,许多数据形式都不可用。例如,在一个城市里,描述地理位置的方法不是唯一的,每个机构和部门似乎都有自己的描述方式。建筑部门给予每个建筑物一个独特的号码;房屋维护部门也有自己独有的编号系统;税务部门依照街区和地皮,给予每个建筑物特定的标识;警察局采用笛卡尔坐标系;消防局依托“电话亭”临近体系,将建筑物与各个消防站的位置联系在一起,尽管这些电话亭并非真实存在。弗劳尔的小伙子们处理这种不统一的方式是:以笛卡尔坐标系为基础,取用建筑物周围的一片辐射范围并从其他机构的数据库调取地理位置数据,从而建立一个系统。这些数据本身并不精确,但是巨大的信息量弥补了这点瑕疵。
他们将城市里的90万栋建筑都列在表上,然后输入来自19个不同机构的数据集。这些数据显示了建筑业主是否拖欠了应缴房产税,是否有止赎诉讼,是否有公用设施使用异常或导致服务消减的未付款项。他们还输入了建筑类型、修建时间、救护车访问次数、犯罪率和啮齿动物投诉等信息。然后,他们将这些数据与五年来的火灾严重性排名数据进行对比并得到一个模型,以此预测哪些投诉迫切需要调查。
无论大数据如何威胁到隐私保护,最让人们头疼的都是行为倾向问题。大数据预测的准确性越来越高,它能够预测行为的发生,在人们犯错之前,提前惩处。因为预测的结果几乎不可反驳,人们也就无法为自己开脱。但这种基于预测得出的惩罚不仅违背自由意志的原则,同时也否定了人们会突然改变选择的可能性(无论可能性有多小)。当我们给一个人判定责任(并给予惩罚)时,必须牢记人类意志的神圣不可侵犯性。人类的未来必须保留部分空间,允许我们按照自己的愿望进行塑造。否则,大数据将会扭曲人类最本质的东西,即理性思维和自由选择。
虽然我们可以塑造当下,但未来却从过去的“完全可预测”转变为一块开放又原始、广阔而空白的帆布,所有人都可以在上面依据自己的价值,努力裁剪塑形。“现代”的一个定义性特征便是人类感到自己是命运的主人,这使我们与生活在宿命论桎梏中的先辈们截然不同。但是大数据预测却又使我们的生命帆布不再那么开放、原始和纯净。对于善于运用科技解读未来的人来说,我们的未来不再是只字未书的画布,而是似乎已经着上了淡淡的墨痕。未来的可预知性似乎缩小了塑造命运的空间。潜在的可能性在概率的圣坛上被解剖。
没有什么是上天注定的,因为我们总能就手中的信息制定出相应的对策。大数据预测结果也并非铁定,而只是提供了一种可能性,也就是说,只要我们愿意,结局可以改写。我们可以判断出迎接未来的最佳方式,摇身变作未来的主人,正如莫里在海与风的广阔世界中乘风破浪一般。在过程中我们无须理解宇宙的奥秘或是去证明神的存在,因为大数据已经帮我们做好了。
大数据洞察
应对大数据的汹涌来袭,我们没有万无一失的方法,必须建立规范自身的新准则。随着社会越来越熟悉大数据的特征和缺陷,我们可以改变一系列的惯例来帮助社会应对这种冲击。我们需要把进行隐私保护的责任从个人转移到数据使用者身上,也就是说,数据使用者应该以负责任的态度使用数据。
大数据的力量
弗劳尔为了找到合适的人而广泛撒网。“我对经验丰富的统计学家没有兴趣,我担心他们不愿意采取这种新方法来解决问题。”当他采访统计学家对金融诈骗项目的看法时,他们往往会提出晦涩难懂的数学问题。“我甚至没有想到我要使用什么样的模式。我想要可执行的洞察力,这是我所关注的。”他说。最后,弗劳尔一共挑选了5个人组成团队,他称他们为“小伙子”。除一名成员外,其他都是刚毕业一两年的经济学专业学生,而且从未在大城市生活过,但他们都很有创造力。
在弗劳尔回到纽约两年后,他意识到这些方法其实是一个打击犯罪的有力方式——比他过去作为检察官所掌握的方式更棒。弗劳尔之后被任命为专案组成员,研究可能揭露2009年次贷丑闻罪犯的数据。这个团队做得非常出色,以至于一年后,纽约市长布隆伯格要求扩大规模。弗劳尔成了全市首个“分析主任”,他的任务就是找到最优秀的数据科学家并组建团队,利用城市尚未开发的信息库,收获一切可能的效益。
能置身于信息流中央并且能收集数据的公司通常会繁荣兴旺。有效利用大数据需要专业技术和丰富的想象力,即一个能容纳大数据的心态,但价值的核心归功于数据本身。有时,重要的资产并不仅仅是能清楚看到的信息,更是从人们与信息交互中收集到的数据废气,聪明的公司可以用它来改善现有的服务,或推出全新的服务。
纽约市分析炼金师的经验凸显了本书中的不少主题。他们使用了庞大的数据量,而不仅是一些数据。他们所列的城市建筑基本上可以视为“样本=总体”。位置信息或救护车记录等数据比较凌乱,但是这并没让他们就此放弃。更多数据所带来的好处远比原始信息少所带来的弊端更重要。他们之所以能取得成功,是因为城市的很多功能都以数据的形式呈现(尽管存在不一致),从而使他们能够处理和使用这些信息来提高预测效果。
最终,大数据标志着“信息社会”终于名副其实。我们收集的所有数字信息现在都可以用新的方式加以利用。我们可以尝试新的事物并开启新的价值形式。但是,这需要一种新的思维方式,并将挑战我们的社会机构,甚至挑战我们的认同感。可以肯定的是,数据量将继续增长,处理这一切的能力也是如此。但是,现在大多数人都认为大数据是一个技术问题,应侧重于硬件或软件,而我们认为应当更多地考虑当数据说话时会发生什么。
与此同时,大数据又意味着我们将永远受困于过去的行为,这些行为在预知我们下一步动作的预测过程中与我们作对,即我们永远无法逃避已发生的事。莎士比亚曾写道:“凡是过去,皆为序曲。”大数据通过运算将这句话铭刻,无论结果好坏——无论这句话是否会浇熄我们迎接下一个日出的热情,是否会打击我们留名于世的渴望。
在一个预测的时代里,人类的自由意志神圣而不可侵犯,这一点不可轻视。我们不仅需要承认个人进行道德选择的能力,还要强调个人应为自我行为承担责任。社会则必须采取新的保护措施:接受一种新的职业人,也就是数据算法师,对大数据进行深度分析。如此,因为大数据而变得可预测的世界,才不会陷入一个用一种未知取代另一种未知的困境中,不会变成一个黑匣子。
科技再先进也无法将世界上数据的总量(即最终的样本=总体)尽数收集、储存和加工。例如,欧洲粒子物理研究所(CERN)位于日内瓦的粒子物理实验室在试验中只能收集到不到0.1%的反馈信息,其余信息将同潜在的知识一起消失在乙醚中。这种情况司空见惯。从罗盘和六分仪,到望远镜和雷达,再到今天的全球定位系统,人们总是受到现有测量和认知工具的局限。我们明天使用的工具很可能比今天的强大数倍甚至上千倍,我们现在所拥有的知识较之明天可能就显得微不足道了。要不了多久,当我们回看当今的大数据世界时,就像在看阿波罗11号上仅4Kb内存的导航控制计算机一样,会觉得十分奇特。
大数据洞察
在这个利用数据做出决定的世界里,人类存在的目的是什么?难道是为了运用直觉和违背事实?如果所有人都诉诸数据,都利用工具,那时人类的无法预测性即直觉、冒险精神、意外和错误等,反倒可能发挥出重大作用。
大数据洞察
在大数据分析之前,检查员会先跟进他们认为最急迫的投诉,而只有13%的案件足够严重,需要立刻去处理。现在,他们立即处理的投诉案件占他们所有安全监测的70%。大数据节省了检查员的时间,将效率提高到原来的5倍。他们的工作也越来越令人满意:精力都集中于最严重的问题。他们新发现的成果还带来了额外利益。非法改建中的火灾更可能导致消防员受伤或死亡,概率是普通案件的15倍。消防局因此非常满意。弗劳尔和他的小伙子们就好像巫师一样,手中的水晶球让他们可以预见未来,看到哪里是最危险的。他们利用了大量搁置多年的数据,这些数据自收集以来几乎没被用过。他们用新的方法管理这些信息,从而提取出它们真正的价值。他们从大的信息库中释放了洞察力,而这在较小数据中是做不到的,这就是大数据的缩影。
尽管如此,他们并不满足于仅仅对数据进行运算,而是会到现场观看检查员的工作。他们不断做着大量笔记,并询问一切流程的开展效果。当一个头发斑白的领头人哼了一声说“找到那个建筑不是问题”时,他们很想知道为什么这个人会这么自信。但领头人自己也说不清楚为什么,不过弗劳尔的小伙子们渐渐发现,这种直觉来自建筑物外新的砖工,它暗示着建筑物的主人很重视这个地方。
我们之所以能做所有这些事,新工具只是个很小的因素,无论是更快的处理器、更多的存储器,还是更智能的软件和算法。这些固然重要,但是更为根本的原因是我们拥有了更多的数据,继而世界上更多的事物被数据化了。诚然,人类量化世界的雄心先于计算机革命,但是数字工具将数据化提升到了新的高度。不仅移动电话能够跟踪到我们呼叫的人和我们所在的位置,而且同样的数据也能用于断定我们是否生病了。不久之后,它或许还能够辨别我们是否恋爱了。
2011年6月,弗劳尔和他的小伙子们开始启用他们的系统和方法。他们每周浏览一次可归为“非法改建”一类的投诉,将他们认为前5%有火灾危险的投诉转交给检查员立刻跟进。当拿回结果时,所有人都惊呆了。
这为“社会进步”的概念提供了重要启示。大数据让我们试验的速度更快,发现的线索更多。这理应能够产生更多的创新成果,但发明的火花却往往存在于数据未显示出的信息之中,因为它并非真实存在,是多大量的数据都永远无法确定或证实的。如果亨利·福特问大数据他的顾客想要的是什么,大数据将会回答,“一匹更快的马。”在大数据的世界中,包括创意、直觉、冒险精神和知识野心在内的人类特性的培养显得尤为重要,因为进步正是源自我们的独创性。
现在,我们可以获得比以前更多的信息并进行分析。在我们诠释世界时,数据不再是限制我们努力的因素了。我们可以利用更多的数据,某些情况下,甚至是全部数据。但是这需要我们采取非传统的方法,特别是要改变我们理想中构成有用信息的因素。
大数据能帮助我们更好地进行已有的工作,并处理全新的事务。但它绝不是魔术棒,不会带来世界和平,无法根绝贫穷问题,更不能创造出另一个毕加索。大数据不能造婴儿,虽然它确实可以救助早产儿。不要多久,我们将在生活的各个方面使用到大数据,如果不用的话还可能会引起些许焦虑,这种情况就像普通体检查不出问题时,会希望有医生帮我们预约X光进行检查。
大数据改造了我们的生活,它能优化、提高、高效化并最终捕捉住利益,那直觉、信仰、不确定性和创意还能扮演什么角色呢?
除了纠结于数据的准确性、正确性、纯洁度和严格度之外,我们也应该容许一些不精确的存在。数据不可能是完全对或完全错的。当数据的规模以数量级增加时,这些混乱也就算不上问题了。事实上,它甚至可以是有好处的,因为当我们只想使用一小部分时,无须捕捉这么多的知识细节。又因为我们可以用更快更便宜的方式找到数据的相关性,并且效果往往更好,而不必努力去寻找因果关系。当然在某些情况下,我们仍然需要精心策划的数据来做因果关系研究和控制实验,如测试药物的副作用或设计关键的飞机部件。但是在日常情况下,知道“是什么”就已经足够,不必非要弄清楚“为什么”。大数据的相关性将人们指向了比探讨因果关系更有前景的领域。
小伙子们回到自己的工作间,钻研着如何能将“新的砖工”作为一种信号融入到他们的模型中,毕竟,砖块是没有被数据化的。但是可以肯定的是,做任何外部砖工都需要城市许可证。这些信息都可以用于提高系统的预测功能,并且他们发现,很多传统意义上可疑的特点其实都无关紧要。
麦克·弗劳尔(Mike Flower)是21世纪初曼哈顿地区检察官办公室的一名律师,负责过从谋杀案到华尔街金融犯罪等各式各样的诉讼案件,后来他转到一家大型的企业律师事务所工作。在办公桌后度过了无聊的一年后,他决定离开。他想做些更有意义的事情,随即想到了去帮助重建伊拉克。在公司的一位朋友给高层打了几个电话后,弗劳尔被派去了绿色区域,也就是美军驻巴格达市中心的安全地带,成为萨达姆·侯赛因审判律师团中的一名律师。
专家暗示,无论是自大的统计学家还是专管投诉热线的公务员,在数据驱动方法面前都应退居次席。与此同时,弗劳尔和他的小伙子们不断地让经验丰富的检查员来测试他们的模型,借鉴检察员们的经验,使系统表现得更好。这个项目成功最重要的原因是,它更多依赖的是相关关系而非因果关系。
大数据是一种资源,也是一种工具。它告知信息但不解释信息。它指导人们去理解,但有时也会引起误解,这取决于是否被正确使用。大数据的力量是那么耀眼,我们必须避免被它的光芒诱惑,并善于发现它固有的瑕疵。
这些相关性能让我们节省机票钱和预测流感爆发,并知道在一个资源有限的世界中应该检查哪些沙井盖和过度拥挤的建筑物。它可以帮助健康保险公司不做体检就能决定保险覆盖面,并降低提醒病人服药的成本。通过大数据的相关性,语言可以得到翻译,汽车可以在预测的基础上自行驾驶。沃尔玛可以了解飓风前应在门店准备哪种口味的蛋挞。当然,如果能从中得到因果关系更好。问题是,因果关系往往很难找到,通常我们认为找到了的时候,都是在自欺欺人。
其实,事实很有可能是相反的。知道行为在未来如何谢幕,我们便可以采取补救措施,避免问题发生并改善结局。我们能在期末考试之前早早发现有退步趋势的学生。我们能检测到微小的癌变,赶在疾病完全爆发前根治。我们能看到青春期意外妊娠的可能性,或是预测到某种犯罪生涯,然后尽力干预,避免出现可能的悲剧结局。例如拥挤的纽约住宅着火的时候,如果能事先知道并从几间最可能是火源的公寓着手,将会免除一场致命的火灾。
就算大数据无法教会我们所有事情,只要能帮助我们表现更佳、更富效率、取得进步,就算缺乏深入理解也是很有用的了。一贯如是地坚持下去才有效力。即使你不明白为什么付出的努力得不到回报,但相比不努力,你要明白你已经在改善事情的结局了。纽约的弗劳尔和他的“小伙子们”也许并没有圣人圣明的判断力,但他们确实在拯救生命。大数据不会即刻提高效率,但经受住时间的考验后,它将生出智慧的结晶。
我们能收集和处理的数据只是世界上极其微小的一部分。这些信息不过是现实的投影——柏拉图洞穴上的阴影罢了。因为我们无法获得完美的信息,所以做出的预测本身就不可靠。但这也不代表预测就一定是错的,只是永远不能做到完善。这也并未否定大数据的判断,而只是让大数据发挥出了应有的作用。大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。
大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。
大数据同时也给我们带来了巨大的风险。它使得目前用以保护隐私的法律手段和核心技术失去了效果。过去个人身份信息包含的是名字、社会安全号码、税收记录等,其构成简单明了。因此隐私保护相对比较简单,只要确保不使用这些信息即可。而今天,即使是最无害的数据,只要被数据收集器采集到足够的量,也会暴露出个人身份。匿名化或是单纯隐藏已不再适用。不仅如此,现在要是对某人进行监督,必定会侵犯到较之以往范围更广的个人隐私内容。因为政府在管理上不仅要求个人信息尽可能完善,还记录了其所有的社会关系、交往和交流信息。