大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判,而不是借助“客观”数据处理去决定他们是否违法。只有这样,我们才是把其当作人来对待——当作有行为选择自由和通过自主行为被评判的人。这就是从大数据推论到今天的无罪推定原则。
数据之于信息社会就如燃料之于工业革命,是人们进行创新的力量源泉。没有大量鲜活的数据和健全的服务市场,这些创新就实现不了。
这种巨变也使得创立新规范来管理活字印刷术所引发的信息爆炸的条件变得成熟。审查和许可条例被创立,用来规范和管理出版物。著作权法的制定为创作者带来了进行创作的法律和经济动力。随后,保护公民言论自由被写入了宪法。一如既往,权利伴随着责任产生了。当低俗的报纸践踏人们隐私权或诽谤其名誉时,法律规范就会出现以保护人们的隐私权并允许他们对文字诽谤提出上诉。
为实现这一平衡,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。一些国家也许会更谨慎,而某些种类的数据也许会更敏感。
比如说,大数据强烈诱使我们隔离那些被预言将会犯罪的人们,以减少风险的名义对其进行不断审查,即使他们确实在为尚不需承担责任的事情接受惩罚。设想一下,“预测警务”的运算法则鉴定某个青少年在未来五年内很可能犯重罪。结果,当局决定派遣一名社会工作者每月拜访他一次以对其进行监视,并尽力帮助他解决问题。如果该少年及其亲属、朋友、老师或雇主将这种拜访视为一种耻辱(这种情况极有可能发生),那么这就起到了惩罚的作用,的确是对未发生的行为的惩罚。然而,如果这种拜访完全不被视为惩罚,而只是为了减少问题出现的可能,即作为一种将风险降至最低的方式(在这里指的是将破坏公共安全的犯罪风险减到最小),情况照样好不到哪儿去。社会越是用干预、降低风险的方式取代为自己的行为负责,就越会导致个人责任意识的贬值。主张预测的国家是保姆式的国家,而且远不止如此。否认个人为其行为承担责任实际上就是在摧毁人们自由选择行为的权利。
当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则的重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。
大数据洞察
外部算法师
数十年来,全球范围内的隐私规范都开始让人们自主决定是否、如何以及经由谁来处理他们的信息,把这种控制权放在了人们自己手中,这也是隐私规范的核心准则。在互联网时代,这个伟大的理想往往会演变成“告知与许可”的公式化系统。
古登堡的印刷机让书籍和手册的大量刊印成为可能。马丁·路德(Martin Luther)把拉丁语版本的《圣经》翻译成日常使用的德文,让越来越多的人可以不通过牧师而直接聆听上帝的声音,德语版的《圣经》是当时卖得最好的书,这也让他更确信《圣经》可以印刷、分发给成千上万的人。就这样,信息传播越来越广泛。
社会发展出现过很多这种情况,当一个特定领域变得特别复杂和专门化之后,就会催生出对运用新技术的专门人才的迫切需求。在一个多世纪以前,法律、医学、会计以及工程学领域都经历过这种转型。不久前,计算机安全和隐私顾问的突然兴起,证实了公司都在遵循由一些组织确立的行业最佳做法,如国际标准化组织,它是为满足这个领域对准则的需要而自发形成的。
将责任从民众转移到数据使用者很有意义,也存在充分的理由,因为数据使用者比任何人都明白他们想要如何利用数据。他们的评估(或者由他们所雇用的专家制定的评估)避免了商业机密的泄露。也许更为重要的是,数据使用者是数据二级应用的最大受益者,所以理所当然应该让他们对自己的行为负责。
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。这样一来,使用数据的公司就需要基于其将对个人所造成的影响,对涉及个人数据再利用的行为进行正规评测。当然,并不是说任何时候都必须非常详尽。
为了确保给大数据提供一个与早期技术领域情况相当的活跃的市场环境,我们应该实现数据交易,比如通过授权和协同合作的方式。但是,这就引发了一个问题:精心达到平衡的数据独有权,是否能让社会大众从中获利?虽然听起来有点挑衅的意味,但是这是否能像知识产权一样有利于社会呢?诚然,要达到这样的效果,对于决策者来说,是一个艰难的任务;而对于普通人来说,则充满了风险。技术发展变幻莫测,无从定论,大数据也无法预测自己的未来。监管人员需要既大胆又细心,而实现这两者的平衡,可以学习反垄断法的发展历史。
就像医学、法律和其他行业一样,我们设想这个新行业会有自己的行业规范。算法师的公正、保密、资历以及专业水准可用严苛的责任规范来进行强制约束;如果他们不能达到这些标准,就可能被起诉。他们可以调任为审讯中的专家证人,或在审讯中遇到特别复杂的大数据问题时被法官委派为“法院专家”——主要是指某一个学科领域专家为案件审理提供援助。
如果国家做出的许多决策都是基于预测以及减少风险的愿望,就不存在所谓个人的选择了,也不用提自主行为的权利。无罪,无清白。如此一来,世界不止不会进步,反而在倒退。
此外,当人们认为他们受到大数据预测危害——被拒绝手术、被拒绝假释、被拒绝抵押贷款时,便可以向算法师咨询并针对这些决定提起诉讼。
外部算法师将扮演公正的审计员的角色,在客户或政府所要求的任何时候,根据法律指令或规章对大数据的准确程度或者有效性进行鉴定。他们也能为需要技术支持的大数据使用者提供审计服务,还可以为他们证实大数据应用程序的健全性,例如反欺诈技术或者股票交易系统。最后,他们将和政府商议公共领域大数据的最佳使用办法。
对大数据使用进行正规评测及正确引导,可以为数据使用者带来切实的好处:很多情况下,他们无须再取得个人的明确同意,就可以对个人数据进行二次利用。相反地,数据使用者也要为敷衍了事的评测和不达标准的保护措施承担法律责任,诸如强制执行、罚款甚至刑事处罚。数据使用者的责任只有在有强制力规范的情况下才能确保履行到位。
个人隐私保护从个人许可到数据使用者承担责任的转变是一个本质上的重大变革。我们必须将类似范围内的变革应用到大数据预测中去,以维护人类的自由和责任。
甚至,与内部算法师更类似的职业也同样存在,即负责确保企业不滥用个人信息的职业人。例如在德国,具有一定规模的公司(有10个或以上人员处理个人信息)必须任命一名数据保护代表。20世纪70年代以来,数据保护代表们逐渐形成了自己的职业道德和团体精神。他们进行定期会面,分享最好的实践经验并进行培训,他们拥有自己专门的媒体和会议,他们也成功地实现了一方面忠于雇主,另一方面忠于自己作为公证人的职责。德国的企业数据保护代表们取得了很大的成功,既充当了企业数据保护监察人,又将信息保密观念嵌入了整个企业运作过程。我们相信,算法师同样也能做到。
通过保证个人动因,我们可以确保政府对我们行为的评判是基于真实行为而非单纯依靠大数据分析。从而,政府只能依法对我们过去的真实行为进行追究,而不可以追究大数据预测到的我们的未来行为;或者,在政府评判我们过去的行为时,也应该防止单纯依赖大数据的分析。例如,在对两家涉嫌操纵价格的公司进行调查时,我们完全可以借助大数据分析先作出大概判定,然后监管机构再以传统手段立案和进行调查。不过,当然不能只因为大数据分析预测它们可能犯罪,就判定其有罪。
身处大数据时代,我们必须拓宽对公正的理解,必须把对个人动因的保护纳入进来,就像目前我们为程序公正所做的努力一样。如若不然,公正的信念就可能被完全破坏。
内部算法师在机构内部工作,监督其大数据活动。他们不仅要考虑公司的利益,也要顾及受到公司大数据分析影响的其他人的利益。他们监督大数据的运转,任何认为遭受其公司大数据危害的人都会最初与他们取得联系。在公布大数据分析结果之前,他们也对其完整性和准确度进行审查。为了扮演好这两个角色,算法师首先要做到的就是必须在工作机构内部拥有一定程度的自由和公正。
然而,有了大数据分析,这种追踪会变得愈发困难。对人们而言,进行预测分析的计算机系统往往过于复杂,根本无法理解。但当计算机按程序设置明确执行一系列指令时,情况就不一样了。例如1954年早期,在IBM将俄文译成英文的翻译程序中,人们就能轻松理解一个单词译成另一个单词的原因。但是,对于谷歌利用几十亿页的翻译数据开发出的翻译系统,当其将英文单词“light”译成“光”而不是“重量轻”时,就不可能清楚地解释如此选择的原因,毕竟这个预测分析是基于海量数据和庞大的统计计算之上的。
未来的隐私保护法应当区分用途,包括不需要或者只需要适当标准化保护的用途。对于一些危险性较大的项目,管理者必须设立规章,规定数据使用者应如何评估风险、如何规避或者减轻潜在伤害。这将激发数据的创新性再利用,同时也确保个人免受无妄之灾。
大数据将要求一个新的人群来扮演这种角色,也许他们会被称作“算法师”。他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员——正如公司有内部的会计人员和进行鉴证的外部审计师。
在大数据时代之前,这是明显而基本的自由权利。事实上,明确到不需要进行说明。毕竟,我们的法律体系就是这样运作的:通过评判人们过去的行为使之为其行为承担责任。然而,有了大数据,我们就能预测人的行为,有时还能十分准确。这诱使我们依据预测的行为而非实际行为对人们进行评定。
为了管理这些新兴行业,美国制定了适应性极强的反垄断条例。最初是在19世纪为铁路行业制定的,后来又被应用到了掌管商业信息的其他公司,从20世纪最初十年的国家收银机公司(National Cash Register),到20世纪60年代的IBM、70年代的施乐公司、80年代的AT&T、90年代的微软和今天的谷歌。这些公司所开辟的技术成了经济结构中“信息基础设施”的核心组成部分,所以为了防止它们垄断,法律的支持必不可少。
此外,与目前大多数隐私保护法所要求的不一样,数据使用者达到了最初目的之后,法律上不再规定必须删除个人信息。相反,数据使用者被允许较长时间地保存数据,虽然不能永远。这是一个意义重大的变革,因为,就像我们所知道的,只有开发数据的潜在价值,对数据价值进行最大程度的挖掘,近代“莫里”们才能发展繁荣,并促进自身和社会的同步进步。总之,社会必须平衡二次运用的优势与过度披露所带来的风险。
我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。同时,这些变革也会带动社会需要维护的核心价值观的转变。我们以印刷机的发明导致的信息洪流为例。
可是,变革并不止于规范。这种管理规范上的改变也体现了当时更深层次的价值观转变。在古登堡时期,人类第一次意识到了文字的力量;最终,也意识到了信息广泛传播的重要性。几个世纪过去了,我们选择获取更多的信息而非更少,并且借助限制信息滥用的规范而不是最初的审查来防止其泛滥。
大数据洞察
随着世界开始迈向大数据时代,社会也将经历类似的地壳运动。在改变我们许多基本的生活和思考方式的同时,大数据早已在推动我们去重新考虑最基本的准则,包括怎样鼓励其增长以及怎样遏制其潜在威胁。然而,不同于印刷革命,我们没有几个世纪的时间去慢慢适应,我们也许只有几年时间。
●第三,可反驳原则。明确提出个人可以对其预测进行反驳的具体方式(这类似于科学研究中披露任何可能影响研究结果的因素的传统)。
如果2004年美国国土安全部配备有一名算法师,它也许不会生成一份这么差劲的禁飞名单,竟然把马萨诸塞州参议员特德·肯尼迪都列入了其中。最近在日本、法国、德国和意大利,算法师也可以发挥作用,这些国家的很多人认为谷歌的“自动完成”特征程序诽谤了他们。这是一个生成与姓名相关的普遍搜索词的程序,它很大程度上依据的是之前的搜索频率:这些词条根据数学概率进行排名。如果类似“犯罪”或者“娼妓”这样的字眼出现在你姓名旁边,而碰巧被你的业务伙伴或者爱人看到了,你能不气疯吗?
大数据的运作是在一个超出我们正常理解的范围之上的。例如,谷歌所确定的与流感相关的检索词条是通过测试了4.5亿个数学模型而得出的。而辛西亚·鲁丁最初为判断沙井盖是否会着火设定了106个预测器,因此才能向联合爱迪生电力公司的经理解释为何程序要求优先检查某个沙井盖。“可解释性”正如在人工智能界所称的一样,对于不仅想知道“是什么”更想知道“为什么”的人类来说非常重要。可是,如果系统自动生成的不是106个预测器,而是601个的话,那该怎么办呢?虽然其中大部分都没有多大用途,但是一旦汇聚起来就能提高模型的准确性,而预测的基础就会变得惊人地复杂。如此的话,辛西亚·鲁丁如何能说服联合爱迪生电力公司的经理再分配它们本就不多的预算呢?
这一方式通过限制个人信息存储和处理的时间而保护了个人隐私,也可以消除“永久记忆”的恐慌——永不磨灭的数字记录让人无法告别过去。我们的个人数据就像达摩克利斯之剑一样悬在头上,多年之后也会因为一件私事或者一次遗憾的购买记录而被翻出来再次刺痛我们。时间限制也激励数据使用者在有权限的时间内尽力挖掘出数据的价值。这就是我们认为更适用于大数据时代的平衡:公司可以利用数据的时间更长,但相应地必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。
大数据时代,对原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险——我们需要全新的制度规范,而不是修改原有规范的适用范围。想要保护个人隐私就需要个人数据处理器对其政策和行为承担更多的责任。同时,我们必须重新定义公正的概念,以确保人类的行为自由(也相应地为这些行为承担责任)。新机构和专家们需要设计复杂的程序对大数据进行解读,挖掘出其潜在的价值和结论。他们也要向那些可能受害于大数据结论的人——因之被剥夺了工作、接受医疗或贷款权利的人,提供支持。对已有的规范进行修修补补已经不够了,我们需要推陈出新。
大数据洞察
●第一,公开原则。因为这将直接影响到个人,所以必须公开用来进行预测分析的数据和算法系统。
反垄断法的经验是,一旦确定了极重要的原则,管理者就要将之付诸行动,以确保保护措施的实施到位。同样,我们提出了三项策略,包括隐私保护从个人许可到数据使用者承担责任的转变,在使用预测分析时考虑个人动因以及催生大数据审计员,也就是算法师。这都将是大数据时代对信息进行有效、公正管理的基础。
大数据洞察
信息模糊处理听起来似乎破坏了其解读价值,但是也并不一定,至少这是一个折中的好办法。例如,技术政策专家特别提到Facebook将用户信息向潜在广告客户公布就是依靠差别隐私:只能得出大概数量,所以它们不会暴露个人身份。查询亚特兰大州对Ashtanaga瑜伽感兴趣的亚洲女性,会得出诸如“400左右”这样的结果而非一个定值。因此,利用这个信息排查到个人是不可能的。
1450年前后,古登堡发明了活字印刷机,在这之前,思想的传播受到了极大的限制。一方面,书籍大多被封禁在修道院的图书馆里,依照天主教精心制定的规定,被僧侣严格看守着,为的是确保并维护其统治地位。在教堂之外,少数几所大学也收藏了一些书籍,大概几百本的样子;15世纪初,剑桥大学图书馆大概有122本大部头。另一方面,读写水平的欠缺也是当时信息传播受限的一个重要因素。
内部算法师
除了管理上的转变,即从个人许可到数据使用者承担相应责任的转变,我们也需要发明并推行新技术方式来促进隐私保护。一个创新途径就是“差别隐私”:故意将数据模糊处理,促使对大数据库的查询不能显示精确的结果,而只有相近的结果。这就使得挖出特定个人与特定数据点的联系变得难以实现并且耗费巨大。
反垄断法遏制了权力的滥用。然而令人惊奇的是,这些条例能从一个领域完美转移到另外一个领域,并且适用于不同类型的网络产业。这种不带任何偏袒的强有力的规章非常实用,因为它提供的是一个平等的竞争平台,一开始便没有任何优劣之分。因此,为了促进大数据平台上的良性竞争,政府必须运用反垄断条例。而且,就像世界上一些大型的数据拥有者那样,政府也应该公布其数据。令人高兴的是,这一切正在发生。
在法庭上,个人对自己的行为负有责任。一番公正的审讯之后,审判员会做出公平公正的判决。然而,在大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他们的行为而非倾向负责。
●最重要的是,要确保个人动因能防范“数据独裁”的危害——我们赋予数据本不具备的意义和价值。
伴随着从核技术到生物工程学其他领域的发展,人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制。在这方面,大数据也和其他领域的新技术一样,带来了无法彻底解决的问题。另外,它们也不断对我们管理世界的方法提出挑战。而我们的任务是要意识到新技术的风险,促进其发展,然后斩获成果。
保护个人责任也同样重要。也许这一点很具有吸引力——社会无论何时做出关乎他人的决策时,都不再需要决策者们承担责任。相反,它会将重心转移到风险管理上,即评测可能性以及对其进行风险评估。有了所有看似客观的数据,对我们的决策过程去情绪化和去特殊化,以运算法则取代审判员和评价者的主观评价,不再以追究责任的形式表明我们的决策的严肃性,而是将其表述成更“客观”的风险和风险规避,听起来都是不错的主意。
相似的原理应当运用到政府领域之外,比如公司在进行关乎我们个人利益的重大决策时——雇用与解雇,同意按揭或者拒发信用卡。如果他们单纯依据大数据预测作出这些决策,特定的防护措施就必须到位。
大数据洞察
在大数据时代,因为数据的价值很大一部分体现在二级用途上,而收集数据时并未作这种考虑,所以“告知与许可”就不能再起到好的作用了。
为了了解它是如何运用到实践当中的,我们以第4章提到的数据化个人坐姿信息为例。假设一家公司出售了一项以驾驶员坐姿为特定识别符的汽车防盗技术。然后,它对收集到的信息进行分析,预测驾驶员的注意力状态(比如昏昏欲睡、醉酒以及生气),以此向周围其他驾驶员发出警报以防发生交通事故。根据目前的隐私规范,他可能需要新一轮的告知与许可,因为这样使用信息是未经驾驶员授权的。但是如今,在数据使用者的责任承担体系下,他们就会评估预期用途的危险性。如果发现危害性很小,他们就可以着手实施预定计划并实现提高驾驶安全性的目标。
目前,计算机系统做出决策的方式是基于程序明确设定所需遵循的规则。这样,如果它们的决策出错(这是不可避免的),我们就可以回过头来找出计算机做出错误决策的原因。“为什么外部感应器遭遇空气湿度激增的情况时,智能飞行系统使飞机上升了5度?”等。现在的计算机编码能被解码、检查,并且可以解读其决策依据——无论多么复杂,至少对于懂得如何解码的人不存在问题。
我们将“算法师”的概念视为是在以市场为导向来解决这些问题,这也就避免了以侵入式的规章来解决问题。他们和20世纪早期为了处理泛滥的财务信息而出现的会计以及审计员一样,都是为了满足新需求而出现的。一般人很难理解这样的数字冲击,所以必须有一群以一种灵活的自我监管方式组织起来的专业人员去保护大众的利益。于是,提供专门的金融监管服务的新公司就这样应运而生。如此一来,这种新类型的专门人才也帮助社会大众增强了他们对经济本身的信心。大数据可以也应该从算法师给予的类似信心提振中获利。
在这些背景下,我们能看到大数据预测、运算法则和数据库有变为黑盒子的风险,这个黑盒子不透明、不可解释、不可追踪,因而我们对其信心全无。为了防止这些情况的出现,大数据将需要被监测并保持透明度,当然还有使这两项得以实现的新型专业技术和机构。它们将为许多领域提供支持,在这些领域里社会需要检测预测结果并能够为被其错误引导的人群提供弥补方法。
正如印刷机的发明引发了社会自我管理的变革,大数据也是如此。它迫使我们借助新方式来应对长期存在的挑战,并且通过借鉴基本原理对新的隐患进行应对。不过,推进科学技术进步的同时,应确保人类自身的安全。因此,我们不能让大数据的发展超出我们可以控制的范围。
●第二,公正原则。具备由第三方专家公证的可靠、有效的算法系统。
这些新的专业人员会是计算机科学、数学和统计学领域的专家,他们将担任大数据分析和预测的评估专家。他们必须保证公正和保密,就像现在的审计员和其他专业人员所做的一样。他们可以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型,以及计算结果的解读是否正确合理。一旦出现争议,他们有权考察与分析结果相关的运算法则、统计方法以及数据集。
个人为公司工作却又要保持公正似乎违背常识,但事实上这十分常见。大型金融机构的监管部门是一个例子,许多公司的董事会也是如此,他们是对股东负责而非管理者。许多传媒公司,包括《纽约时报》、《华盛顿邮报》都会雇用外部监察人来维护公众信任。他们解决读者的问题,当他们发现存在不当行为时,也经常公开责难雇主。
在这一章节,我们已经提及了管理上的三个基本转变。随着这些转变的完成,我们相信,大数据的不利影响将会得到控制。然而,随着尚未成熟的大数据产业的不断发展,另一个重要的挑战将会是如何保护极具竞争力的大数据市场。我们必须防止21世纪数据大亨的崛起,它相当于19世纪强盗大亨的现代翻版,那些强盗大亨曾垄断了美国的铁路、钢铁生产和电报网络。