由于自己在偷情网站Ashley Madison注册的账号信息被黑客意外泄露,一位美国神职人员在沮丧和痛苦中,最终选择拔枪自杀。这起发生在2015年的惨案,将数据安全问题推到众人面前。
随着智能手机的普及,个人每天产生的数据越来越多,如何在互联网保护自己的个人数据,更是棘手的问题。正如欧盟之前发布的一则《保护个人数据》的公益视频所描述的一样:我们的个人数据,就像视频里全身赤裸的男子一样,在互联网上“裸奔”。为了更好地保护公民的数据,经过4年多的协商,2018年5月,欧盟正式颁布了《通用数据保护条例》,简称GDPR。 GDPR推出后,就被外界称为史上最严苛的数据保护条例。因为这项条例不仅赋予欧盟公民更多的个人数据控制权,另外对那些收集、处理和存储个人数据的公司提出更高的责任要求,特别是数据泄露。
违反GDPR将面临多重法律责任,包括行政责任、民事责任。其中,最受外界瞩目的是,GDPR为违反行为划了一条天价红线:行政罚款上限为上财年全球营收4%或2000万欧元中取高者。
这也意味着,众多科技公司必须做出改变,否则就要与欧盟市场说再见。对于中国的科技公司来说,要想出海欧盟国家,GDPR成为了必须要跨过去的第一道坎。
据澎湃新闻了解,日前,国内人工智能企业第四范式宣布,其企业级AI平台先知(4Paradigm Sage)已经率先完成ePrivacySeal EU认证,成为国内第一款通过该认证的AI平台产品。ePrivacy是全球数据安全与隐私保护最具权威性的认证机构之一,其认证过程均是按照GDPR对于产品的条例逐一审核,认证覆盖面广且细。
第四范式创始人兼CEO戴文渊在接受澎湃新闻采访时表示,数据安全不完全是一个技术问题,其实也是一个人性的问题。要做好数据保护,需要我们充分的去理解人性所能接受什么样的方式。当下,抛开道德层面,成本最低,效率最高的方式确实是侵犯隐私,因为这是条捷径。对于科技公司而言,要把技术调整到更加人性化,这其实是一直需要去研究,需要去打磨的问题。
第四范式成立于2015年,2016年获“吴文俊人工智能科学技术奖”创新奖一等奖。目前,第四范式已将人工智能赋能医疗、金融、政府、能源、互联网等多个行业,落地上万个 AI 应用。
第四方式如何迈过GDPR
GDPR被称为是史上最严个人数据保护条例,并不为过。生效后,全球科技巨头公司都成为了被投诉、罚款的对象。早在生效的第一天,法国、比利时、德国、奥地利等国家的监管机构收到了四起诉讼,分别是针对Facebook及其旗下的Instagram、WhatsApp等强迫用户共享个人数据的指控。2019年初,Google因违反GDPR条例被法国数据保护监管机构处以5000万欧元罚款,这是迄今欧洲范围内因违反隐私数据法遭受的最高额处罚金。
据第四范式透露,公司得到欧盟的认证前后大概花了2年时间,但数据安全的保护工作,以及相关的技术开发时间要更早一些。比如差分隐私和联邦学习等技术,在国内还鲜有公司进行实践的时候,第四范式就在自己的产品中开始应用这两项技术,保护用户数据安全。
差分隐私是《MIT科技评论》2020“全球十大突破性技术”之一。《MIT科技评论》认为未来数据保护的难度会越来越高,解决这个问题的方法之一就是差分隐私,这种技术可以建立信任机制。
差分隐私是一种数学技术,它能够在给数据添加噪声的同时,一直计算隐私提升的程度,从而使得增加 “噪音” 的过程变得更加严谨。目前,苹果和Facebook已经使用这种方法来收集聚合数据,而不需要识别特定的用户。但是差分隐私也有过多的噪声又会使数据变得无用。
第四范式主任科学家涂威威在接受澎湃新闻专访时称,公司对目前的差分隐私技术进一步优化,通过更好的分配隐私预算、更有效的分配噪声等方法,做到了在保护数据隐私的同时,提升分析结果的有效性。目前,该技术可广泛应用于数据收集、数据分析、数据发布等阶段。
同时,第四范式也将该技术与联邦学习进行融合,直接拓展到迁移学习领域,形成了联邦迁移学习技术,实现了隐私保护的模型发布与迁移。该技术已应用在第四范式与瑞金医院合作的“瑞宁知糖”中,系统可从数据较为完善的大型医院中迁移出有价值且受隐私保护的知识,去帮助地方医院、社区医院、体检中心等机构做更加完善的医疗诊断。
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在2016年由谷歌最先提出,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
成本和效果
不断开发、利用新技术,投入大量的人力,从数据收集开始到最后的数据结果产出,严格把关每个环节,成为第四范式通过GDPR的关键。但新技术的开发需要一家公司能持续不断地投入,每个环节的严格把关,也意味着成本的增加。成本增加是否就能收到想要的结果,许多个公司,尤其是中小型企业对此都打了问号。
在戴文渊看来,国内的人工智能公司一直没通过GDPR的“考试”的原因也在与此。他认为,从技术层面看,就有两个原因一是效果,二是成本。在数据安全与用户隐私达到保护强度前提下,能够提出更有效的算法,这就要求一家科技公司需要有过硬的技术。在成本方面,核心的成本是人力,机器学习已经是很复杂的技术,而隐私保护技术是更加复杂的技术,因此落地的人才门槛更高。
据Gartner的统计,GDPR对于欧盟相关公司带来的成本提升平均在140万美元,对美国相关公司的成本提升在100万至1000万美元。这对于一些中小型的企业几乎是不可负担的,对大企业而言也是一笔不小的费用。
为此,第四范式也提出了保护隐私的自动多方机器学习,将保护隐私的机器学习与自动机器学习相结合,自动机器学习的技术一方面有效降低了应用门槛,另一方面大幅降低了人为介入,进一步提升了安全性。
除了科技公司要从技术上做出改变外,戴文渊认为,在非技术层面,例如,在法律法规、行业标准、责任与利益分配方案等方面,还需要更广泛的行业与专家的研究投入,也需要政府、企业、研究机构等一起联合推动。只有这样才能将数据安全的成本和效果提升到到最好。
国内科技公司如何做好用户隐私保护
欧盟巨大的市场,对于国内科技公司来说相当重要。但要在海外顺利开展业务,也非易事。许多国内能用的应用,在海外推广的并不顺利,有时甚至还会因为隐私问题遭到监管部门的下架。在戴文渊看来,国内外对待数据安全、用户隐私等问题的差异是造成出国内科技企业出海受阻的原因之一。
“不同的国家它的风格不一样,在中国可能是鼓励大家先去试,然后监管部门发现问题,再开始治理一些乱象。但是在海外的一些国家不是这样的,它很严格,不能打擦边球。”戴文渊说。
那国内是否可以参考GDPR,一步到位地做好数据安全和隐私保护呢?戴文渊指出,目前国内在隐私数据保护方面还处于初期阶段,整体上来看还不能满足隐私保护的要求,攻击者仍可能对从中得到原数据的敏感信息。欧盟和中国的环境和发展路径不同,法律法规的制定还是需要因地制宜,在发展数字经济和数据安全两方面起到一个正确引导和平衡杆的作用。
2019年3月6日,国内最新版《个人信息安全规范》正式发布,在现有《网络安全法》的基础上,积极推动《数据安全法》、《个人信息保护法》等,进一步加强隐私保护的力度,为个人信息安全栓上一道锁。虽没有GDPR严苛,但国内关于数据安全、隐私保护也在逐渐完善。
“在国内推出这些规范之前,是有些是乱象,是一定要杜绝的。比如,直接购买用户的地址信息,然后进行暴力催收。但是国内是否需要一步到位到GDPR的要求层面,我觉得这个还是要根据整个社会的形态,以及整个国内的中国人对这件事情的接受程度。”戴文渊称。
另外,在戴文渊看来,要解决好隐私问题,需要充分的去理解人性所能接受什么样的方式,不能接受什么样的方式。把技术调整到更加人性化,这个其实是一直需要去研究,需要去打磨的。
“现在有人开玩笑说在互联网时代、大数据时代,人根本没有隐私。我觉得我们还是要去建设环境,让大家感觉到互联网大数据时代,体验很好,与此同时我也是有隐私的,我还是可以保留我的隐私权。对于公司来说,我们需要做的是当有关部门把这项标准不断提升的时候,我们能给客户最好的保障。”戴文渊表示。(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)
新闻推荐
原创刘楚楚GQ报道新冠肺炎全球加速蔓延,口罩成为紧缺物资。而经过两个多月的艰难抗疫,国内口罩产能被激发出来,市场供应正趋...