(2017年汉诺威科技展上,一位电视台记者采访一个机器人。图/AFP)
《财经》记者 周源 特约撰稿人 何芊樾/文 谢丽容/编辑
“因为GDPR(欧盟通用数据保护条例),我们在欧洲的新品发布已经推迟了。”出门问问创始人兼CEO李志飞告诉《财经》记者。出门问问是中国一家人工智能(AI)创业公司,该公司基于AI技术生产诸如智能手表、智能音箱在内的智能语音设备,2016年起产品已经销往欧美市场。
不仅仅是出门问问,《财经》记者获悉,许多AI公司都正忙于联合法律专家,基于GDPR条款,全面审查和调整自己的产品、服务乃至商业模式。
GDPR全称General Data Protection Regulation,号称有史以来最为严格的数据保护法规,欧盟于2018年5月25日正式实施。作为一项强制性法律,它保护的是自然人的“个人数据”,包括姓名、地址、生日、信用卡、银行、医疗信息、位置信息、IP地址等等。
这意味着,任何在欧盟设立机构的企业或向欧盟境内提供产品和服务的企业,在处理欧盟境内个人的数据时都受到GDPR的约束,除非放弃欧盟5亿发达人口市场。
如果违反GDPR,企业最高将面临高达全球年营收4%或者2000万欧元(约1.5亿元人民币)的巨额罚款(两者取其高)。
AI是一个极度依赖数据的行业。纵观AI落地全过程,从最初进行AI算法模型的训练,到形成最终的AI产品或服务,数据都是不可或缺的生产资料,这意味着GDPR对AI的约束贯穿AI整个生命周期。而且,不仅仅是AI公司,但凡使用AI算法去改造自身业务的公司都需要评估是否违反GDPR。
《财经》记者发现,目前,“GDPR导致深度学习即将违法”等一些有失严谨的观点广为流传,AI从业者在合规建设中普遍存在困惑。如何正确理解GDPR法律条款、评估可能的风险,以及预测GDPR究竟会对欧盟内外AI产业带来什么样的影响,成了当务之急。
“两步走”界定个人数据
GDPR由11章共99项条款组成,立法目的是在保护个人数据的前提下实现数据的价值。因此,企业首先要搞明白的问题就是:什么是个人数据?这并非看上去那么简单明了,理解不当有可能令企业未来陷入法律风险。
按照GDPR的规定,姓名、地址、生日、信用卡、IP地址等信息均属于个人敏感信息,此外,揭示人种族、政治倾向、宗教和哲学信仰、基因数据和生物数据、甚至个人健康或者性生活的数据也都被明确说明属于个人数据,但现实中仍然存在一些令人困惑的数据类型,例如,语音数据、车牌号码是否属于个人数据?
腾讯研究院专门研究数据保护法律法规的专家王融表示具体情况具体分析。GDPR规定对个人数据的定义很宽广,能间接识别到特定自然人的数据也属于个人数据,在被保护的范畴内。
“如果一段语音结合其他信息能定位到特定的个人,那这段语音数据可视为个人数据。车牌号也是一样,由于具有唯一性,在很多场景下都可以被识别,这也是为什么谷歌街景要把车牌号均抹去的原因,但公家车的车牌又不属于个人信息,所以要结合具体场景进行分析。”王融向《财经》记者解释。
AI公司使用的数据类型五花八门,如何判断某类数据是否属于个人数据?王融介绍了个“两步走”的方法:第一步,判断这一数据是否是由特定的个人产生;第二步看可识别性,能直接识别到个人自然无争议,但要小心甄别“间接识别到个人”的情况。
一旦界定手中拥有的数据为个人数据,企业和机构只能一一征求个人用户的同意,并赋予个人用户未来可以随时撤回同意的权利,以及随时要求相关机构删除其个人数据的权利。
不过,为了与其他正当利益达到平衡,GDPR列出了一些无需经由个人用户同意的场景。例如,为了公共利益或因官方权威要求而履行某项任务,为了履行法律职责的需要,为了保护数据主体或另一个自然人的核心利益等。
这意味着,公共机构仍然可以在公共场合设置摄像头,并利用人脸识别技术对潜在的恐怖分子进行排查;医疗机构发现大的疫情之后,也可以不经当事人同意处理个人数据。
对于这一问题,我国行业标准《个人信息安全规范》(2018年5月1日生效)也做出了修正,详细罗列了11项例外的情形,以保证数据的合理化使用。
深度学习不合法?误读
如果说对个人数据的理解不当可能给AI公司带来法律风险,那对另一项条款的解读正在让一些AI从业者陷入过度的担忧。
该条款名为“自动决策的可解释权”(The Right to Explanation of Automated Decision),多个接受《财经》记者采访的行业人士认为,这是GDPR专门针对AI设立的条款。
针对该条款,《终极算法》作者华盛顿大学教授Pedro Domingos在今年初发表惊人言论:自5月25日起,欧盟将会要求所有算法解释其输出原理,这意味着深度学习即将非法。
人工智能早在上世纪50年代就作为独立的学科存在,一直因为难以落地而长时间遇冷。最近几年人工智能之所以再度时兴,主要原因之一是出现了深度学习理论与技术。
但深度学习目前在一定程度上仍是“黑盒子”,难以解释具体的内部逻辑。
中国信息通信研究院云计算与大数据研究所副所长何宝宏曾分析称,人们虽然利用深度学习构建了神经网络,但对神经网络表现出的一些“智能”还不能做出合理解释,也事先无法预知学习的效果。
“为了提高神经网络训练的效果,除了不断增加网络深度和节点数量、喂更多数据和增加算力,然后反复调整参数,基本就没别的招数了,而且,调参还像玄学,并没有总结出一套系统经验做指导,完全依赖个人经验,甚至靠碰运气。”何宝宏说。
这也是为什么Domingos教授认为GDPR提出的“可解释权”会令深度学习陷入“非法”状态。
但王融告诉《财经》记者:这种解读并不严谨。
这是因为,GDPR的正式条款中并没有出现过所谓的“自动决策可解释权”,只是在GDPR背景引言(Recital71)中阐述了:数据主体对于自动化决定不满意时,可以要求人工干预,并可以表达意见,获取对相关自动化决定有关解释。
“按照欧洲立法惯例,立法的背景引言只是起到帮助如何理解条款的目的,自身并不具有法律效力。”王融说。
欧盟29条工作组实际于2017年10月专门明确澄清此问题:关于自动决策,数据控制者并不必然要解释复杂的算法,对于用户来说,只需要用尽可能简单的方法告知其背后的基本逻辑或者标准即可。
王融表示,欧盟立法者其实是在警惕“纯自动算法”形成的“算法歧视”。目前确有些企业出于商业需要对人们进行“数据画像”,但画像结果很可能对一些用户形成了偏见,而企业此时往往以“我这是纯算法,没人干预”为由进行自我辩驳,GDPR则赋予用户权利去要求公司给出解释。
从这一角度来看,GDPR虽然没有强制AI公司解释算法,但AI公司未来仍然需要致力于解决AI的黑箱问题,因为并不排除在特定场景下,AI公司需要向监管机构对算法逻辑作出解释。
“这个解释的尺度如何,目前没有过去的案例可以参考,只有在执行过程具体的判例中才可知晓。”挪威大学计算机系教授杨志荣对《财经》记者说。
对AI的可能影响
因为GDPR,AI公司当务之急是主动剔除不合规数据,同时重新评估已有的算法模型。
从合规角度而言,如果之前的AI模型是基于不合规数据训练而来,就应该重新训练。不过,国内一家知名AI公司技术负责人告诉《财经》记者,一个AI模型一旦训练好,几乎无法证明这个模型是从非法数据训练来的,所以很难要求模型提供商删掉原有模型,去重新训练一个。
尽管如此,AI公司仍然需要重新评估现有的算法模型。这是因为,无论是主动剔除不合规数据,还是应用户要求删除数据,都将导致AI公司手里的数据量减少,而数据变少会影响算法准确度,所以需要重新训练。
就细分行业而言,语音交互AI公司受GDPR的影响较小,尤其比从事人脸识别的AI公司要小很多。
语音交互解决方案公司思必驰市场总监龙梦竹向《财经》记者道出其中原委:语音研究都是基于特定场景,从网上下载的通用场景的语音数据没有用,因此语音AI公司都是自己找人在专门的场景下录制,或从专业数据公司购买,这都意味着拿到的数据已经获得了当事人同意,数据源头获取就是合法的。
长期看,GDPR对个人数据的严格保护将增加AI公司的数据获取与处理成本。之前AI公司获取数据的成本接近零,GDPR终结了这样的“好时光”。
对于公司来讲,GDPR合规是一项系统、动态和长期的工作,需要增加一定的人力与财力的投入,并不是所有公司都能承担这块成本,多位行业人士向《财经》记者表示,GDPR有可能延缓欧洲本土AI产业的发展速度,而一些中国AI公司因为无法承担合规的成本,也可能放慢进军欧洲市场的脚步。
但也有观点认为,随着时间的消逝,这一块的支出会逐步下降。Zoom.Ai的CEO Roy Pereira曾预测,两年后AI公司将不会认为数据支出是负担,也并不会阻碍创新。
由于AI是一种技术可应用于各个行业,因此,不仅仅是专门的AI公司受影响,但凡利用AI使得自身业务更智能的公司也要做出调整。
一位欧洲科技公司研发人员告诉《财经》记者,目前AI在互联网产品中的应用比较广泛,例如该公司计算产品用户流失率,就是通过用户的个人数据以及产品的使用数据日志,比如说每次点击、互动,还有浏览,运用机器学习模型,判断如果用户可能流失的话,再通过基于算法的精准营销投放 (例如通过广告渠道再次对用户投放广告),来挽留用户。
“GDPR之前收集的数据都是比较多的,GDPR之后,客户的隐私相关的敏感数据如性别、年龄、住址等都要下架,算法也要做修正。有一些来不及下架的,就需要暂停那个算法,调整合规之后再继续使用。”上述研究人员说。
GDPR的影响涉及到所有AI应用公司。具体程度来说要看行业,例如对产品中的客户留存率只是一个准确率下降,因为AI算法的应用对这一类产品来说本来只是一个锦上添花的存在,所以整体看影响有限。
但对AI算法依赖度更高的业务来说,影响就比较大。例如广告公司通过AI算法来进行广告投放,投放精确度下降将对其影响很大,会造成客户流失。此外,电商公司多通过AI算法推荐来增加销售,也会受到比较大的影响。
尽管GDPR为AI套上了一个“紧箍咒”,但是从业者普遍赞同,发展和应用人工智能需要一个良好的环境,需要信任和责任,法律的监管必不可少,GDPR作为史上最严数据保护法规,正为这个 “紧箍咒”的监管尺度做出有益探索。