新闻生产中的算法风险:成因、类型与对策
张超
摘 要:国内外新闻传播领域重在关注算法在新闻生产中的应用、局限、影响、算法权力等问题,对算法风险认识不足、研究薄弱。本文尝试弥补当前算法研究的这一“短板”,对算法风险进行系统、深入研究。本文认为算法风险缘于算法运行系统的缺陷、“数学洗脑”对算法的绝对信任和“算法知沟”为掩盖风险提供的可能。算法风险在新闻生产中可细分为失实风险、决策风险、偏见风险、隐私风险和声誉风险。算法是把“双刃剑”,新闻业需要在创新和风险中找到平衡。应对算法风险是一个系统工程,需要新闻业构筑算法责任伦理、立法部门制定监管新闻算法的法律法规、利益相关者提升算法素养、媒体建立预防和处理算法风险的应对机制。
关键词:人工智能 算法 算法风险 数据新闻
基金项目:本文系2017年度教育部人文社会科学研究青年基金项目“大数据时代的数据新闻生产与伦理研究”(17YJC860033)的阶段性成果。
作者:张超,山东大学文化传播学院教授,博士生导师。
本文原发表于《中国出版》2018年第13期。
智媒时代新闻业正经历“算法转向”(algorithmic turn),人工智能技术被视为下一代新闻生产的“标配”,渗透到从选题到内容分发各个新闻生产环节,如机器人新闻、个性化新闻推送、智能检校、用户评论审查、自动事实核查、自动生成图表、聊天机器人、数据挖掘与分析等。早在2015年,美联社就在“2015-2020战略规划”中计划2020年前实现80%的新闻内容生产自动化。
与此同时,人类正处于贝克所描述的“风险社会”之中,技术的发展让各种风险形态不断“生产”出来。人工智能也不例外。人工智能的核心是数据、算法和计算力。随着人类从弱人工智能阶段奔向强人工智能阶段,因人们对算法的过度依赖和算法本身的局限所导致的算法风险(algorithmic risks)将与日俱增。
新闻业的合法基石在于向公众提供可信赖的新闻信息服务。当人工智能技术渗入新闻生产时,新闻业者需要对新技术保持审慎态度、提防算法风险。虽然人们主观上认为人工智能技术比人更可靠,实际上如果算法出错,波及面更广、后果更严重。在对人工智能技术的“憧憬”中,国内外新闻传播领域重在关注算法在新闻生产中的应用、局限、影响、算法权力等问题,对算法风险认识不足、研究薄弱。算法风险何以产生?新闻生产会遇到哪些算法风险?如何应对?本文尝试弥补当前算法研究的这一“短板”,对算法风险进行系统、深入研究。
一、算法风险的成因
社会风险在本质上是属于人的主体性实践活动。[]算法风险的产生既与算法系统自身的局限有关,也与利益相关者对算法的态度有关。算法风险的产生机制主要包括三个方面:
1.算法缺陷:技术本身的不完美
算法并不完美,有优劣和适用性之分,世界上只有更好的算法,没有完美的算法。算法运行系统包括输入数据(input data)、算法设计(algorithm design)、输出结果(output decisions)三个环节。任何一个环节存在问题都将导致算法风险的产生。
(1)输入数据存在问题
设计算法时,设计者需要用数据对算法进行训练。训练时采用的数据和实际输入的数据在数据质量上重合度愈高,愈能得出符合预期目标的结论数据。如果用于训练算法的数据存在缺陷(如不完整、陈旧、不相关),无论算法设计得多么完美,最后的数据输出也是错误的。如果训练算法的数据本身包含偏见,就会导致“偏见进,偏见出”。
(2)算法设计存在问题
算法设计旨在解决特定问题,却无法回避设计缺陷这一现实。如果出现有缺陷的假设或判断、不恰当的建模技术、错误的编码、[]设计者的偏见等问题,算法设计就会引发算法风险。
(3)解读输出结果存在问题
当算法通过数据输入得出特定的数据输出时,输出的数据不会自我解释,需要人对其进行解读。如果解读者对数据结果的认识有误或忽视了基本假设,就会出现解读错误,进而导致算法风险。
2.“数学洗脑”:对算法的绝对信任
对某些专业知识的无知会成为人们信任某种技术的基础,同样也会带来风险。算法由于复杂和晦涩被视为“黑箱”,对于以文科知识背景为主的新闻从业者和没有相关专业知识的一般公众而言,算法常被视为中立的、权威的、科学的。一些媒体公司也以此为卖点,声称其算法系统没有价值观,公众对这些宣传信以为真。这种认为“利用算法、模型等数学方法重塑一个更加客观的现实世界”的想法被称为“数学洗脑”(mathwashing)。[]
当“数学洗脑”成为社会共识后,人们便无视算法的潜在风险,甚至认为算法没有风险,这种错误认识便会成为算法风险的来源,最终让算法从人的“代理者”变成人的“控制者”。
3.“算法知沟”:潜在风险的有意掩盖
算法设计者和使用者之间存在一个难以弥合的“算法知沟”。算法所有者可能会利用这种“算法知沟”实现自己的某些意图。
在新闻生产中,对算法风险的掩盖都是为了特定利益:一是免除自己可能要承担的责任。例如一些媒体标榜“技术中立”,声称自己的算法不存在缺陷,为的是赢得用户信任、免除可能承担的伦理和法律责任。二是为了获得更大的商业利益。如果媒体承认算法有缺陷、有风险,会导致用户流失,影响媒体品牌声誉。比如在新闻推送中,商业推荐所占的权重会更大一些,失范内容因稀缺性而产生的暴利也更容易被推送给用户,[]但是媒体却声称这是基于用户的数据,而非算法故意为之。
二、新闻生产中的算法风险类型
当算法成为新闻生产的新中介时,算法风险自然会在新闻生产中产生,总体来看包括以下五类风险:
1.失实风险
当算法应用于新闻内容生产环节可能会产生失实风险。失实风险是算法得出的错误结论导致内容失实、信息错误,影响整个新闻报道的准确性和真实性。失实风险主要由算法设计本身的局限性和输入数据的错误导致的。
例如《洛杉矶时报》为了调查警察局低估犯罪数据设计了一个机器学习算法,结果算法出错率达24%,需要用人工进行复核。[]在2016年美国总统大选报道中,美国多家媒体的数据新闻预测遭遇“滑铁卢”,其中一个重要原因是民调数据出现系统性的样本偏差。由于民调数据出错,甚至连续两次预测准美国总统大选结果的纳特·西尔弗也预测失败,数据新闻的声誉遭受重创。在机器人新闻写作中,如果基础数据或处理数据的算法包含错误,撰稿软件可能会产生大量错误的报道。[]因此数据、算法看上去客观、权威,生产出来的并不一定是事实和真相。
2.决策风险
决策风险是指由于人们过于相信算法,对某些决定进行思考、判断时出现错误。对于新闻媒体而言,决策风险主要出现在个性化新闻推荐中:轻则推送的内容不符合“用户画像”;重则真假新闻不分,导致假新闻广为传播。
目前不同媒体依赖的算法推荐系统不尽相同。无论哪种推荐系统,都有自身的不足,需要不断完善,否则容易产生错误的判断。当脸书完全用算法推送热门新闻话题后,谣言、假新闻就成了“常客”。“嗡嗡喂”(Buzzfeed)网站的数据新闻《空中间谍》(Spies in the Skies)用算法分析飞机数据、揭秘美国空军的秘密活动,但算法会把一些跳伞运动错误识别为间谍机。[]
再如一些数据新闻采用“计算器”的方式帮助用户进行决策,但没有人关心这种计算器是如何计算出来的,计算错了,人们的决策也错了。更重要的是这里的风险不只是眼前的决策风险,更在于人们会越来越依赖算法,失去对一些事物的独立判断:算法替代人成为决策主体,人的主体性被物化。
3.偏见风险
偏见风险的产生由于算法运行系统中的偏见因素导致偏见的结果输出。算法偏见存在于算法设计和运行的每一个环节,包括算法设计者的偏见、输入数据的偏见和算法局限的偏见。
研究显示,应用于语言的自动化方法必然会学习人类语言使用中固有的人类偏见。[]2018年4月快手CEO宿华针对快手平台有大量低俗内容在“快手”官方微博道歉,承认“(‘快手’)社区运行用到的算法是有价值观的,因为算法的背后是人,算法的价值观就是人的价值观,算法的缺陷是价值观上的缺陷。”
曾任职于“脸书趋势”(Facebook Trending)的工程师乔纳森·科伦承认,脸书的算法都是对人类行为的数据收集和学习,人类带来的缺陷和偏见,连算法创制者都暂时无法解决。[]在个性化新闻推送中,基于个人偏好的推荐系统将进一步固化“信息茧房”和“回声室效应”,让后真相时代的人们无视广阔的社会现实,只相信自己所相信的东西。在美国“极化”的政治生态中,算法带来的偏见风险可能会继续巩固社会的“极化”状态。
4.隐私风险
隐私风险的产生因个人数据而起。算法的运行离不开数据,而个性化新闻推荐、用户分析等服务需要个人数据。无论作为一种技术目标,还是一种服务目标,搜集的个人数据越多,算法对用户的“了解”就越准确。算法所有者可能会无视用户的隐私保护:一方面过度搜集用户个人数据,例如将个人敏感数据纳入收集范围;另一方面对个人数据缺少有效保护,随意流转数据,导致个人数据泄露。
路透新闻研究所《数字新闻报告2016》的数据显示,49%的英国和美国受访者对算法推荐影响个人隐私表示担忧。2018年3月16日脸书爆出个人数据泄露丑闻,剑桥分析公司(Cambridge Analytica)借助2014至2015年间在脸书推出的一款心理测验在未经同意下盗用高达5000万用户的个人信息,用于美国总统大选时为特朗普进行精准的广告投放,影响了选举结果。[]大数据时代,个人数据被多个终端、平台所收集,被各种算法“监视”,隐私风险随时可能发生。虽然有人提出将个人数据处理时用匿名的方式规避隐私风险,但不可否认的是,多个匿名数据建立关联依然可以识别出特定的个体。不让个人数据“裸奔”,需要更有效的防护措施。
5.声誉风险
媒体声誉是人们根据媒体的行为对媒体进行的整体性评价,是媒介主体的一项总体性的无形资产。[]良好的声誉是媒体重要的社会资本,能从各方面提升提升媒体的竞争力。
媒体声誉的构成主要取决于专业能力和社会责任。在传统媒体时代,媒体声誉管理的重点在于记者的专业实践。只要记者能胜任专业工作、体现社会责任,媒体自然就实现了公信力、影响力。智媒时代,算法的存在让媒体声誉管理变得更为复杂和不可控。作为人工物,算法不仅不能保证客观、公正,算法带来的失实风险、决策风险、偏见风险、隐私风险直接带来声誉风险,这些风险从技术上是无法避免的。
美国爱德曼国际公关公司发布的《2018年全球信任度调查报告》显示媒体是全球最不受信任的机构。尤其在西方发达国家,媒体的公众信任度很低。许多媒体采用算法的动因之一是让新闻生产“客观”“权威”。如果媒体忽视算法风险,很可能使原本脆弱的媒体声誉雪上加霜。2018年3月脸书个人数据泄露事件发生后,用户对脸书的好感净值较2017年10月下降28个百分点,总好感率为48%。[]
三、算法风险的应对策略
算法是把“双刃剑”,新闻业需要在创新和风险中找到平衡。算法风险因人而生,应对算法风险也要以规制人的行为为重点,同时应对算法风险是一个系统工程,笔者认为可以从四个层面着手。
1.自律层面:构筑新闻生产的算法责任伦理
法律、法规的制定永远落后于新技术的发展,在应对和处理算法风险上,算法伦理的探讨与共识应走在前列。目前国外科学技术界提出了很多涉及算法伦理的倡议,如阿西洛马人工智能原则(Asilomar AI Principles)、美国计算机协会提出的算法透明和可责性七项原则。
新技术条件下的新闻伦理也需要做出调整,以应对不断拓展的新闻边界和不断涌现的新技术、新问题,智媒时代的新闻伦理应是融合技术伦理的“混合伦理”。
考虑到新闻业的公共事业属性,对算法伦理的接纳不能采用“拿来主义”,照搬科学技术界的标准。如何构筑新闻生产的算法伦理?笔者认为应当用责任伦理的视角认识和构筑算法伦理,即“算法责任伦理”。
责任伦理最早由马克斯·韦伯提出,是相对于信念伦理而言的。信念伦理的价值根据在于行为者的目的、动机和意图,拒绝对行为的后果承担责任。责任伦理则相反,强调行为后果的价值和意义,认为人应当积极对自己的行为承担责任,理性而审慎地行动。[]
在技术领域,技术员在设计程序、攻克问题时往往强调技术的工具理性和特定技术目标的达成,较少涉及价值理性。一些企业追逐开发一切技术上可能被开发的事物,忽视了技术造成的全面影响,出现“计算机和信息技术的非道德神话”。[]当算法介入新闻生产时,不能因为所谓的“技术中立”,就无视责任的承担、无视技术本身所附着的风险和价值观。新闻生产中的算法价值观,首先是体现公共利益的,而不是符合少数人的。英国“媒体改革同盟”2018年3月发布的《英国广播公司的未来》报告认为,英国广播公司的算法逻辑应该以公共服务为目的,同时给予执照费缴纳者权利参与甚至控制算法的调整。
新闻生产的算法责任伦理体系应当包括什么内容?笔者认为公平、准确、透明、可解释、可审计、责任等原则是重要内容。
(1)公平:算法运行系统的设计需要体现社会公平,考虑社会的多元性和不同的价值观,尽可能避免偏见的数据或偏见的算法设计导致对某一特定群体的歧视。因此算法设计的公平需要纳入利益相关者(stakeholders)的利益。关于个人决策的算法都应该被评估其歧视性影响,评估的结果和标准应该被公开发布并加以解释。[]
(2)准确:无论是输入时的数据错误,还是输出时统计上的不确定性(statistical uncertainty),算法总会存在错误。需要识别、记录和测试整个算法及其数据源的误差和不确定性。[]
(3)透明:让利益相关者知道某一算法的设计意图、设计目标、运行效率、适用条件和存在的缺陷,了解算法的运行机制和做出特定决定的原因。[]
(4)可解释:算法系统产生的任何决策都应该向利益相关者进行解释。这些解释必须便利益相关者理解,而不是用专业的技术知识“应付”利益相关者。
(5)可审计:开发算法时应该允许第三方分析和检查算法。
(6)责任:遵守法律、法规,如果出现错误,应有责任主体及时修复、中止服务,并及时更正,对造成的损失承担责任。
2.他律层面:制定监管新闻算法的法律法规
当前部分国家和地区已将人工智能立法提上日程。2017年12月美国国会提出《人工智能未来法案》(Future of Artificial Intelligence Act of 2017),如果经两院通过,该法案将成为美国第一个针对人工智能的联邦法案。纽约为了解决政务系统算法歧视问题于2017年12月通过了算法问责法案。2018年5月生效的欧盟《一般性数据保护法案》(General Data Protection Regulation,GDPR)给予用户申请某项基于算法得出结论的解释权。中国在《新一代人工智能发展规划》中提出要加强人工智能相关法律问题研究,开展与人工智能应用相关的民事与刑事责任确认、隐私和产权保护、信息安全利用等法律问题研究,建立追溯和问责制度,明确人工智能法律主体以及相关权利、义务和责任等。
当政务系统的算法成为记者的调查对象之时,应用于新闻生产中的算法同样需要立法监管。由于算法性质多种多样,有基于公共利益的算法、基于商业利益的算法和二者兼具的算法,相关部门在立法时应充分考虑新闻业和新闻算法的特殊性,制定有效的监管措施,既保障了新闻生产的技术创新,又尽可能避免算法带来“副作用”。
在立法中设立第三方调查机构极为必要。由于社会上大部分算法不是开源算法,第三方调查机构的设立有助于避免借调查之名侵犯知识产权事件的发生。纽约市计划成立由自动化决策系统专家和受自动化决策系统影响的公民组织代表组成的工作组,专门监督市政机构使用的自动决策算法的公平性、问责性和透明度。[]
3.社会层面:提升利益相关者的算法素养
智媒时代“你相信谁的报道”将变成“你相信哪个算法”。弥合“算法知沟”、减少和规避算法风险,需要利益相关者具备算法的基本常识、批判地看待算法、提升算法素养。算法素养是公众所具备的认识、评判、运用算法的态度、能力与规范。
新闻生产中的算法利益相关者包括:(1)记者和编辑,他们利用程序员开发的算法产品进行用户分析、数据分析、舆情监测、新闻资源整合。如《卫报》内部的“孤儿”(Ophan)分析平台,帮助记者、编辑简便地处理受众数据和分析工作。如果记者、编辑不具备算法素养,只会使用算法程序,将使整个新闻生产过程“唯技术论”。(2)受众,他们利用媒体提供的算法产品进行新闻消费或决策。如果受众不具备算法素养,将使其新闻消费或决策过程盲从、被动,甚至误导。
利益相关者的算法素养包括三个层次:(1)态度层面,对算法的设计和运行原理有一定的认识,对算法本身及其结论的得出持批判态度。(2)能力层面,掌握常见算法的设计能力,对试验数据、算法设计、结果输出有一定的辨别、判断和解释能力。(3)规范层面是算法应用合理、合法,遵循专业规范和社会规范。
2018年中国将算法课程列入全国高中新课标,提高学生在程序设计、计算思维、算法方面的思维要求。在社会层面,算法素养应像媒介素养一样,成为公众知识素质的重要组成部分。公众的算法素养提高了,对算法的迷信和盲从就少了,算法风险也就更能从容应对了。
4.媒体层面:建立算法风险的应对机制
随着人工智能技术的发展,算法风险将成为新闻业的新常态,可以预见未来因算法风险带来的媒体声誉风险将成为媒体风险管理、危机管理的重要议题。作为责任主体的媒体需要建立一套完善的算法风险应对机制,以减少伤害、降低损失、完善服务、挽回声誉。
笔者认为算法风险的应对机制包括四个阶段:
(1)算法风险的预防阶段。这一阶段重在“预防”:通过监督算法产品设计过程中对专业标准和新闻伦理的落实情况,将算法风险的发生几率降到最低。
(2)算法风险的监测阶段。这一阶段重在“监测”:设计好的算法已经应用于新闻生产,媒体需对算法系统的运行制定一个风险评估标准,进行日常监测。当发现算法缺陷或潜在风险时,视情况决定是否中止算法系统及相关服务。今日头条算法架构师曹欢欢表示,今日头条在日常会不断纠偏,设计、监督并管理算法模型。
(3)算法风险的发生与处理阶段。这一阶段重在“告知”:当算法风险发生后,媒体应通过各种传播渠道“即时”告知公众算法风险的发生、发出警示信息,并采用措施进行应对处理,如立刻停止算法系统的运行、解释算法风险产生的原因、对算法缺陷进行修复、第一时间回应公众关切。
(4)算法风险的声誉修复阶段。这一阶段重在“修复”:媒体需总结处理应对算法风险的经验,评估此次算法风险对媒体声誉的影响,弥补利益相关者损失,向利益相关者进行解释、说明,积极开展声誉修复行动。
参考文献
1、潘斌.风险社会与责任伦理[J].伦理学研究,2006(3)
2、Deloitte.Managing algorithmic risks:Safeguarding the use of complex algorithms and machine learning[EB/OL].https://www2.deloitte.com/us/en/pages/risk/articles/algorithmic-machine-learning-risk-management.html
3、Woods.‘Mathwashing,’ Facebook and the zeitgeist of data worship[EB/OL].https://technical.ly/brooklyn/2016/06/08/fred-benenson-mathwashing-facebook-data-worship/
4、朱鸿军,周逵.伪中立性:资讯聚合平台把关机制与社会责任的考察[J].南昌大学学报(人文社会科学版),2017(5)
5、Nahser.Three examples of machine learning in the newsroom[EB/OL].https://medium.com/global-editors-network/three-examples-of-machine-learning-in-the-newsroom-1b47d1f7515a
6、许向东,郭萌萌.智媒时代的新闻生产:自动化新闻的实践与思考[J].国际新闻界,2017(5)
7、Nahser.Three examples of machine learning in the newsroom[EB/OL].https://medium.com/global-editors-network/three-examples-of-machine-learning-in-the-newsroom-1b47d1f7515a
8、Caliskan,Bryson&Narayanan.Semantics Derived Automatically from Language Corpora Necessarily Contain Human Biases[EB/OL].https://arxiv.org/abs/1608.07187
9、Kelly.开除了所有编辑 Facebook算法为什么还没有消除新闻偏见[EB/OL].https://www.evolife.cn/html/2016/88787.html
10、张之颖.AI助特朗普当选?脸书惨了!史上最大数据滥用曝光[EB/OL].http://tech.huanqiu.com/internet/2018-03/11679748.html
11、高贵武.新媒体环境下的主流媒体声誉管理刍议——基于利益相关者理论框架[J].国际新闻界,2017(1)
12、美官方展开调查 脸书或临2万亿美元天价罚单[EB/OL].http://news.takungpao.com/world/exclusive/2018-03/3555967.html?from=singlemessage
13、程立涛,崔秀荣.论责任伦理的社会价值[J].石家庄学院学报,2017(4)
14、韩鸿,彭璟.论智媒时代社交媒体的社会责任[J].新闻界,2017(5)
15、Diakopoulos&Friedler.How to Hold Algorithms Accountable[EB/OL].https://www.technologyreview.com/s/602933/how-to-hold-algorithms-accountable/
16、Diakopoulos&Friedler.How to Hold Algorithms Accountable[EB/OL].https://www.technologyreview.com/s/602933/how-to-hold-algorithms-accountable/
17、张超.作为中介的算法:新闻生产中的算法偏见与应对[J].中国出版,2018(1)
18、腾讯研究院.2017年全球人工智能政策十大热点[EB/OL].http://new.qq.com/omn/20171230/20171230A056PF.html