刘晓春/文
近期“儿童邪典视频”事件可能激起民众对于算法推荐的愤怒,以致于媒体上出现“狠狠打了算法的脸”的标题。
“儿童邪典视频”指以儿童熟悉的卡通人物形象为幌子,制作带有凶杀、暴力、色情等具有危害性内容的影片或动漫。由于标题和内容中与儿童日常接触的视频内容存在高度相似性,导致算法将视频推荐给孩子。
儿童本就是互联网上不良内容的最易受害群体,无论是政策制定者还是父母,都在努力给孩子们提供更加清净的上网空间,此时有算法将不良内容主动精准推荐给孩子,“邪典”两字也不足以描述人们激动的情绪。
针对算法的讨论和批评近年时常见诸报端,但仔细观察这些算法相关的舆论批评,其实是不同层面的问题。
内容的算法推荐造成的低俗化和“信息茧房”效应,是对算法本身建模方式及其取向的批评。而“儿童邪典视频”,并非算法设计者预见的范围,实际是在算法筛选中没有考虑足够的变量,从而导致其“出错”。
因此在对其批评和辩护前,需要搞清,算法在这些糟糕的结果产生过程中,究竟扮演什么角色。
徒“算法”不足以自行
“算法”,一个存在已久的技术术语,随着人工智能和大数据以迅猛的态势深入互联网和人们的生活,“算法”被附着众多意义和评价,远超其原初单纯技术属性。
最为犀利的批评是桑斯坦在其著作《网络共和国》中描述的“信息茧房”,此概念被2017年“人民网”批判算法推荐模式的系列文章所援引。文章担心,在内容个性化推荐的模式中,算法包含的内容过滤筛选和优化推荐的策略,会使人们局限于过于狭隘的内容和观点,强化固有偏见和喜好,走向自我封闭和重复。桑斯坦担心的,是窄化而非多元的信息,可能使社会分裂,并对民主制度产生破坏。
算法在实现信息过滤、筛选和定制功能时,需在输入和输出端都进行以数据为基础的学习。输入端是基于导入的海量内容进行深度样本学习后,根据建模原理实现标签化分类机制,比如把包含卡通人物的贴上“儿童”标签,把包含明星内容的贴上“八卦”标签。
在输出端,同样根据建模的设定,通过对用户过往阅读和欣赏兴趣的数据处理,形成“用户画像”,并根据其中提炼的标签,将有相同属性的内容进行推送。在过程中,会添加排序的其他权重,比如,点击量高的排序靠前,其他同类用户经常观看的也更可能被推送。在实践中的算法会有更复杂的参数、变量、标签设定和推送策略。
不过算法推送必然要受可得数据(输入端)和受众选择(输出端)的约束。而商业算法建模中对不同参数的不同权重考量,也会影响选择和筛选的标准,从而实现特定的商业模式和目的。
要实现“低俗化”趋势的内容推荐,在输入端需有大量低俗内容的供应,输出端需有对应的用户选择为基础,细究算法承担的功能,与其说是算法的推送造成低俗内容的蔓延,不如说是算法使得阅读低俗的需求更易得到满足。
当然,商业上的流量偏好策略有可能导致低俗内容的过度推送,所以有时候会有人抱怨“只点击过一次,就一直被推送”,但这种推送实际上很可能不具有商业价值,过度推送恰恰可能对用户体验造成负面影响。因此,徒“算法”不足以自行。
要改变“低俗化”的内容传播,首先要有良性的市场机制来激励非低俗内容的生产和分发。低俗内容在互联网上的传播,很有可能是劣币驱逐良币的结果。如果希望人们更多关注社会公平、经济发展等公共议题,那首先需要考虑如何鼓励严肃、高质量的相关内容和素材的高效生产和传播。
在用户端,与其说“算法决定内容”,不如说是帮助人们找到想看的内容。如果算法推荐的不是用户真正想看的,那么用户“用脚投票”的市场机制会迫使企业改善算法。而热衷阅读肤浅内容的用户,即使没有算法推荐,依然可能通过主动搜索等方式而获取。算法推荐只是打开了方便之门。
由此看,对“算法决定内容”的担忧,主要集中在被推送什么就看什么、“低俗”和“劣质”的信息推送使其沉迷的人群上,而如果改为高质量的内容,他们也可能由此提升认知能力和道德水准,抱有开放的心态并积极参与到公共讨论。因此,“算法”除商业外,被赋予了教育和引导的社会职能。
问题是,此类人群所占多少比重,内容推送对其能产生多大的影响,改变算法又能带来多大好处,这是需要经过实证调查解决的问题。“信息茧房”的理论假设的确充满智识上的冲击力和启发性,但建设性的治理方案却需建立在对本国问题的充分理解和剖析基础上。
算法治理的可能路径
在导致人们担忧的社会和文化现象中,搞清算法所承担的角色,问题所在的环节,才有可能制定有的放矢的治理方案。推送“邪典视频”的问题,不在算法本身建模取向合理性的问题,而更多是算法参数设计的不完备。“邪典视频”躲过算法的筛查,有可能是发布者针对算法“漏洞”的规避行为,在此意义上,解决方案较直接,一方面将不良内容严格审核下架,另一方面有针对性地堵上算法漏洞,预防未来的规避风险。
不过,这并不是一个简单和单一的过程。算法的治理需要与算法之外的其他配套制度相互支撑与配合。
比如在内容审核上,需设定合理而有效的平台责任,同时要在平台不可预见的情况下设置责任的边界,过于严格的责任有可能变成平台不可承受之重。
“儿童邪典视频”固然令人愤怒,但要理性评估其发布是否在平台合理可以预见的范围内。与此同时,对于主观恶性较为明显的主动发布者和传播者,则应当明典重刑,通过落实法律责任和社会声誉机制,对其形成有效的遏制。
法律机制之外,还应积极发挥市场机制和技术措施。针对儿童这样的易感人群,要鼓励开发和制定特殊针对性措施,父母的监护也应起到首要的责任,政府和媒体可以针对此类特殊事件建立预警和迅速传播机制,以将风险和损害控制在最小范围。
针对算法推荐内容模式本身的评价,问题则更复杂。首先,如前言,需明确界定治理算法的出发点。对于商业算法来说,对其承担更多教育和引导功能的期待,是否必要和可行,需审慎论证。自上而下基于理论假设的推断,应当让位于自下而上的问题调查和谨慎求证。
其次,算法治理需离开单纯的内容推送,放在更广阔的图景下观察,比如政府使用算法进行政策制定,算法被用作竞争手段等。特别是,互联网企业遭受不正当竞争指控时,时常会援引算法作为正当性的抗辩理由。
比如今日头条近日指控百度操纵自然搜索结果,百度的回应之一即为“排序与用户需求、相关性、时效性、用户的点击行为等系列因素相关”,大意是算法的运算结果而非企业有意为之。此争议在以前奇虎360对百度的指控,以及欧盟对谷歌操纵比价网站搜索结果的反垄断审查中,亦有反映。
在企业涉嫌损害竞争对手、消费者利益、造成歧视性后果等场景,以及政府利用算法进行决策的领域,算法可能会被推到前台,面临合法性的质疑。首先面临的困难就是搞清算法的内容。讨论算法透明度时,算法作为企业核心竞争优势和商业机密的特点,与法院和公众了解算法合法性的需求产生了矛盾。算法的过度披露,甚至可能起到反作用。正如搜索引擎公司经常强调的,一旦算法逻辑被完整披露,随之而来的是大量规避规则的“作弊”行为。
在算法治理领域,出现“有意义的算法透明度”这样的提法,并不要求算法彻底公开,算法持有者需披露有意义的、可观测的指标证明其合法性,包括算法公平性、性能和效果、解释输出结果的逻辑过程等,并围绕这一目标构建评估指标体系。
重要的是,与人类社会的其他领域一样,算法的优胜劣汰,主要应依靠市场和多元化来实现。互联网时代开放的是超越以往任何时代的可能性和选择空间,统一人们的价值观和选择模式变得比以往更加困难和低效。人们总是可以找到自己想看的,拒绝厌恶的,相信人们可以做出对自己更有利的理性选择。
也要运用技术的力量精准定位市场可能出现失灵的部位,进行针对性的矫正,比如,有必要建立对未成年人接触内容的加强监控和快速反应机制。在法律守住底线的前提下,通过市场的角逐,技术的改进,言论的监督,在多元化的治理模式下,算法有望帮助人类建构更具有丰富内涵意义的世界。
(作者为中国社会科学院大学互联网法治研究中心执行主任,编辑:王敬恺)