LIONEL BONAVENTURE/AGENCE FRANCE-PRESSE — GETTY IMAGES

TikTok的算法有四个主要目标:用户价值、长期用户价值、作者价值和平台价值。

这套目标来自该公司的一份员工文件,这份直截了当、毫不避讳的文件提供了一些新的细节,让人看到了这个世界上最成功的视频应用程序是怎么做到如此有趣(也有人称之为上瘾)的。

这份名为《TikTok算法101》的文件由该公司在北京的工程团队编撰。公司发言人希拉里·麦奎德证实了它的真实性,并表示其目的是为了向非技术人员解释算法的工作原理。这份文件提供了关于这个主要的视频应用程序前所未有的新细节,不仅让人一窥该应用的数学核心,还有公司对人性的洞察——我们的无聊倾向以及对文化线索的敏感性,这有助于解释为什么这款软件让人如此欲罢不能。此外,这份文件还揭露了该公司与其中国母公司字节跳动的无缝连接。目前,美国商务部正在准备一份关于TikTok是否对美国构成安全风险的报告。

如果你是每月都会使用TikTok的10亿人中的一员(这个数字没有夸张!),你应该很熟悉这款应用程序,它大致是当下青年文化和网络文化的核心载体。它可以显示源源不断的短视频,而且与那些被它日渐取代的社交媒体应用程序不同,它更多是用于娱乐,而不是与朋友联系。

它在其他短视频应用程序失败的地方获得了成功,一定程度上是因为它让创作变得非常简单,给用户提供跳舞或制作迷因的背景音乐,而不是强迫他们填空。对许多不创作、只作壁上观的用户来说,该应用非常擅长把握你的偏好,并引导你进入它的众多主题(sides),无论你是对社会主义、Excel表格的制作技巧或者性感兴趣,还是对保守政治或某个名人感兴趣。它在揭示人的欲望方面,甚至比人们自己还要厉害——人们惊叹这款应用对自己内心生活的透视能力宛如X光,在众多相关标题中,有一个叫《TikTok的算法比我更了解我的性取向》。

TikTok已经公开了其推荐系统的大致情况,称它的参考因素包括点赞和评论,以及字幕、声音和标签等视频信息。外部分析人士也试图破解其代码。《华尔街日报》不久前有报道显示,TikTok在很大程度上依赖你观看每段视频的时间,来引导你浏览更多你会喜欢的视频,这一过程有时会把年轻观众引向危险的兔子洞,特别是那些宣扬自杀或自残的内容——TikTok表示,它正在努力通过积极删除违反服务条款的内容来防止这些问题。

这份新文件是由一名获得阅读授权但不能分享的人以匿名为条件提供给《纽约时报》的。此人对该应用推送可能导致自残的“悲伤”内容感到不安。

文件中直白地写道,为追求公司增加日活用户的“终极目标”,对提供给用户的视频内容流,它选择性地优化了两大密切相关的指标:“留存率”——即用户是否回访——以及“访问时长”。这款应用希望你在其中停留得越久越好。这种体验有时被描述为一种瘾症,尽管这也让人联想到流行文化所遭受的频繁诟病。1998年,剧作家大卫·马梅特以轻蔑的口吻描写了“伪艺术”,他指出,“人们爱看暑期电影是因为这些电影无法令人满意,因此给了人强迫性重复的机会。”

对于那些认为算法推荐对社会构成威胁的分析人士来说,TikTok的文件证实了他们的怀疑。

“这种系统意味着观看时长才是重点。它的算法是为了让人上瘾,而不是给人们真正想要的东西,”“算法透明”的创始人纪尧姆·查斯洛特说,这一位于巴黎的组织研究过YouTube推荐系统,并对该产品给人——特别是儿童——的影响持悲观态度。应我的要求,查斯洛特查看了这份TikTok文件。

“我认为,让TikTok的算法控制孩子们的生活太疯狂了,”他说。“孩子每看一条视频,TikTok就会获得一点关于他的信息。几个小时内,它的算法就能测出他的音乐喜好、他的外形喜好、他是否抑郁、是否药物上瘾还有其他许多敏感信息。其中一些信息很可能会对他自己造成不利。可能被用来向他精准投放内容,或是让他更沉迷于这个平台。”

这份文件声称,观看时长并不是TikTok考虑的唯一因素。它提供了一个简略的视频评分公式,在这个公式中,根据机器学习和实际用户行为得出的预测结果可以用三种数据概括:点赞、评论和播放时长,以及视频被播放的痕迹:

P点赞*V点赞+P评论*V评论+E播放时长*V播放时长+P播放*V播放

“推荐系统会根据这个公式给所有视频打分,并将得分最高的视频反馈给用户,”文件中写道。“为简洁起见,本文档所示的公式经过了高度简化。实际使用的公式要复杂得更多,但背后的逻辑是一样的。”

这份文件详细说明了该公司如何通过微调算法系统来识别和打击“求赞”内容——即通过明确请求受众点赞来欺骗算法的视频——以及该公司对更加微妙的问题是如何进行思考的。

文件中的另一份图表显示,“创作者变现”是该公司的目标之一,这表明TikTok可能会在一定程度上偏爱有利可图的视频,而不仅仅考虑其娱乐性。

看过该文件的加州大学圣地亚哥分校计算机科学教授朱利安·麦考利在一封电子邮件中表示,它没有详细说明TikTok是如何做出准确预测的,但对其推荐引擎的描述“完全合理但并不新鲜”。他说,该公司的优势来自于将机器学习与“巨大的数据量、高度参与的用户以及用户愿意消费算法推荐内容的环境相结合(想想看,很少有其他环境具备所有这些特征!),而不是什么算法奇迹。”



报告中还包括了展示TikTok算法目标的图表。(注:这张图是《纽约时报》依据原始文档重制的。) THE NEW YORK TIMES

科技公司经常把推荐系统说得让批评者和监管者根本无法理解,这种神秘感很大程度上被这份文件消解了,它基本专注于一些普通用户都可以理解的功能上。例如,从《华尔街日报》对泄露的Facebook文件的报道,可以看到Facebook给评论加权的决定是如何帮助分裂性内容传播的。虽然模型可能很复杂,但文件中概述的TikTok推荐算法并非本质邪恶或令人费解。

但该文件也明确表示,TikTok并未采取任何措施来切断与中国母公司字节跳动的关系。在2020年特朗普总统执政末期,字节跳动的所有权不时成为焦点,当时特朗普试图强制将TikTok出售给甲骨文公司——一家与他的政府结盟的美国公司。

在这份TikTok文件中,回答提问的是一位工程经理,他的领英(LinkedIn)自我介绍称他同时为TikTok和抖音工作,后者是字节跳动在中国运营的、与TikTok类似的应用程序,这让我们得以一瞥日益分化的科技行业中剩余的全球元素,即工程人才。该文件称,这位工程经理曾就读于北京大学,在哥伦比亚大学获得计算机科学硕士学位,2017年加入北京字节跳动之前在Facebook工作了两年。这份文件英语清晰,但并非撰写者的母语,而且文件是从中国科技行业的角度叙述的。例如,它没有提及Facebook和谷歌等美国竞争对手,而是讨论了“如果今日头条/快手/微博已经做了类似的事情,我们是否还能推出与他们相同的策略”。

在美国,两党都关注中国的消费者技术。特朗普总统试图在2020年8月禁止该应用程序,他发布的行政命令警告,TikTok的“数据收集有可能让中共获得美国人的个人和专利信息”。它还说,中国政府可以“建立个人信息档案用于敲诈,并进行企业间谍活动”。该禁令在法庭上未能取得进展,并在总统大选后逐渐被人遗忘。拜登总统上台后撤销了该行政命令,但他的政府随后宣布对TikTok构成的安全威胁进行调查,一位不愿透露姓名的高级政府官员告诉记者,中国“努力利用数字技术和美国数据,带来了令人无法接受的国家安全风险”。

在一封电子邮件声明中,麦奎德表示,“虽然代码中有一些共性,但TikTok和抖音应用程序是完全分开运行的,使用不同的服务器,并且两个程序的代码都不包含用户数据。”

她还表示,“TikTok从未向中国政府提供用户数据,即使我们被要求也不会这样做。”

随着特朗普领导下的政治压力加剧,TikTok聘请了大量人脉广泛的美国和欧洲高管以及安全专家,其首席执行官住在新加坡。它表示没有官方总部。它试图通过将用户数据存储在美国并在新加坡进行备份来缓解美国的担忧。

美国政府的安全担忧有两种形式。首先,正如特朗普在他的行政命令中所说的那样——例如,在TikTok拥有的海量数据中,是否有该应用爱好者的私人性欲望,而这些人中恰好有美国公职人员——这是否应该被视为一种国家安全问题。没有证据表明这些数据曾经被这样使用过,而且TikTok并不是美国人在社交媒体上分享他们生活细节的唯一地方。第二个担忧是TikTok是否会审查政治敏感帖子。

多伦多网络安全监管机构公民实验室今年的一份报告表明,这两种担忧顶多只是潜在的担忧:它没有发现任何迹象表明TikTok正在审查敏感话题或向中国传输数据。

一些美国分析人士认为TikTok是一个巨大的威胁;另外一些人则认为,这是一种莫名其妙的恐慌,如同现在即将步入中年的美国父母警告孩子们,如果他们在社交媒体上分享生活细节,他们将永远找不到工作。许多其他产品,从社交网络到银行和信用卡,收集的用户数据更加精确。如果外国安全服务部门想要这些数据,他们可能会设法从地下行业的数据中介那里购买。

“怕被TikTok监视或审查而抓狂,会分散人们对更大问题的关注,这些问题其实比某个公司或其中国所有权都重要得多,”研究组织新美国(New America)的网络安全政策研究员萨姆·萨克斯说。“即使TikTok是美国人所有,也没有法律或法规阻止北京在开放数据中介市场上购买其数据。”

撰写本专栏提醒了我一件事:TikTok对美国国家安全构成的威胁似乎完全是假设性的,它取决于你对美中关系以及技术和文化未来的分析。但算法掌握了让我着迷的东西——从网球击球技巧、土耳其美食视频到我喜欢看的其他内容,这一点确实对我写完这篇专栏的能力构成了明显而现实的威胁。