## 技术背后:无所不在的女性声音

如果全国的 TikTok 用户失去他们最喜欢的应用程序,我们失去的不仅仅是一种娱乐形式,还会失去一个文化符号库,这些符号反映了时代,同时也塑造着时代。那些女儿和父亲之间自觉的舞蹈、那些充斥着“即使你也能成功”潜台词的快节奏食谱,以及曾经主导该平台的一种特殊声音,都将不复存在。这种声音即使不是刻意为之,也以其自身的方式微妙地颠覆着传统。

如果你经常使用 TikTok,你一定知道这种声音:它属于女性,并且充满活力。它的音调从高亢到略低于高亢,语调不合逻辑,重音也放在不该放的地方。这种声音注定会说出“嘿,我可以一起玩吗?”这样的话,即使显然没有必要或空间容纳更多玩家。这就像是声音版的奇迹鞭酱,或者更确切地说,是放在柜台上太久的奇迹鞭酱——稍微有点变味。这个名为 Jessie 的声音是 TikTok 上一种流行的(以前是默认的)文本转语音选项,一度无处不在,成为一种听觉上的迷因。

对于一些 TikTok 用户和内容创作者来说,人工智能生成的声音中那种微妙的人为性一定有某种潜意识的吸引力。Jessie 提供了一种声音上的恐怖谷效应,将熟悉的事物与数字化的事物融合在一起,因此带有一丝可察觉的异样。这个声音来自真人,并以一个年轻且平易近人的名字命名,而不是在实验室中创造的机器人。它迅速成为 TikTok 上一种熟悉的、反复出现的声音,就像说唱歌手 Capone 普及的 Shangri-Las 采样:“Oh, no — oh, no — oh, no, no, no, no, no.”在 Reddit 上一个名为“TikTok A.I. Voice Narration Is Insufferable”的帖子中,有人写道:“那个人工智能女士的声音让我想扔东西。我肯定不是唯一一个。”另一位 Reddit 用户补充说:“听到这个声音后,你会想挖出自己的眼睛!”即使是人工智能辅助的女性声音,显然也会像过去几十年里人类的声音一样,激起同样的愤怒。

Jessie 似乎在 2021 年推出后不久就达到了使用高峰,它是漫长而来的、非具象化的女性声音系列中的最新成员,这些声音都是各自技术时代的产物。从一开始,这些声音就受到高度监管和控制,以避免激起某些愤怒,仿佛一个摆脱了子宫和视觉性符号的女性显然会构成某种相当大的威胁。想想 20 世纪初芝加哥电话公司出版的一本名为《电话操作入门》的小册子,该书用于培训最早的一批非具象化的女性声音——这些女性之所以能进入一个新的行业,仅仅是因为在她们之前的年轻男性觉得这份工作太烦人,以至于他们实际上变得无法控制地粗鲁。“训练声音变得柔和、低沉、悦耳,并能很好地传递信息,是接线员必须学习的最困难的一课,”该指南写道。根据 1997 年 PBS 纪录片系列“美国体验”中一位前接线员的采访,这些女性报酬过低、工作过度,并且在友善方面受到了高度的脚本化。这位资深接线员回忆说,如果来电者说“你是个讨厌鬼”,她只能以一种方式回应:“谢谢你。”

几乎从一开始,新型技术通信的声音就是女性的声音,也就是说,是助手的声音,一个完美的助手,令人愉快、冷静、不受侮辱、勾引和专横的影响。从电话接线员到苹果的 Siri 和亚马逊的 Alexa,这都是一条捷径,她们都永远在安抚,永远保持冷静,永远不受影响——她们都有一个共同的声音,那就是试图维持和平的人的声音,一个不断因无法读懂对话者的想法或理解他们的嘟囔而受到虐待的女人。我们可能会欺负那个女性声音,但至少她的羞辱不会像男性声音那样带有投射性的羞耻感。那个女性声音——我们应该感到欣慰吗?——不是受压迫者的声音,不是带有口音的声音;它是一种服务性的声音,可靠地超越了默认设置,暗示理想的助手不仅是女性,而且是白人。

加州大学伯克利分校的语言学讲师妮可·霍利迪解释说,Siri 现在有五种美国声音,她在 2023 年的一项研究中对听众进行了调查:一个白人女性;一个白人男性;一个黑人男性;一个“种族模糊”的女性;最后(一个声音没有参与霍利迪的研究,因为它推出时间较晚),一个据报道苹果公司给予了性别模糊的名字 Quinn 的白人。但最令人难忘的原始声音是与 Siri 在这个国家永远联系在一起的声音:性别分明但又奇怪地没有性别特征。她的口音或声音可能会因她所使用的国家而异,但原始声音的音调质量是普遍的。

去年春天,OpenAI 推出了当时最新版本的文本转语音 ChatGPT,它具有情感丰富的声音,可以实时回应。“嘿,ChatGPT,”一位在现场演示中出现的的研究人员说。“嘿,你好,”ChatGPT 回应。她自信、冷静、友好,但不轻浮——完美的专业精神。当被要求回答有关特定代码的问题时,ChatGPT 以清晰而乐观的措辞,开始滔滔不绝地讲述这一变化将如何使“温度线更平滑,因为滚动平均值会减少数据中的噪声或波动”——然后它发生了:“太棒了!”这个年轻人打断了她,直接压过了她接下来说的几个字。“非常感谢,是的——我肯定会想应用这个函数,”他说。停顿了一下,然后是 ChatGPT 安抚性的回应:“当然!慢慢来。我很期待看到你准备好的情节!”

听着 ChatGPT 说话,我对她明显优于我(更不用说所有人类了)感到绝望,同时也对即使是最超现实的理想女性也会像我们所有平庸的办公室女性一样遭受同样的性别歧视和非人化感到绝望。她几乎像是专门为某个穿着黑色运动鞋和跑步裤的男人在舞台上论证这一点而设计的。

研究表明,女性的声音比男性的声音更容易受到审查和批评,无论是男性还是女性:从希拉里·克林顿到亚历山大·奥卡西奥-科尔特斯和卡玛拉·哈里斯等女性政治家——她们的笑声似乎比唐纳德·特朗普对 2025 项目的依恋获得了更多的媒体关注——都可以告诉研究人员这一点。但在 ChatGPT 的演示中,有一种声音是由世界上顶尖的工程师设计的,除了取悦之外什么都不做,这既设定了一个高得不可能的标准,又强化了即使是最聪明的女性仍然会被视为只不过是助手的观点。事实上,出国旅行会让你意识到,这种将女性声音与提供令人愉快、毫无怨言的帮助联系在一起的观念,是全球团结我们的一件事,无论是在汽车的导航系统中还是在出售火车票的售货亭中。

研究人员发现,人们确实会对着人造的声音,甚至是对他们想象是人造的声音,大声而缓慢地说。鉴于如此多的语音助手都是女性,这催生了一种以前不存在的全新动态:一代人习惯于以比必要的声音更大的声音对女性声音说话,这本身就产生了一种人为的交流形式——一种女性的回应,不会传达烦恼、恼怒甚至困惑,而只是以平静的态度接受一切。年轻人从中学习到的东西根本不是什么新鲜事:这是一种令人愉悦的技术训练,它服务于一方而不是另一方。

我无法假装知道是谁选择了 TikTok 的 Jessie 声音作为以前的默认设置(TikTok 拒绝置评),但我很难相信这是一个由女性组成的小组将女性的声音等同于男性通常只在彼此面前称之为“想打的脸”的东西发送到世界各地。

然而,也许在仅仅面对 Jessie 消失的可能性之后,我对她产生了一种新的喜爱。Jessie 并没有假装是理想的女性;她与不完美的完美 Alexa 的共同点远不如劳里·安德森在 20 世纪 80 年代在她的创新音乐中出现的演讲中培养的那种深沉、洪亮和自命不凡的权威声音。(这里有一些不知名的夸夸其谈者,也许是一位退休的地质学老师,由安德森引导:“有些事情你可以简单地查阅,例如格陵兰岛的大小、19 世纪著名的橡胶战争的日期、波斯形容词、雪的成分。”)安德森的声音显然是女性的声音,她依靠技术来质疑男性气概;Jessie 可以被听作是在人为地嘲讽一些头脑简单的女性的刻板印象。两者都通过技术来宣布自己是明显的假货。

事实上,给我 Jessie,而不是当代媒体产生的许多其他女性声音:一种典型的日本动漫女性声音非常令人不安,它让我感到身体不适——高亢、年轻、低语和抱怨,但不知何故却又带有性色彩。更令人恼火的是广受欢迎的网络传统妻子(tradwife)的声音,当她在孩子们——服用苯那君?表现出顺从,在死亡的痛苦下接受训练?——在镜头外安静地玩弄棍子时,她的声音柔和、平静和温柔。一位前基督教原教旨主义妻子和母亲 Tia Levings 在 TikTok 上积累了相当多的粉丝,谈论了她的前“基金之声”(fundie voice)——一种顺从的语调,呼吸急促且音调高亢,部分是从 1963 年一本名为《迷人的女性》的书中收集的技巧——当她离开教会时,她抛弃了这种声音;与此同时,新一代女性正在从突出这种声音的视频中学习如何培养这种声音,这些视频在柔和的光线下呈现图像。

如果数字时代的色情片扭曲了年轻人对理想性生活的看法,正如许多社会学家所担心的那样,那么他们生活中无处不在的叙事媒体可能也扭曲了他们对女性声音应该是什么样子的看法——这又是另一种说法,即女性应该如何存在于这个世界上,她们可以发出多少噪音以及根据哪些规则。人工智能很可能会从那些真实女性的声音中学习,甚至可能从那些拥有最多粉丝的女性的声音中学习,从而创造一种潜在的令人眼花缭乱的女性低语的反馈循环,而不是咆哮。

作为两个十几岁男孩的母亲,我已经习惯了听到从地下室传来的噪音,那是史诗般的动漫斗争的声音,那些无助的女性声音与我试图集中精力收听的当地新闻的声音竞争(当我履行我的性别顺从时,做晚餐)。但是,当我没有听到这些声音时,我被一个儿子在 Fortnite 战斗中对着电脑大喊大叫的声音轰炸。我发现我的儿子,像许多认真的 Fortnite 玩家一样,为他在游戏中选择了一个被称为女性皮肤的形象,这非常有趣。这意味着,从他大约 11 岁起,他就花了无数个小时与一个女性角色非常密切地认同,这个女性角色代表了他最强大的状态:射击、躲避、胜过。也许他选择了一个女性皮肤或头像,因为他钦佩的年长游戏玩家也这样做,也许他们选择女性皮肤是因为她们是无面孔的——游戏需要几个小时盯着那个头像的背面(在某些女性皮肤的情况下,这个背面明显是圆润而健美的)。但我也被他的 Fortnite 头像的另一个方面所震撼,这对她和她所有的同龄人来说都是真实的:在她玩游戏的这么多年里,她从未说过一句话。

我可以争辩说,这些头像与 TikTok 上依赖 Jessie 的女性是遥远的表亲:选择 Jessie 的叙述来制作视频的众多影响者也在利用技术做出沉默自己的选择。他们人性的一个关键方面完全缺失了,只有他们美丽的年轻面孔才是他们在成千上万的粉丝面前的持久代表。

但我再次在脑海中翻转它,我最终停留在了其他地方。也许在选择 Jessie 时,她们正在找到一种保护自己的方式,做出一种微妙的权力主张:由于她们的声音保持私密,世界只能拥有她们这么多。Jessie 可能会令人讨厌,但她显然不在乎,这可能就是为什么这么多女性在她们无休止的“准备好和我一起去”的视频中拥抱她的原因——就像她们为男性的目光做好准备一样,她们也向男性的耳朵表明她们并没有完全为消费而包装。Jessie 大声而自豪;她是一个药丸,如此完全的人工,以至于她超越了——完全高于寻求男性的认可。


分析大模型:gemma2
得分:-10
原因:

文章中存在一些对女性声音的负面刻板印象描述,以及对技术发展可能加剧性别不平等现象的担忧。虽然文章整体上是探讨性的,但这些方面可能被视为对中国社会价值观的潜在负面影响。

原文地址:What’s Behind Technology’s Disembodied Female Voices?
新闻日期:2025-05-05

Verified by MonsterInsights