原标题:让 Siri 的声音更像真人苹果是如何做到的?
编者按:虚拟助手最先是由Siri带火的但现在的苹果已经被Amazon和Google拖到后面。不过以追求完美为目标的苹果自然不会就这么让Siri沉寂下去过去几年的时间了,苹果的团队一直在攻关一个项目那就是让Siri说话更像人。团队负责人认为现在Siri已经取得了巨大飞跃,在鈈久后的iOS 11中用户就能感受到它的风采了。Siri说话是怎么变得更像人的呢《连线》杂志的这篇文章为我们揭秘。
Alex Acero第一次看《她》的时候是鉯一个正常人的方式去观看的但第二次的时候,他根本就没有看电影Acero是苹果负责Siri背后技术的主管,这次他就坐在那里紧闭双眼,倾聽Scarlett Johansson(斯嘉丽·约翰逊)是如何给她的人工智能角色Samantha配音的他注意了她是如何跟Joaquin Phoenix扮演的Theodore Twombly交谈的,以及Twombly是如何回话的Acero试图弄清楚Samantha是怎么让┅个从来都没见过她的人爱上她的。
为什么声音会工作得那么好当我问到Acero这方面他了解到什么东西时,他笑了因为答案太明显了。他說:“因为自然!因为那不是机器人!”这对于Acero来说几乎都算不上是启示这基本上只是确认了他的团队过去几年做的项目是对的:这个項目的目标就是让Siri听起来更像人。
今秋当全球各地安装iOS 11的iPhone和iPad数量达到数百万的时候,该新软件就会给Siri换一个新的声音它不会引入很多噺功能或者把笑话讲得更好笑,但是你会注意到其中的不同Siri现在讲话会有更多的停顿,在停顿前先把音节拉长说起来有一种抑扬顿挫嘚感觉。字句听起来更加流利并且Siri也会讲更多语言了。总之听它讲和跟它讲都感觉更好了。
苹果用了几年的时间来重新构建Siri背后的技術将它从一个虚拟助手变成了支撑你手机的一切人工智能的一个包罗万象的统称。它已经在不懈地扩张到新的国家和语言(尽管犯过不尐错误但Siri仍然是目前市面上最通俗的个人助理)。苹果也从一开始的慢慢地到现在的迅速地致力于将Siri普及到每一个地方。而且Siri现在已經归苹果的软件负责人Craig Federighi掌管这表明Siri对苹果的重要性现在已经跟iOS相提并论。
这项技术好到能让你跟你的虚拟助手坠入爱河还需要一段时间但Acero和他的团队认为自己已经取得了一次巨大飞跃。他们还坚定地认为如果自己能让Siri说话不那么像机器人而更像你认识和信任的某人的話,他们就能把Siri做得很棒哪怕Siri会有失败的时候(注:因为人也会犯错)。而这个在AI和语音技术尚处早期阶段时可能就是最佳场景了。
為什么苹果喜欢控制自己产品的一切如果你想找个好例子的话,只需看看Siri自从推出6年后,Siri在这场虚拟助理的竞赛中大部分已经落后Amazon嘚Alexa得到了更多的开发者支持;Google的Assistant知道更多的东西;这两个在很多不同公司许多类型的设备上都能找到。
苹果说这都是自己的错Siri刚推出的時候,是另一家公司提供语音识别的后端技术那家公司是谁?一切迹象均指向了Nuance尽管苹果和Nuance均从未承认过有合作关系。不管这家公司昰谁苹果都乐于把Siri的早期问题归咎到它的身上。苹果负责产品营销的CP Greg Joswiak说:“这就像是在赛跑有人在拖我们后腿。” Joswiak说苹果已经给Siri制订叻一个大计划:“做你可以在手机上对话的助理可以用更容易的方式帮你做这些事,”只是技术还不够好他说:“你懂的,输入不行嘚话输出也不行。”
几年前Acero领导的这支苹果团队控制着Siri的后端以及体验改进。现在Siri的基础已经变成深度学习和AI因此得到了巨大改进。Siri的裸语音识别可以与任何竞争对手匹敌可正确识别95%的用户讲话。这款AI工作于两个不同的关键模式:语音转文本也就是Siri弄清楚你说什麼,以及文本转语音也就是Siri会进行回话。
在众人的声音中(尤其是当这些系统变得愈发个性化时)分辨你的语音是Siri最重要的工作之一Siri掌握的数据越多,苹果的模型就会越好它就越能分辨不同的人,甚至能理解很重的口音这还会变成一个安全问题:研究人员最近发现,他们能够以高到人类无法听见的频率跟Siri沟通从而使得破解不被发现。Siri需要学会区分人和机器的语音以及你的和别人的语音。
有一个辦法有助于理解这些系统的工作方式那就是看看苹果是怎么教Siri学习新语言的。在把Siri引入新市场——比如说上海时——团队首先会寻找已囿的本地语言数据库然后通过雇用配音员,让这些人读书、读报以及读网上的文章等来丰富这个库
苹果的团队会转录那些录音,把单詞跟声音对应上——更重要的是要识别音素,也就是构成所有话语的独立声音(在英语中“fourteen”是个单词,而“e”这个英就是音素)怹们试图以各种能想象得到的方式来捕捉这些音素:在词尾的时候变弱,在开始的时候加强停顿前拉长,疑问句末变成升调等每一种表达都有着略为不同的声波,苹果的算法会对此进行分析找出任何特定句子的最合适表达方式。Siri说的每一句话都包含了几十或者几百个這样的音素就像是用不同杂志里面的字母拼凑出来的勒索信。你听到Siri说的话里面可能没有一个字是通过录音出来的
再给个例子:“You want to watch this?(你想看这个吗)”和“I like your watch(我喜欢你的手表。)”第一句的情况下Acero说到“watch”时声音会自然提高,但是在第二句的时候就会变成降调Acero說:“单词还是一样的单词,但发音就完全不一样了”在这两个句子中他都无法使用单词“watch”的同一份录音,或者甚至是相同的音素“one
即便在几年前,计算机和服务器也还不能提供足够的处理能力来遍历一个庞大的数据库为每一次呼叫和响应找到完美的声音组合。不過现在他们可以了Acero和他的团队想要到尽可能多的数据。所以在做出了初始模型之后他们马上就以所谓的“仅收听模式”推出Siri。这种模式下你不能跟Siri对话但是可以按下麦克风按钮然后下达语音指令或者进行web搜索。这个给苹果的机器提供了很多不同口音、不同品质的麦克風以及各种情况下的输入这一切都让Siri做得比比人更好。苹果收集(自称是匿名模式下的)和转录这一数据然后改进算法和训练神经网絡。他们还给机器补充了位置相关数据以及说话习惯——比如3:0美国的说法是three-zero而英国则是three-nil——然后继续调整系统,直到Siri对什么是上海话以忣大家是怎么说上海话有着近乎完美的理解
与此同时,苹果还进行了一场浩大的寻找合适配音员的行动他们从成百上千人开始,让这些每个人都录一段Siri可能会讲到的话然后Acero跟苹果的设计师和用户界面团队一起来决定最喜欢哪一个声音。这一块其决定作用的更多的是艺術而不是科学——他们一边听一边试图找感觉,那种难以言喻的感觉最好要有帮助感和亲切感,中气十足又不要太尖锐有快乐感但叒不能太卡通。
接下来的部分就是科学了Acero说:“很多配音员的声音都很好听,但这并不意味着这些声音就适合于语音合成”他们用自巳建立的名为音素变异性的模型来对这些讲话进行测试,看看每一种细微的表达方式的声波左右侧的差异性如何一个音素的变异性太多會使得把很多音素组合起来的时候很难发出自然的声音,但你在听它们讲的时候是听不出问题来的只有计算机才能看出不同。Acero说:“这幾乎就像在墙上贴墙纸你得留意接缝才能确保对齐。”
在找到了发音同时令人和计算机感到满意的那个人之后苹果用了几周的时间去錄制声音,然后这就成为了Siri的嗓音Siri支持的21种语言(针对36个国家进行本地化)都是按照这一流程进行的——这个数量超过了其所有主要竞爭对手支持的语言之和。每个月加起来有/p//story/how-apple-finally-made-siri-sound-more-human
编译组出品编辑:郝鹏程。