我的口音,机器人听得懂吗?
作者: 时间:2020-07-10
我的口音,機器人聽得懂嗎? 同样说英语,Alexa对于操着不同口音的使用者,会有着相同的待遇吗?研究人员实际进行了测试,结果显示:Alexa与台湾许多英语学习者一样,面临着口音辨识的挑战。当听到比较少接触,例如印度或其他与美式发音差异较大的英语口音时,很有可能判读错误或是呈现听不懂的尴尬状态。为今之计,除了持续扩大语音资料库,容纳更多非母语英语使用者的样本外,是否还有其他方式可以避免呢?

Alexa: 口音很美,可是我听不懂

Amazon与Google等科技公司,正以不同形式的智慧语音助理带动「声控世代」,快速改变人们的学习模式与日常生活。以Amazon智慧语音助理Alexa为例,其可以为使用者规划晚餐、叫外送,而且功能仍不断扩增。然而Alexa真得能成为每个人的得利助手吗?

一位有着轻快北美西岸口音的女性与Alexa对话,Alexa能流畅地向她报告当日气象、解决数学题目,两者互动愉快。然而当一位带有西班牙语口音的使用者说出同样指令时,无论如何放慢速度,Alexa 只是一味请他提供更多资讯,甚至请Alexa关掉音乐时,Alexa反而将音量调大。

而其实只要使用者操的不是「标準」英语腔调,即便是美国境内不同地区的口音,Alexa也有一定的机率无法给予适当回覆。因此,探讨语音辨识现况并寻找改进方法,不仅是为了提升使用者的体验,更是让这些口音上的「少数族群」不会在声控时代中被遗忘。

 多样的口音,多重的困惑

研究人员针对来自二十个城市,超过一百位受试者进行实验,以测试智慧语音助理对美国各地使用者语音辨识的情形。他们设计了七十道日常生活可能出现的指令,例如:「离我最近的便利商店有多远?」。

我的口音,机器人听得懂吗?

美国口音分布图(图片来源:www.speechbuddy.com)

有趣的是, Alexa(Amazon Echo)与Google Home在判读美国本土英语口音时,便已显现地域差异:Google Home较适应西部口音,判读準确率比南部口音略高3 %;Alexa则更熟悉南部与东部口音,準确率较中西部高2 %。一位研究人员认为这可能与系统主要销售区域有关。

我的口音,机器人听得懂吗?

地区口音之语音辨识度(图片来源:编译来源)

带有西班牙语腔的英语,则在两系统皆不吃香。相较于来自加州与华盛顿州(依次为Google与Amazon总部所在地)使用者所使用的西部口音,智慧语音助理对西语腔英语的成功辨识机率平均低了6 %。这样的百分比有什幺影响呢?当语音成为人机互动的主要媒介,即便只是微小的判断差异,譬如听错一个字,都可能严重妨碍使用者的日常生活与使用体验。

另一项实验中,受试者被要求向语音助理朗读《华盛顿邮报》上,三则分别与冬奥、习近平连任中国国家主席、以及川普恫吓福斯新闻频道(Fox News)主持人有关的头版标题,比较语音助理判读结果与实际文本的差异。研究人员以莱文斯坦距离(Levenshtein distance)为指标,衡量两个字串间,由其中之一转换为另一字串所需的最低编辑次数,距离愈大代表两者相似度愈低。结果显示非母语英语使用者,较母语使用者多了30 % 的距离误差。

 为什幺Alexa如此「偏心」?

有人便质疑,这样的智慧语音助理根本是歧视非「正统」的英语使用者。然而仔细想想,这样的辨识结果其实很合理。训练机器听懂人类的语言,需要大量语音资料,搭配人工听写逐字稿。机器在学习语音与单词的对应后,听到新字串时,便能产生有水準的「猜测」。机器学习的一大精神,便是从过去资料中学习规律;训练次数愈多,辨识愈準确。所以,若过往训练的样本,多来自于那些受过高等教育、中产阶级的高加索人,自然成功辨识他们所习惯口音的机率也会愈高。此外,非母语者说话的语句型态,往往融合两种语言以上的构句习惯,形成特殊的规律,也提高训练机器的难度。

因此,当务之急应是积极扩建训练资料库,含纳更多非母语者样本,增加Alexa在训练、测试及运作阶段,所接触到的语言形式。

 Amazon语音转换模型

2018年中,Amazon通过了一项语音腔调辨识的专利:当机器在接收一段语音输入后,能将其连结至至少一个口音样本。若输入语音无法明确连结至特定既有样本时,则会比较其中的声音特性,例如:音频、声调与重音等,视为不同样本的加权组合。接着,机器比较同语言不同口音的样本,产生一语音转换模型,并藉由多个类神经网路持续最佳化。在熟悉使用者腔调后,语音助理更能调整语音输出方式,以接近该使用者的口音回覆。[3]

此项技术将有助于提升沟通效率。当两个口音差异甚大的人对话时,可先进行语音转换,让对方听到较中性的「标準」腔调,降低错误理解的风险,可望应用于智能客服专线。期待Amazon将此专利实际运用于产品中,提升智慧语音助理对重口音使用者的语音辨识能力,让人、机能真正达到沟通无碍。

编译来源

Drew Harwell, “The Accent Gap”, The Washington Post, 2018.

参考资料