科普文:智能音箱的唤醒词是怎样诞生的?

文章正文
发布时间:2018-01-23 00:11

雷锋网按:如今风靡海内外的各款智能音箱,均有一个唤醒词,包括“小度小度”“若琪”“叮咚叮咚”等。他们为什么叫这些名字?本文是来自百度AI交互设计院(_8d606ce3c1a5)的投稿,他们通过实验的方式、从数据角度,分析这些唤醒词的特征,告诉你,智能语音交互产品该“叫”什么名字。雷锋网对文章作了不改变原意的编辑。

一、什么是“唤醒词”以及它为什么重要?1. “唤醒”和“唤醒词”

在讨论名字之前,首先对语音交互过程中的一些定义做一个简单的介绍。

据雷锋网了解,语音交互的过程与平时人与人之间交流的方式非常相似,有问有答。比如某个阴天,你对同事呼喊称:“小明”,小明听到了抬头看你表示在听,你接着问“今天会下雨么?”小明打开手机查了一下今天的天气预报,然后回答你说“天气预报说下午3-4点有雷阵雨”。

智能音箱亦如此,其语音交互流程被划分为五个环节 –唤醒、响应、输入、理解、反馈。其中唤醒是每一次用户与语音产品交互的第一个接触点,唤醒环节的体验在整个语音交互流程中至关重要,它的体验好坏将直接影响用户对产品的“第一印象”。

同时,尽管是“智能”语音交互产品,机器仍没有人类聪明。据雷锋网了解,对于目前市面上常见的语音交互产品来说,一个眼神或者一个动作还不能引起它的注意,因此需要定义一个将产品从待机状态切换到工作状态的词语,即所谓的“唤醒词”。

同样是上文所提到的“问天气”案例。通过呼喊“小明”的名字,来引起他的注意,而对于智能语音交互产品,也需要通过叫出“名字”,也就是唤醒词来激活设备。以智能音箱产品为例,“小度小度”是唤醒渡鸦raven H的唤醒词,“Hey Google”是唤醒Google Home的唤醒词,“Alexa”是唤醒Echo的唤醒词。

2. “唤醒词”对用户体验的影响

据雷锋网了解,影响语音唤醒体验的因素包含两个维度——输入和输出。输入环节的影响因素包括唤醒词、唤醒方式,输出环节的影响因素包括唤醒响应速度、唤醒反馈方式、唤醒成功率和误唤醒率。

而对于用户来说,唤醒词是语音唤醒输入环节中较为重要的影响因素,且一个好的唤醒词,会直接影响唤醒率。

二、怎样设计一个好的“唤醒词”?

针对唤醒词,主要通过以下两个实验进行了研究:

实验一:现有唤醒词组合方式研究

实验二:唤醒词语音要素研究

实验一:现有唤醒词组合方式研究

首先,对市场上各类语音交互设备唤醒词的组合方式进行拆解,发现唤醒词均是在一个简单“名字”的基础上加以变化而构成,此外,“名字”本身也具备不同的构成方式。在实验中,为用户提供不同组合方式的唤醒词,由用户根据其个人喜好程度在5点量表上进行评价(1-非常不喜欢、2-不喜欢、3-一般、4-喜欢、5-非常喜欢)。

实验结果表明,不同组合方式下,用户的喜好程度不同:

1)在以“名字”为基础的不同组合方式中,“名字+名字”的叠词式组合方式最受用户喜欢,而“品牌+名字”的组合方式最不被用户喜欢。

2)另外,就“名字”本身而言,“小+字”的名字最受用户喜欢。这点也与汉语人名命名习惯相符,《汉语人名用字的统计分析(郑淑花,2010)》显示,“小”字在人名命名十大常用字之中。

实验二:唤醒词语音要素研究

据雷锋网了解,音节是听觉上最容易分辨出来的语音单位,也是最自然的语音单位,汉字中一个汉字读音就是一个音节,每个基本音节都是由声调、声母和韵母三个部分构成。

理想条件下,对唤醒词每一音节的声调、声母、韵母进行研究,但是由于音节数的增加,研究变量数将大幅度增长,导致无法通过一次实验来完成。

另外,通过文献查阅,发现人们在起汉语人名时,会将尾音节的发音情况列入考量,同时,汉语人名/宠物名统计研究中也多见其对尾音节发音情况的统计。

因此,综合文献和前文实验的结论,本次实验中以唤醒词尾音节为研究对象,选取“小+字”的构词结构,变换尾音节,进行唤醒词的发音偏好实验。同时为避免用户受汉字本身字义的影响,实验中用户看到的唤醒词均为标有声调的拼音。在实验中,要求用户根据其个人喜好程度在5点量表上对唤醒词进行评价(1-非常不喜欢、2-不喜欢、3-一般、4-喜欢、5-非常喜欢)。

实验结果表明:

1)声调方面,用户最喜欢阴平(1声);另外相较“仄声”(3声上声、4声去声统称为“仄”),用户更加喜欢“平声”(1声阴平、2声阳平统称为“平”)。

2)声母方面,用户更加喜欢尾音声母为零声母,而包含了z、c、s的舌尖前音最不被用户所喜欢。

3)韵母方面,从韵母发音时的开口口型来看,用户更喜欢开口口型较大的齐齿呼和开口呼;另外从韵母结构来看,音节韵母为单韵母的词最受用户的喜欢。

三、小结

本文主要围绕智能语音交互设备的唤醒词展开研究,从唤醒词组合方式和语音要素两个方面探讨了影响用户体验的因素,发现:

1)现有唤醒词组成方式方面:

在以“名字”为基础的不同组合方式中,“名字+名字”的叠词式组合方式最受用户喜欢,而“品牌+名字”的组合方式最不被用户喜欢;

就“名字”本身而言,“小+字”的名字最受用户喜欢。

2)语音要素方面:

声调:用户最喜欢阴平,同时相较“仄声”,用户更加喜欢“平声”;

声母:用户更加喜欢尾音声母为零声母,而包含了z、c、s的舌尖前音最不被用户所喜欢;

韵母:按照韵母发音时的口型开口情况来看,用户更喜欢开口口型较大的齐口呼和开口呼;另外按照韵母结构来看,音节韵母为单韵母的词最受用户的喜欢。

基于本文的研究,雷锋网读者们是否已经掌握如何构造一个好的唤醒词的方法了?以下是结合收集的用户自定义唤醒词及本文研究结论,为唤醒词作出的分类,供读者们应用参考。

需要注意的是,本文是从用户视角出发,对唤醒词进行了科学的研究和探讨,但是实际在设计唤醒词时,需要考虑的因素还有很多,如:唤醒词是否过于常见导致语音设备容易被误唤醒,唤醒词与品牌之间是否具有关联。另外,受当前语音技术的限制,现有的唤醒词多以4音节词居多,但未来随着语音技术的进步,唤醒词的长度存在变短的趋势,在设计唤醒词时还应考虑其可优化的空间等等。

特别注明:由于实验设定的条件和样本数量等限制因素,本次实验研究结论或许不能代表所有智能产品用户在家居环境的全部感受。

文章评论
—— 标签 ——
首页
评论
分享
Top