触发语音交互响应的方法及设备技术

技术编号：23856201 阅读：25 留言：0更新日期：2020-04-18 11:14

本申请提供了一种触发语音交互响应的方法及设备，能够接收用户语音并识别出关键词，再获取该关键词对应的唇部变化图像序列，进一步对该唇部变化图像序列与该关键词进行匹配，得到匹配置信度，如果匹配置信度符合预先定义的语音交互响应规则，则触发语音交互响应，从而提高了响应的准确率，降低了语音交互响应的误触发率，提升了用户体验。

Method and equipment of triggering voice interactive response

全部详细技术资料下载

【技术实现步骤摘要】
触发语音交互响应的方法及设备
本申请涉及语音识别领域，尤其涉及一种触发语音交互响应的方法及设备。
技术介绍
当前，在语音对话系统中触发系统响应的技术主要有唤醒词技术和关键词技术，使用唤醒词技术的语音对话系统仅仅在检测到唤醒词之后才进行响应，关注的是唤醒词是否作为引导词位于语音的开头，往往还需要根据语音识别结果中唤醒词的置信度做拒识评价，如果评价分数过低则拒绝进行响应，唤醒词例如Amazon的“Alex”，小米的“小爱同学”等。随着技术的发展以及用户对更加自然的人机对话方式的需求，关键词技术应运而生，使用关键词技术的语音对话系统可根据用户语音中的关键词自动判断出是否需要进行响应和进行怎样的响应。关键词技术还可以对语音识别的结果做进一步的语义分析，再根据语义分析的结果判断是否进行响应，例如，对于车载语音对话系统，系统需要判断当前的指令是否与车载系统相关，如调节温度、设定导航等等，对于这一类的指令需要做出响应，其他的内容例如用户对话聊天则可以忽略。由于实际的声学环境比较复杂，噪声环境下唤醒词的语音识别准确度大大降低，置信度估计也受到很大影响；另外，在关键词的语音识别结果不准确的情况下，语义分析的可靠性也受到影响，因此，唤醒词技术和关键词技术都存在误触发率较高的问题，难以在及时响应的前提下降低误触发率。另外，还有方案通过采集用户的嘴唇变化图像并将该图像与预设的嘴唇变化图像进行匹配，如果匹配则可以唤醒语音交互功能。该方案的问题在于仅仅与预设图像进行对比，从而灵活性不高。
技术实现思路
>本申请的一个目的是提供一种触发语音交互响应的方法及设备，用于解决现有语音识别技术中误触发率高的问题。为实现上述目的，本申请提供了一种触发语音交互响应的方法，其中，该方法包括：接收用户语音，并对所述用户语音进行关键词语音识别；若识别到关键词，获取与所述关键词对应的唇部变化图像序列；确定所述唇部变化图像序列与所述关键词的匹配置信度；若所述匹配置信度满足预设的语音交互响应规则，则触发语音交互响应。进一步地，对所述用户语音进行关键词语音识别，包括：将所述用户语音与预设的关键词语音识别模型匹配，确定所述用户语音中是否有关键词。进一步地，所述关键词语音识别模型的语法规则基于上下文无关文法建立。进一步地，获取与所述关键词对应的唇部变化图像序列，包括：获取所述关键词在所述用户语音中的开始时间和结束时间；获取与所述用户语音同步采集的唇部变化图像序列；获取所述唇部变化图像序列中所述开始时间和所述结束时间之间的唇部变化图像序列。进一步地，确定所述唇部变化图像序列与所述关键词的匹配置信度，包括：获取所述关键词的文本；将所述唇部变化图像序列与所述关键词的文本进行匹配，获取相应的匹配置信度。进一步地，将所述唇部变化图像序列与所述关键词的文本进行匹配，获取相应的匹配置信度，包括：对所述关键词的文本进行序列标注，获取序列标注后的关键词文本；对所述唇部变化图像序列与所述序列标注后的关键词文本进行匹配，获取相应的匹配置信度。进一步地，所述匹配置信度P通过如下公式进行计算：其中，P(W)为将所述唇部变化图像序列与关键词的文本进行比对得到的似然概率，∑P(Wi)为对所述唇部变化图像序列进行解码得到多种解码结果的似然概率之和。进一步地，若所述匹配置信度满足预设的语音交互响应规则，则触发语音交互响应，包括：若所述匹配置信度超过预设的语音交互响应阈值，则触发语音交互响应。另一方面，本申请还提供了一种设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，处理器执行计算机程序指令，使该设备执行前述触发语音交互响应的方法。本申请还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述触发语音交互响应的方法。与现有技术相比，本申请提供的方案能够接收用户语音并识别出关键词，再获取该关键词对应的唇部变化图像序列，进一步对该唇部变化图像序列与该关键词进行匹配，得到匹配置信度，如果匹配置信度符合预先定义的语音交互响应规则，则触发语音交互响应，从而提高了响应的准确率，降低了语音交互响应的误触发率，提升了用户体验。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：图1为本申请的一些实施例提供的一种触发语音交互响应的方法的流程图。具体实施方式下面结合附图对本申请作进一步详细描述。在本申请一个典型的配置中，终端、网络设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。图1演示了本申请的一些实施例提供的一种触发语音交互响应的方法，该方法具体包括如下步骤：步骤S101，接收用户语音，并对所述用户语音进行关键词语音识别；步骤S102，若识别到关键词，获取与所述关键词对应的唇部变化图像序列；步骤S103，确定所述唇部变化图像序列与所述关键词的匹配置信度；步骤S104，若所述匹配置信度满足预设的语音交互响应规则，则触发语音交互响应。该方法尤其适合用于语音交互系统对接收的用户语音判断是否进行响应的场景，能够对用户语音进行语音识别并确定语音中是否有关键词，如果识别出关键词则再将关键词对应的唇部变化图像与该关键词进行匹配，在匹配置信度满足预先定义的语音交互响应规则时，触发相应的语音交互响应。在步骤S101中，首先接收用户语音，再对接收的用户语音进行关键词语音识别。在此，关键词包括可用于激活语音交互响应的预先定义的词语，该预先定义的词语通常出现在用户语音的中间或末尾；关键词还可以包括唤醒词，唤醒词是用户语音的开始词语，语音交互系统可在识别出唤醒词后激活语音交互响应。在此，关键词以文本形式进行定义，并可本文档来自技高网...

【技术保护点】
1.一种触发语音交互响应的方法，其中，该方法包括：/n接收用户语音，并对所述用户语音进行关键词语音识别；/n若识别到关键词，获取与所述关键词对应的唇部变化图像序列；/n确定所述唇部变化图像序列与所述关键词的匹配置信度；/n若所述匹配置信度满足预设的语音交互响应规则，则触发语音交互响应。/n

【技术特征摘要】
1.一种触发语音交互响应的方法，其中，该方法包括：
接收用户语音，并对所述用户语音进行关键词语音识别；
若识别到关键词，获取与所述关键词对应的唇部变化图像序列；
确定所述唇部变化图像序列与所述关键词的匹配置信度；
若所述匹配置信度满足预设的语音交互响应规则，则触发语音交互响应。

2.根据权利要求1所述的方法，其中，对所述用户语音进行关键词语音识别，包括：
将所述用户语音与预设的关键词语音识别模型匹配，确定所述用户语音中是否有关键词。

3.根据权利要求2所述的方法，其中，所述关键词语音识别模型的语法规则基于上下文无关文法建立。

4.根据权利要求1所述的方法，其中，获取与所述关键词对应的唇部变化图像序列，包括：
获取所述关键词在所述用户语音中的开始时间和结束时间；
获取与所述用户语音同步采集的唇部变化图像序列；
获取所述唇部变化图像序列中所述开始时间和所述结束时间之间的唇部变化图像序列。

5.根据权利要求1所述的方法，其中，确定所述唇部变化图像序列与所述关键词的匹配置信度，包括：
获取所述关键词的文本；
将所述唇部变化图像序列与所述关键词的文本进行匹配，获取相应的匹配置...

【专利技术属性】
技术研发人员：罗骏，
申请(专利权)人：上海芯翌智能科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人