用于语音交互控制的方法、装置、设备和介质制造方法及图纸

技术编号：23162908 阅读：46 留言：0更新日期：2020-01-21 22:12

本申请公开了语音交互控制的方法、装置、设备和介质，涉及语音技术。一种语音交互控制的方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息；至少基于声音信号的声学特征表示和/或与识别信息相关联的语义特征表示确定声音信号的交互置信度；确定识别信息与声音信号的匹配状况；提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。由此，可以准确判断区别人机交互的声音和非人机交互的声音，提高语音交互控制的准确度和智能度，提升人机交互的用户体验。

Methods, devices, devices and media for voice interactive control

全部详细技术资料下载

【技术实现步骤摘要】
用于语音交互控制的方法、装置、设备和介质
本公开的实施例主要涉及人工智能领域，并且更具体地，涉及用于语音技术。
技术介绍
语音交互技术是人与机器用语音进行交互的一种技术，实现了类似自然对话的语音交互体验。人机交互从计算机时代的鼠标键盘配合屏幕方式交互，到智能手机时代的触屏直接交互，人机交互的方式越来越简单，交互门槛越来越低。随着人工智能和移动互联网的蓬勃发展，类似人与人之间的自然语音交互逐渐成为人机交互的一种新型的方式。语音交互同时兼备输入带宽大、准确性高、可移动性好、使用门槛低等优点，是人机交互的首选交互方式之一。语音交互可以分为两种场景：一次唤醒一次交互和一次唤醒连续交互(又称为一次唤醒多次交互)。在实现语音交互过程中，通常对采集到的语音信号执行语音识别，从中识别出对应的信息，用于实现交互控制。
技术实现思路
根据本公开的实施例，提供了一种用于语音交互控制的方案。在本公开的第一方面中，提供了一种语音交互控制的方法。该方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息；至少基...

【技术保护点】
1.一种语音交互控制的方法，包括：/n获得语音交互设备处的声音信号和从所述声音信号识别的识别信息；/n至少基于所述声音信号的声学特征表示和与所述识别信息相关联的语义特征表示中的至少一项来确定所述声音信号的交互置信度；/n确定所述识别信息与所述声音信号的匹配状况；以及/n提供所述交互置信度和所述匹配状况以用于控制所述语音交互设备对所述声音信号的响应。/n

【技术特征摘要】
1.一种语音交互控制的方法，包括：
获得语音交互设备处的声音信号和从所述声音信号识别的识别信息；
至少基于所述声音信号的声学特征表示和与所述识别信息相关联的语义特征表示中的至少一项来确定所述声音信号的交互置信度；
确定所述识别信息与所述声音信号的匹配状况；以及
提供所述交互置信度和所述匹配状况以用于控制所述语音交互设备对所述声音信号的响应。

2.根据权利要求1所述的方法，其中确定所述交互置信度包括：
利用声学置信度模型来执行以下一项或多项：
提取所述声音信号的所述声学特征表示，
基于所述声学特征表示来确定所述声音信号用于人机交互的语音的声学置信度；以及
利用融合模型，至少基于所述声学特征表示和所述声学置信度中的至少一项来确定所述交互置信度。

3.根据权利要求2所述的方法，其中所述声学置信度模型的训练基于第一正例样本和第一负例样本，所述第一正例样本包括用于人机交互的声音信号，并且所述第一负例样本包括非人机交互的声音信号。

4.根据权利要求1所述的方法，其中确定所述交互置信度包括：
提取与所述识别信息相关联的所述语义特征表示；
利用语义置信度模型基于所述语义特征表示来确定所述识别信息是从与用于人机交互的语音中识别出的信息的语义置信度；以及
利用融合模型，至少基于所述语义特征表示和所述语义置信度中的至少一项来确定所述交互置信度。

5.根据权利要求4所述的方法，其中所述语义置信度模型的训练基于第二正例样本和第二负例样本，所述第二正例样本包括从用于人机交互的声音信号中标注的真实信息，并且所述第二负例样本包括非人机交互的信息。

6.根据权利要求1所述的方法，其中所述识别信息被表示为单元序列，所述单元序列包括至少一个单元，每个单元选自包括以下各项的组：词、音节、图素、音素、亚音素、多音素组合片段、多图素组合片段、以及前述任一项的上下文相关单元，并且
其中确定所述匹配状况包括：
将所述声音信号划分为与所述单元序列中的单元分别对应的至少一个声学片段，每个单元与每个声学片段依次对齐，以组成至少一个单元声学片段对；
利用局部信息声音置信度模型执行以下一项或多项：
分别提取所述至少一个单元声学片段对的至少一个单元声学片段特征表示，以及
基于所述至少一个单元声学片段特征表示来分别确定所述至少一个单元与所述至少一个声学片段的相应匹配置信度；以及
利用融合模型，至少基于所述至少一个单元声学片段特征表示和所述相应匹配置信度中的至少一项来确定所述匹配状况。

7.根据权利要求6所述的方法，其中确定所述交互置信度包括：
利用所述融合模型，基于所述声学特征表示和所述语义特征表示中的至少一项以及相对于所述至少一个单元声学片段特征表示和所述相应匹配置信度中的至少一项，来确定所述交互置信度，以指示以下至少一项：
所述声音信号总体上是用于与所述语音交互设备进行交互的语音的可靠程度，和
所述声音信号的一部分是用于与所述语音交互设备进行交互的语音的可靠程度。

8.根据权利要求6所述的方法，其中基于所述至少一个单元声学片段特征表示和所述相应匹配置信度中的至少一项来确定所述匹配状况包括：
利用所述融合模型，基于所述声学特征表示和所述语义特征表示中的至少一项以及所述至少一个单元声学片段特征表示和所述相应匹配置信度中的至少一项，来确定所述匹配状况。

9.根据权利要求6所述的方法，其中所述局部单元声置信度模型的训练基于第三正例样本和第三负例样本，所述第三正例样本包括用于人机交互的声音信号中的第一声学片段和从所述第一声学片段中标注的第一单元，并且所述第三负例样本包括第二声学片段和与所述第二声学片段中出现的单元不同的第二单元。

10.根据权利要求1所述的方法，其中所述识别信息被表示为单元序列，所述单元序列包括至少一个单元，每个单元选自包括以下各项的组：词、音节、图素、音素、亚音素、多音素组合片段、多图素组合片段、以及前述任一项的上下文相关单元，并且确定所述匹配状况包括：
利用全局信息声音置信度模型执行以下一项或多项：
基于所述声学特征表示和所述语义特征表示来提取全局声学语义特征表示，以及
基于所述全局声学语义特征表示来生成标签序列，所述标签序列包括与所述单元序列对应的匹配标签、起始标签和结束标签，每个匹配标签指示所述单元序列中每个单元是否与所述声音信号中的对应声学片段相匹配，所述起始标签指示所述单元序列中的起始单元是否在所述声音信号的起始位置出现，并且所述结束标签指示所述单元序列中的最后一个单元是否在所述声音信号的结束位置出现；以及
利用融合模型，至少基于所述全局声学语义特征表示和所述标签序列中的至少一项，来确定所述匹配状况。

11.根据权利要求10所述的方法，其中所述单元序列包括多个单元，并且生成所述标签序列包括：
生成所述标签序列以进一步包括在所述多个单元中的相邻两个单元的匹配标签之间的至少一个相邻指示标签，每个相邻指示标签指示所述多个单元中的相邻两个单元是否在所述声音信号中的相邻位置出现。

12.根据权利要求10所述的方法，其中确定所述交互置信度包括：
利用所述融合模型，基于所述声学特征表示和所述语义特征表示中的至少一项以及所述全局声学语义特征表示和所述标签序列中的至少一项，来确定所述交互置信度，以指示以下至少一项：
所述声音信号总体上是用于与所述语音交互设备进行交互的语音的可靠程度，和
所述声音信号的一部分是用于与所述语音交互设备进行交互的语音的可靠程度。

13.根据权利要求10所述的方法，其中所述全局信息声音置信度模型的训练基于第四正例样本和第四负例样本，所述第四正例样本包括用于人机交互的第一声音信号、从所述第一声音信号中标注的第一信息和相对于所述第一信息和所述第一声音信号生成的正确标签序列，并且所述第四负例样本包括除所述第四正例样本之外的其他声音信号、信息和标签序列的组合。

14.根据权利要求1至13中任一项所述的方法，其中获得所述声音信号和所述识别信息包括：
在所述语音交互设备的声音采集器收音期间，确定由所述声音采集器采集到的待处理声音信号的结束；
确定从所述待处理声音信号中识别的待处理信息是否语义完整；以及
根据确定所述待处理信息语义完整，将所述待处理声音信号确定为所述声音信号并且将所述待处理信息确定为所述识别信息。

15.根据权利要求14所述的方法，进一步包括：
根据确定所述待处理信息语义不完整，等待并且获得由所述声音采集器采集到的后续待处理声音信号。

16.根据权利要求14所述的方法，其中所述待处理声音信号由所述语音交互设备对由所述声音采集器采集到的原始信号执行回声消除后生成。

17.根据权利要求1至13中任一项所述的方法，其中所述识别信息包括文本信息。

18.根据权利要求1至13中任一项所述的方法，进一步包括：
根据确定所述交互置信度低于预定置信度阈值，控制所述语音交互设备不对所述声音信号进行响应；以及
根据确定所述交互置信度超过所述预定置信度阈值，基于所述匹配状况来确定由所述语音交互设备提供的对所述声音信号的响应，所述响应包括对所述声音信号的直接反馈或对所述语音交互设备的用户的引导反馈，所述引导反馈引导所述用户澄清对所述语音交互设备的期望指令。

19.一种用于语音交互控制的装置，包括：
获得模块，被配置为获得语音交互设备处的声音信号和从所述声音信号识别的识别信息；
交互置信度确定模块，被配置为至少基于所述声音信号的声学特征表示和与所述识别信息相关联的语义特征表示中的至少一项来确定所述声音信号的交互置信度；
匹配状况确定模块，被配置为确定所述识别信息与所述声音信号的匹配状况；以及
提供模块，被配置为提供所述交互置信度和所述匹配状况以用于控制所述语音交互设备...

【专利技术属性】
技术研发人员：白锦峰，翟传磊，陈旭，陈涛，马啸空，张策，吴震，彭星源，王知践，钱胜，王桂彬，贾磊，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人