用于多口语检测的系统和方法技术方案

技术编号：29713050 阅读：17 留言：0更新日期：2021-08-17 14:45

一种方法包括：使用至少一个处理器执行输入音频数据的特征提取以识别与输入音频数据相关联的提取特征。所述方法还包括：使用所述至少一个处理器通过使用多个语言模型对提取特征进行处理来检测与输入音频数据的多个部分中的每个部分相关联的语言，其中，所述多个语言模型中的每个语言模型与不同语言相关联。此外，所述方法包括：使用所述至少一个处理器，基于与输入音频数据的每个部分相关联的语言，将输入音频数据的每个部分定向到多个自动语音识别(ASR)模型中的一个ASR模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于多口语检测的系统和方法
本公开总体上涉及自动语音识别(ASR)系统。更具体地，本公开涉及一种用于多口语检测的系统和方法。
技术介绍
基于语音的接口越来越经常被用作用于支持人与机器之间的交互的机构。这些类型的接口通常包括被设计为将语音转换为文本的自动语音识别(ASR)系统。然后，文本可以被显示，被传送给其他用户，被进一步处理或者被用于执行一个或更多个功能，或者以任意其他合适的方式被使用。这种类型的功能在各种应用(诸如移动电子装置或其他电子装置上的基于语音的数字个人助理)中是常见的。
技术实现思路
技术方案本公开提供了一种用于多口语检测的系统和方法。在第一实施例中，一种方法包括：使用至少一个处理器执行对输入音频数据的特征提取以识别与输入音频数据相关联的提取特征。所述方法还包括：使用所述至少一个处理器通过使用多个语言模型对提取特征进行处理来检测与输入音频数据的多个部分中的每个部分相关联的语言，其中，所述多个语言模型中的每个语言模型与不同语言相关联。此外，所述方法包括：使用所述至少一个处理器，基于与输入音频数据的每个部分相关联的语言，将输入音频数据的每个部分定向到多个自动语音识别(ASR)模型中的一个ASR模型。在第二实施例中，电子装置包括至少一个存储器以及可操作地耦接到所述至少一个存储器的至少一个处理器。所述至少一个处理器被配置为：执行对输入音频数据的特征提取以识别与输入音频数据相关联的提取特征。所述至少一个处理器还被配置为：通过使用多个语言模型对提取特征进行处理来检测与输入...

【技术保护点】
1.一种方法，包括：/n使用至少一个处理器，执行对输入音频数据的特征提取以识别与输入音频数据相关联的提取特征；/n使用所述至少一个处理器，通过使用多个语言模型对提取特征进行处理来检测与输入音频数据的多个部分中的每个部分相关联的语言，其中，每个语言模型与不同语言相关联；并且/n使用所述至少一个处理器，基于与输入音频数据的每个部分相关联的语言，将输入音频数据的每个部分定向到多个自动语音识别ASR模型中的一个ASR模型。/n

【技术特征摘要】
【国外来华专利技术】20190109 US 62/790,380;20191231 US 16/731,4881.一种方法，包括：
使用至少一个处理器，执行对输入音频数据的特征提取以识别与输入音频数据相关联的提取特征；
使用所述至少一个处理器，通过使用多个语言模型对提取特征进行处理来检测与输入音频数据的多个部分中的每个部分相关联的语言，其中，每个语言模型与不同语言相关联；并且
使用所述至少一个处理器，基于与输入音频数据的每个部分相关联的语言，将输入音频数据的每个部分定向到多个自动语音识别ASR模型中的一个ASR模型。

2.如权利要求1所述的方法，其中：
所述多个语言模型是从所述多个ASR模型精馏得到的；并且
与所述多个ASR模型相比，所述多个语言模型使用更少数量的特征。

3.如权利要求1所述的方法，其中，每个语言模型被用于确定输入音频数据的每个部分来自特定语言的概率。

4.如权利要求3所述的方法，其中，检测与输入音频数据的每个部分相关联的语言的步骤还包括：
连结使用所述多个语言模型确定的概率；并且
使用神经分类模型对连结的概率进行处理。

5.如权利要求4所述的方法，其中，使用神经分类模型对连结的概率进行处理的步骤包括：
使用多个时间卷积神经网络对所述连结的概率进行处理，其中，来自所述多个时间卷积神经网络中的至少一个时间卷积神经网络的输出被归一化；
对来自所述多个时间卷积神经网络中的最后时间卷积神经网络的输出或被归一化的输出求平均；并且
基于平均后的输出，确定特定语言与输入音频数据的特定部分相关联的概率。

6.如权利要求5所述的方法，其中，检测与输入音频数据的每个部分相关联的语言的步骤还包括：
将所述特定语言与输入音频数据的所述特定部分相关联的所述概率应用于针对不同语言之间的转换而调整的多个子网络模型；并且
利用所述多个子网络模型的输出作为用于输入音频数据的所述特定部分的语言分类的特征向量。

7.如权利要求1所述的方法，还包括：
使用输入音频数据的每个部分被定向到的ASR模型对输入音频数据的每个部分进行处理；并且
使用输入音频数据的每个部分被定向到的ASR模型生成针对输入音频数据的每个部分的文本。

8.一种电子装置，包括：
至少一个存储器；以及
至少一个处理器，可...

【专利技术属性】
技术研发人员：埃普斯格卡·维延德拉·拉吉，宋璞，穆阿扎米·穆罕默德·麦迪，阿里·阿西夫，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：韩国;KR

全部详细技术资料下载我是这个专利的主人