用于多口语检测的系统和方法技术方案

技术编号:29713050 阅读:17 留言:0更新日期:2021-08-17 14:45
一种方法包括:使用至少一个处理器执行输入音频数据的特征提取以识别与输入音频数据相关联的提取特征。所述方法还包括:使用所述至少一个处理器通过使用多个语言模型对提取特征进行处理来检测与输入音频数据的多个部分中的每个部分相关联的语言,其中,所述多个语言模型中的每个语言模型与不同语言相关联。此外,所述方法包括:使用所述至少一个处理器,基于与输入音频数据的每个部分相关联的语言,将输入音频数据的每个部分定向到多个自动语音识别(ASR)模型中的一个ASR模型。

【技术实现步骤摘要】
【国外来华专利技术】用于多口语检测的系统和方法
本公开总体上涉及自动语音识别(ASR)系统。更具体地,本公开涉及一种用于多口语检测的系统和方法。
技术介绍
基于语音的接口越来越经常被用作用于支持人与机器之间的交互的机构。这些类型的接口通常包括被设计为将语音转换为文本的自动语音识别(ASR)系统。然后,文本可以被显示,被传送给其他用户,被进一步处理或者被用于执行一个或更多个功能,或者以任意其他合适的方式被使用。这种类型的功能在各种应用(诸如移动电子装置或其他电子装置上的基于语音的数字个人助理)中是常见的。
技术实现思路
技术方案本公开提供了一种用于多口语检测的系统和方法。在第一实施例中,一种方法包括:使用至少一个处理器执行对输入音频数据的特征提取以识别与输入音频数据相关联的提取特征。所述方法还包括:使用所述至少一个处理器通过使用多个语言模型对提取特征进行处理来检测与输入音频数据的多个部分中的每个部分相关联的语言,其中,所述多个语言模型中的每个语言模型与不同语言相关联。此外,所述方法包括:使用所述至少一个处理器,基于与输入音频数据的每个部分相关联的语言,将输入音频数据的每个部分定向到多个自动语音识别(ASR)模型中的一个ASR模型。在第二实施例中,电子装置包括至少一个存储器以及可操作地耦接到所述至少一个存储器的至少一个处理器。所述至少一个处理器被配置为:执行对输入音频数据的特征提取以识别与输入音频数据相关联的提取特征。所述至少一个处理器还被配置为:通过使用多个语言模型对提取特征进行处理来检测与输入音频数据的多个部分中的每个部分相关联的语言,其中,所述多个语言模型中的每个语言模型与不同语言相关联。所述至少一个处理器还被配置为:基于与输入音频数据的每个部分相关联的语言,将输入音频数据的每个部分定向到多个ASR模型中的一个ASR模型。在第三实施例中,一种非暂时性机器可读介质包含指令,其中,所述指令在被执行时使电子装置的至少一个处理器进行以下操作:执行对输入音频数据的特征提取以识别与输入音频数据相关联的提取特征。所述介质还包含指令,其中,所述指令在被执行时使所述至少一个处理器进行以下操作:通过使用多个语言模型对提取特征进行处理来检测与输入音频数据的多个部分中的每个部分相关联的语言,其中,所述多个语言模型中的每个语言模型与不同语言相关联。所述介质还包含指令,其中,所述指令在被执行时使所述至少一个处理器进行以下操作:基于与输入音频数据的每个部分相关联的语言,将输入音频数据的每个部分定向到多个ASR模型中的一个ASR模型。根据以下附图、描述和权利要求,其他技术特征对于本领域技术人员可以是显而易见的。附图说明为了更完整地理解本公开及其优点,现在结合附图参考以下描述,其中,相似的附图标号表示相似的部分:图1示出根据本公开的示例网络配置;图2示出根据本公开的用于多口语检测的示例架构;图3示出根据本公开的用于多口语检测的更具体的示例架构;图4示出根据本公开的用于支持识别多个语言之间的转换的示例架构;以及图5示出根据本公开的用于多口语检测的示例方法。具体实施方式在进行下面的详细描述之前,阐述贯穿本专利文件使用的特定单词和短语的定义可能是有利的。术语“发送”、“接收”和“传送”及其派生词涵盖直接通信和间接通信两者。术语“包括”和“包含”及其派生词表示包括但不限于。术语“或”是包含性的,表示和/或。短语“与……相关联”及其派生词表示包括、被包括在……内、与……互连、包含、被包含在……内、连接到或与……连接、耦接到或与……耦接、可与……通信、与……协作、交织、并置、接近于、绑定到或与……绑定、具有、具有……的性质、和或与……具有关系等。此外,下面描述的各种功能可由一个或更多个计算机程序来实现或支持,每个计算机程序从计算机可读程序代码形成并在计算机可读介质中被实施。术语“应用”和“程序”是指适合于在合适的计算机可读程序代码中实现的一个或更多个计算机程序、软件组件、指令集、过程、功能、对象、类、实例、相关数据或其一部分。短语“计算机可读程序代码”包括任意类型的计算机代码,包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够由计算机访问的任意类型的介质,诸如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频盘(DVD)或任意其他类型的存储器。“非暂时性”计算机可读介质不包括传输暂时性电信号或其他信号的有线、无线、光学或其他通信链路。非暂时性计算机可读介质包括可永久存储数据的介质以及可存储数据并稍后重写数据的介质,诸如可重写光盘或可擦除存储器装置。如这里所使用的,诸如“具有”、“可具有”、“包括”或“可包括”特征(如数字、功能、操作或诸如部件的组件)的术语和短语指示该特征的存在,并且不排除其他特征的存在。此外,如这里所使用的,短语“A或B”、“A和/或B中的至少一个”或者“A和/或B中的一个或更多个”可包括A和B的所有可能组合。例如,“A或B”、“A和B中的至少一个”以及“A或B中的至少一个”可指示以下全部:(1)包括至少一个A,(2)包括至少一个B,或者(3)包括至少一个A和至少一个B。此外,如这里所使用的,术语“第一”和“第二”可修饰各种组件而不管重要性如何,并且不限制所述组件。这些术语仅被用于将一个组件与另一组件区分开。例如,第一用户装置和第二用户装置可指示彼此不同的用户装置,而不管装置的顺序或重要性如何。在不脱离本公开的范围的情况下,第一组件可被表示为第二组件,反之亦可。将理解,当元件(诸如第一元件)被称为(可操作地或可通信地)“与另一元件(诸如第二元件)耦接/耦接到另一元件(诸如第二元件)”或者“与另一元件(诸如第二元件)连接/连接到另一元件(诸如第二元件)时,它可直接或经由第三元件与另一元件耦接或连接/耦接到或连接到另一元件。反之,将理解,当元件(诸如第一元件)被称为与另一元件(诸如第二元件)“直接耦接”/“直接耦接到”另一元件(诸如第二元件)或者与另一元件(诸如第二元件)“直接连接”/“直接连接到”另一元件(诸如第二元件)时,没有其他元件(诸如第三元件)介入所述元件与所述另一元件之间。如这里所使用的,根据情况,短语“被配置(或被设置)为”可与短语“适合于”、“具有……的能力”、“被设计为”、“适合于”、“被制为”或“能够”可互换地使用。短语“被配置(或被设置)为”实质上不表示“以硬件方式被专门设计为”。而是,短语“被配置为”可表示装置能够与另一装置或部件一起执行操作。例如,短语“被配置(或被设置)为执行A、B和C的处理器”可表示可通过执行存储在存储器装置中的一个或更多个软件程序来执行操作的通用处理器(诸如CPU或应用处理器)或者用于执行操作的专用处理器(诸如嵌入式处理器)。这里使用的术语和短语仅用于描述本公开的一些实施例,而不是限制本公开的其他实施例的范围。应理解,除非上下文另有明确指示,否则单数形式包括复数指代物。这里使用的所有术语和短语(包括技术术语和短语以及科学本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n使用至少一个处理器,执行对输入音频数据的特征提取以识别与输入音频数据相关联的提取特征;/n使用所述至少一个处理器,通过使用多个语言模型对提取特征进行处理来检测与输入音频数据的多个部分中的每个部分相关联的语言,其中,每个语言模型与不同语言相关联;并且/n使用所述至少一个处理器,基于与输入音频数据的每个部分相关联的语言,将输入音频数据的每个部分定向到多个自动语音识别ASR模型中的一个ASR模型。/n

【技术特征摘要】
【国外来华专利技术】20190109 US 62/790,380;20191231 US 16/731,4881.一种方法,包括:
使用至少一个处理器,执行对输入音频数据的特征提取以识别与输入音频数据相关联的提取特征;
使用所述至少一个处理器,通过使用多个语言模型对提取特征进行处理来检测与输入音频数据的多个部分中的每个部分相关联的语言,其中,每个语言模型与不同语言相关联;并且
使用所述至少一个处理器,基于与输入音频数据的每个部分相关联的语言,将输入音频数据的每个部分定向到多个自动语音识别ASR模型中的一个ASR模型。


2.如权利要求1所述的方法,其中:
所述多个语言模型是从所述多个ASR模型精馏得到的;并且
与所述多个ASR模型相比,所述多个语言模型使用更少数量的特征。


3.如权利要求1所述的方法,其中,每个语言模型被用于确定输入音频数据的每个部分来自特定语言的概率。


4.如权利要求3所述的方法,其中,检测与输入音频数据的每个部分相关联的语言的步骤还包括:
连结使用所述多个语言模型确定的概率;并且
使用神经分类模型对连结的概率进行处理。


5.如权利要求4所述的方法,其中,使用神经分类模型对连结的概率进行处理的步骤包括:
使用多个时间卷积神经网络对所述连结的概率进行处理,其中,来自所述多个时间卷积神经网络中的至少一个时间卷积神经网络的输出被归一化;
对来自所述多个时间卷积神经网络中的最后时间卷积神经网络的输出或被归一化的输出求平均;并且
基于平均后的输出,确定特定语言与输入音频数据的特定部分相关联的概率。


6.如权利要求5所述的方法,其中,检测与输入音频数据的每个部分相关联的语言的步骤还包括:
将所述特定语言与输入音频数据的所述特定部分相关联的所述概率应用于针对不同语言之间的转换而调整的多个子网络模型;并且
利用所述多个子网络模型的输出作为用于输入音频数据的所述特定部分的语言分类的特征向量。


7.如权利要求1所述的方法,还包括:
使用输入音频数据的每个部分被定向到的ASR模型对输入音频数据的每个部分进行处理;并且
使用输入音频数据的每个部分被定向到的ASR模型生成针对输入音频数据的每个部分的文本。


8.一种电子装置,包括:
至少一个存储器;以及
至少一个处理器,可...

【专利技术属性】
技术研发人员:埃普斯格卡·维延德拉·拉吉宋璞穆阿扎米·穆罕默德·麦迪阿里·阿西夫
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1