表征、选择以及调整用于自动语音识别系统的音频和声学训练数据技术方案

技术编号：20290433 阅读：75 留言：0更新日期：2019-02-10 20:41

表征目标应用声学域的系统和方法分析来自于目标应用声学域的一个或更多个语音数据样本，以确定一个或更多个目标声学特性，该一个或更多个目标声学特性包括与语音数据样本相关联的编解码器类型和比特率。所确定的目标声学特性还可以包括目标语音数据样本的其它方面，诸如采样频率、有效带宽、噪声级、混响级、限幅级和语速。将所确定的目标声学特性作为目标声学数据简档存储在存储器中。数据简档可以被用来基于一个或更多个目标声学特性而选择和/或修改一个或更多个域外语音样本。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】表征、选择以及调整用于自动语音识别系统的音频和声学训练数据相关申请本申请是2016年3月28日提交的美国申请No.15/082,349的继续申请。上述申请的全部教导通过引用并入本文。
技术介绍
尽管在互联网上以及各种语音数据库中可以获得大量高度变化的非域(non-domain)语音数据，但是准确转录的、域特定训练数据的稀缺对更广泛和更成功部署自动语音识别(ASR)技术而言可能是最大的障碍。作为示例，假定意大利的移动网络运营商(MNO)意图向其顾客提供以文本消息的形式发送顾客所接收的语音邮件的自动创建的转录的服务。在该示例中，“域”是MNO语音邮件环境，并且域特定训练数据包括由MNO语音邮件实用程序接收和存储的实际的语音邮件消息。然而，数据安全立法或内部规则可能阻止MNO将其所接收的语音邮件保留超过数天，以及阻止消息用于ASR训练。此外，隐私问题可能要求不允许接收者以外的任何人收听消息，从而手动转录这些消息是不可行的。但是可以例如从广播和电视节目、议会辩论以及所选择的联系中心数据等等获得大量的意大利语语音数据。然而，由于在域特定数据与非域数据之间的语音特性之间存在很大的不...

【技术保护点】
1.一种用于确定应用目标域(ATD)的音频和声学特性的系统，该系统包括：处理器；以及存储有计算机代码指令的存储器，所述存储器在工作时连接到所述处理器，以便所述计算机代码指令使得所述处理器执行下列步骤：分析来自于所述ATD的一个或更多个语音数据样本，以确定包括下列项中的一个或更多个的一个或更多个目标音频和声学特性：(a)编解码器类型；(b)与所述一个或更多个语音数据样本相关联的比特率；(c)与所述语音数据样本相关联的采样频率；(d)与所述语音数据样本相关联的有效带宽；(e)与所述语音数据样本相关联的噪声级；(f)与所述语音数据样本相关联的混响级；(g)与所述语音数据样本相关联的限幅级；(f)与所...

【技术特征摘要】
【国外来华专利技术】2016.03.28 US 15/082,3491.一种用于确定应用目标域(ATD)的音频和声学特性的系统，该系统包括：处理器；以及存储有计算机代码指令的存储器，所述存储器在工作时连接到所述处理器，以便所述计算机代码指令使得所述处理器执行下列步骤：分析来自于所述ATD的一个或更多个语音数据样本，以确定包括下列项中的一个或更多个的一个或更多个目标音频和声学特性：(a)编解码器类型；(b)与所述一个或更多个语音数据样本相关联的比特率；(c)与所述语音数据样本相关联的采样频率；(d)与所述语音数据样本相关联的有效带宽；(e)与所述语音数据样本相关联的噪声级；(f)与所述语音数据样本相关联的混响级；(g)与所述语音数据样本相关联的限幅级；(f)与所述语音数据样本相关联的语速；以及将所述一个或更多个目标音频和声学特性作为目标数据简档存储在所述存储器中。2.根据权利要求1所述的系统，其中，当使用来自于所述ATD以外的任何域的OOD语音数据样本来训练或调整自动语音识别时，所述计算机代码指令还使得所述处理器使用所述目标数据简档来提高在来自于所述ATD的所述语音数据样本上操作的所述自动语音识别的准确性。3.根据权利要求1所述的系统，其中，所述计算机代码指令还使得所述处理器在确定所述一个或更多个目标音频和声学特性之前预处理所述语音数据样本，以执行下列各项中的一个或更多个：(i)选择与所述语音数据样本相关联的目标语言以及(ii)去除不表示可识别的语音的任何语音数据样本。4.根据权利要求1所述的系统，其中，为了分析来自于所述目标应用的所述一个或更多个语音数据样本以确定与所述语音数据样本相关联的编解码器类型和比特率，所述计算机代码指令还使得所述处理器执行下列步骤：从所述一个或更多个语音数据样本中提取特征集；下列步骤中的一者或二者：利用基于分类与回归树(CART)的特征提取分析来减小所述特征集的特征维度，以生成最终特征集；或者利用所述最终特征集或先前确定的特征集来训练深度神经网络(DNN)分类器；以及下列步骤中的一者或二者：应用所训练的DNN执行所述一个或更多个语音数据样本中的一个或更多个的编解码器类型分类，以生成与所述一个或更多个语音数据样本相关联的编解码器类型；或者应用所训练的DNN执行所述一个或更多个语音数据样本中的一个或更多个的比特率分类以及与所述一个或更多个语音数据样本相关联的比特率。5.根据权利要求4所述的系统，其中，所述特征集包括下列各项中的一个或更多个：(i)线性预测编码(LPC)系数、(ii)线谱频率、(iii)梅尔频率倒谱(MFC)系数、(iv)速度特征、(v)加速度特征、(vi)基于希尔伯特变换的特征、(vii)与所述LPC系数、线谱频率、MFC系数、速度特征、加速度特征和基于希尔伯特变换的特征中的一个或更多个相关联的统计数据、以及(xi)相对于平均语音频谱(LTASS)的长期频谱偏差。6.根据权利要求4所述的系统，其中，所述DNN分类器包括连接在输入层和输出层之间的多个节点，所述节点之间的各个连接按照系数来缩放，所述节点利用非线性激活函数来建模。7.根据权利要求1所述的系统，其中，所述计算机代码指令还使得所述处理器执行下列步骤：分析一个或更多个OOD语音数据样本，以确定与所述OOD语音数据样本相关联的OOD数据简档；将所述目标数据简档与所述OOD数据简档进行比较；以及基于所述比较，选择所述OOD语音数据样本中的一个或更多个作为与来自于所述ATD的所述语音数据样本相似。8.根据权利要求7所述的系统，其中，所述OOD语音数据样本与来自所述ATD的所述语音数据样本相似要求针对所述目标数据简档和OOD数据简档的各个音频和声学特性，(i)所述ATD语音数据样本所关联的所述音频和声学特性的值与(ii)所述OOD语音数据样本所关联的所述音频和声学特性的值之差在预定范围内。9.根据权利要求1所述的系统，所述系统还包括语音破坏工具包，该语音破坏工具包被配置为：按照降低所述OOD语音数据样本与所述ATD语音数据样本之间的不匹配的方式，基于所述ATD语音数据样本的所述一个或更多个音频和声学特性来修改一个或更多个OOD语音数据样本，所述语音破坏工具包被配置为实现下列项中的一个或更多个：(i)语音信道仿真器，该语音信道仿真器被配置为基于所确定的采样频率和所确定的混响级中的一者或二者来修改所述OOD语音样本；(ii)噪声信道仿真器，该噪声信道仿真器被配置为基于所确定的噪声级来修改所述OOD语音样本；(iii)麦克风仿真器，该麦克风仿真器被配置为基于所确定的有效带宽来修改所述OOD语音样本；(iv)放大器仿真器，该放大器仿真器被配置为基于所确定的限幅级来修改所述OOD语音样本；以及(v)传输信道仿真器，该传输信道仿真器被配置为基于所确定的与所述一个或更多个语音数据样本相关联的编解码器类型和比特率中的一者或二者来修改所述OOD语音样本。10.一种表征目标应用声学域的方法，该方法包括：由在工作时连接到存储器的处理器执行以下步骤：分析来自于所述ATD的一个或更多个语音数据样本，以确定包括下列项中的一个或更多个的一个或更多个目标音频和声学特性：(a)编解...

【专利技术属性】
技术研发人员：D·夏尔马，P·内勒，U·H·约斯特，
申请(专利权)人：纽昂斯通讯公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人