用于语音转录的系统和方法技术方案

技术编号:16049306 阅读:52 留言:0更新日期:2017-08-20 09:07
本文中呈现了利用端到端深度学习开发的先进语音识别系统的实施方式。在实施方式中,模型架构显著地比传统语音系统更简单,传统语音系统依赖费力设计的处理管道;当在有噪声的环境中使用时,这些传统系统也往往表现不佳。相比之下,该系统的实施方式无需手工设计的部件来使背景噪声、混响或说话者变化模型化,而改为直接学习对这类效应具有稳健性的函数。既不需音素字典,也甚至不需“音素”的概念。实施方式包括:经良好优化的循环神经网络(RNN)训练系统,其可使用多个GPU;以及新数据集合的合成技术,其允许有效获得用于训练的大量变化的数据。该系统的实施方式还可比广泛使用、最先进的商业语音系统更好地处理具有挑战性的有噪声环境。

【技术实现步骤摘要】
【国外来华专利技术】用于语音转录的系统和方法相关申请的交叉引用本申请要求2015年6月9日提交的标题为“SYSTEMSANDMETHODSFORSPEECHTRANSCRIPTION”的共同转让和共同未决的美国专利申请号14/735,002(案卷号28888-1910)的优先权权益,其将AwniHannun、CarlCase、JaredCasper、BryanCatanzaro、GregoryDiamos、ErichElsen、RyanPrenger、SanjeevSatheesh、ShubhabrataSengupta、AdamCoates和AndrewY.Ng列为专利技术人,该申请根据35USC§119(e)要求共同转让和共同未决的以下专利文献的优先权:(1)2014年12月15日提交的标题为“DEEPSPEECH:SCALINGUPEND-TO-ENDSPEECHRECOGNITION”的美国专利申请号62/092,251(案卷号28888-1908P),其将AwniHannun、CarlCase、JaredCasper、BryanCatanzaro、GregDiamos、ErichElsen、Ry本文档来自技高网...
用于语音转录的系统和方法

【技术保护点】
用于训练转录模型的计算机实施方法,所述方法包括:针对话语集合中的每一话语:将包括声谱图帧集合的话语与一个或多个声谱图帧的上下文输入到所述转录模型的第一层中,所述第一层评估来自所述声谱图帧集合的每一声谱图帧;从所述转录模型输出针对所述话语的预测字符或字符概率;以及计算损失以测量针对所述话语的预测错误;给定地面实况字符,评估所述转录模型的预测输出的梯度;以及使用后向传播更新所述转录模型。

【技术特征摘要】
【国外来华专利技术】2014.12.15 US 62/092,251;2014.12.17 US 62/093,057;1.用于训练转录模型的计算机实施方法,所述方法包括:针对话语集合中的每一话语:将包括声谱图帧集合的话语与一个或多个声谱图帧的上下文输入到所述转录模型的第一层中,所述第一层评估来自所述声谱图帧集合的每一声谱图帧;从所述转录模型输出针对所述话语的预测字符或字符概率;以及计算损失以测量针对所述话语的预测错误;给定地面实况字符,评估所述转录模型的预测输出的梯度;以及使用后向传播更新所述转录模型。2.根据权利要求1所述的计算机实施方法,还包括:在输入到所述转录模型中之前,抖动所述话语集合中的至少一些话语。3.根据权利要求2所述的计算机实施方法,其中,在输入到所述转录模型中之前,抖动所述话语集合中的至少一些话语的步骤包括:通过将话语的音频文件平移一个或多个时间值来针对所述话语生成话语的抖动集;将话语的所述抖动集和所述话语转换成声谱图集合;从所述模型或从模型的集合获得所述声谱图集合的输出结果;以及对所述声谱图集合的输出结果求平均以获得所述音频文件的输出。4.根据权利要求3所述的计算机实施方法,还包括:针对用于在训练所述转录模型中使用的训练数据的集合生成一个或多个话语。5.根据权利要求4所述的计算机实施方法,其中,针对用于在训练中使用的数据集生成一个或多个话语包括:在人录制话音时,使所述人佩戴耳机;在所述话语的数据收集期间通过借助由所述人佩戴的耳机播放背景噪声来有意地诱导伦巴效应;以及经由麦克风捕获所述人的具有伦巴效应的话语,而不捕获所述背景噪声。6.根据权利要求4所述的计算机实施方法,其中,针对用于在训练中使用的数据集生成一个或多个话语包括:添加从已认可的噪声剪辑片段的集合选择的一个或多个噪声剪辑片段以形成噪声轨迹;调节所述噪声轨迹相对于音频文件的信噪比;将经调节的噪声轨迹添加至所述音频文件以形成合成噪声音频文件;以及将所述合成噪声音频文件添加至所述训练数据的集合。7.根据权利要求6所述的计算机实施方法,其中,通过执行以下步骤来生成所述已认可的噪声剪辑片段的集合,所述步骤包括:收集候选噪声剪辑片段的集合;以及重复以下步骤,直到来自所述候选噪声剪辑片段的集合的每一噪声剪辑片段已被评估;从所述候选噪声剪辑片段的集合选择候选噪声剪辑片段以用于评估;响应于所述候选噪声剪辑片段在频带中的平均功率并非与在真实噪声记录中观测到的频带中的平均功率显著不同,将所述候选噪声剪辑片段添加至所述已认可的噪声剪辑片段的集合;以及响应于所述候选噪声剪辑片段在频带中的平均功率与在真实噪声记录中观测到的平均功率显著不同,丢弃所述候选噪声剪辑片段。8.根据权利要求1所述的计算机实施方法,还包括,在训练所述转录模型中并入一次或多次优化,包括:并入一次或多次数据并行化;并入模型并行化;以及使输入跨入所述转录模型的第一层中。9.根据权利要求8所述的计算机实施方法,其中,并入一次或多次数据并行化的步骤包括:在多个处理单元上使用所述转录模型的多个副本,其中每一处理单元处理单独小批量的话语;以及在每一迭代期间将来自处理单元的计算的梯度与其对等体组合。10.根据权利要求8所述的计算机实施方法,其中,并入一次或多次数据并行化的步骤包括:通过将多个话语并置成单个矩阵来使每一处理单元并行地处理多个话语;以及将话语按长度分类以及将大小类似的话语组合成小批量,以及用静音填充话语使得小批量中的所有话语具有相同的长度。11.用于转录语音的计算机实施方法,包括:从用户接收输入音频;将所述输入音频归一化以使所述输入音频的总功率与用于对训练后的神经网络模型进行训练的训练样本的集合一致;通过将所归一化的输入音频平移一个或多个时间值而从所归一化的输入音频生成音频文件的抖动集;针对来自音频文件的所述抖动集的每一音频文件,其中所述抖动集包括所归一化的...

【专利技术属性】
技术研发人员:阿维尼·汉奈卡尔·凯斯贾里德·卡斯帕布赖恩·卡坦扎罗格雷戈里·迪莫斯艾瑞克·艾乐森赖恩·普兰格桑吉夫·萨西斯桑古塔·舒布哈伯拉塔亚当·科茨安德鲁·恩吉
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1