以声音特征为条件的声学模型制造技术

技术编号：30778625 阅读：17 留言：0更新日期：2021-11-16 07:38

本公开涉及以声音特征为条件的声学模型。话音识别的系统和方法捕捉具有关键短语及其后紧接的话语的话音音频的片段。编码器使用关键短语片段来计算声音嵌入，该声音嵌入被存储。用于话音识别的声学模型利用以声音嵌入作为输入条件的模型来从话语音频信号推断音素。声音嵌入可被保持，直到另一关键短语被捕捉或者会话结束为止。可以从与噪声混合的话音数据记录来联合训练声学模型和编码器，混合噪声的剖面对于关键短语片段和话语片段是相同的。剖面对于关键短语片段和话语片段是相同的。剖面对于关键短语片段和话语片段是相同的。

全部详细技术资料下载

【技术实现步骤摘要】
以声音特征为条件的声学模型
[0001]本申请要求2020年4月27日提交的标题为“Acoustic Model Conditioning on Sound Features”的美国临时申请62/704,202号的优先权。

[0002]本申请属于神经网络的领域，具体而言属于基于声音嵌入作为条件的领域。

技术介绍

[0003]我们正处于历史的一个转折点，在这里自然语言话音接口作为一种新型的人机接口即将起飞。它们转录话音的能力将很快取代键盘，成为输入文本的最快且最准确的方式。它们支持自然语言命令的能力将很快取代鼠标和触摸屏，成为操纵非文本控制的方式。在四面八方，它们将为人类提供干净、无菌的方式来控制机器工作、娱乐、教育、放松和协助进行琐碎的任务。
[0004]然而，自然语言话音接口提供所有这些益处的能力目前被其识别话音的能力的不准确所阻碍。有时弄错单词可能会很有趣，比如将爱尔兰口音的“thirty
‑
three”捕捉为“dirty tree”。在一些情况下，它可能是令人沮丧的，比如从嘈杂的汽车中将“text mom”捕捉为“text tom”、“text none”、“text some”。在一些情况下，话音识别差错可能是危险的，比如把高声的医生口述的失语症(aphasia)医学诊断捕捉为不食症(aphagia)！。
[0005]图1示出了虚拟助手情境中的话音识别失败的场景。用户10是一个拥有独特声道的人，他们说话时带有新西兰口音，并且他们在一个嘈杂的房间中，雨落在窗户11上。用...

【技术保护点】

【技术特征摘要】
1.一种推断话音音频中的音素概率的由计算机实现的方法，该方法包括：从关键短语的第一话音片段编码第一声音嵌入以生成第一向量；存储所述第一向量；利用将以下各项作为输入的声学模型来推断所述音素概率：在所述第一话音片段之后不久的第二话音片段；以及存储的第一向量。2.如权利要求1所述的方法，其中所述声学模型是在话音音频的标记样本上被训练的，每个样本具有对应的关键短语声音嵌入。3.如权利要求2所述的方法，其中训练样本包括多种语音与多种噪声剖面相混合，所述关键短语声音嵌入是用与其对应的话音音频样本相同的混合噪声剖面来计算的。4.如权利要求1所述的方法，其中所述编码使用与所述声学模型联合训练的编码器模型。5.如权利要求1所述的方法，还包括：从所述第一话音片段编码第二声音嵌入以生...

【专利技术属性】
技术研发人员：高孜哲，莫轲文，
申请(专利权)人：声音猎手公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人