语音识别方法和装置制造方法及图纸

技术编号：19553903 阅读：31 留言：0更新日期：2018-11-24 22:27

本申请实施例公开了语音识别方法和装置。该方法的一具体实施方式包括：获取语音，将该语音输入预先训练的声学模型，基于该声学模型的输出，得到语音识别结果；以及该声学模型的构建步骤包括：确定预设的语料库中语音的标注文本的发音单元，得到该标注文本的发音单元序列；对该发音单元序列中的至少两个相邻的发音单元进行组合，生成包含组合的语音的标注序列；基于各个语音的标注序列，训练得到该声学模型。本申请实施例能够增强声学模型对包括不同语言的语音的识别能力，提高声学模型的准确性。

Speech Recognition Method and Device

The embodiment of this application discloses a speech recognition method and device. One specific implementation of the method includes: acquiring speech, inputting the speech into a pre-trained acoustic model, and obtaining speech recognition results based on the output of the acoustic model; and the construction steps of the acoustic model include: determining the pronunciation unit of the annotated text of the speech in the preset corpus, and obtaining the annotated text. Pronunciation unit sequence; at least two adjacent pronunciation units in the pronunciation unit sequence are combined to generate the tagging sequence containing the combined speech; based on the tagging sequence of each speech, the acoustic model is trained. The embodiment of the application can enhance the recognition ability of the acoustic model for speech including different languages and improve the accuracy of the acoustic model.

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法和装置
本申请实施例涉及计算机
，具体涉及互联网
，尤其涉及语音识别方法和装置。
技术介绍
在日常的语言表达中，中英文混合使用的表达方式逐渐被越来越多的人所接受。在进行以中文为主的表达时，英文词句可以被自然而然地穿插使用。常见的在中文语境下混合英文的表达方式有以下两种，一种是插入另一种语言的整句话。比如，在使用中文进行交谈时，说出“Oh,myGod！”。另一种是在中文语句中插入英文词汇或短语，比如“我的电脑有三个USB接口”和“来一首Yesterdayoncemore”。现有技术中，可以采用包含有不同语言的建模单元的声学模型，以及解码器进行识别。
技术实现思路
本申请实施例提出了语音识别方法和装置。第一方面，本申请实施例提供了一种语音识别方法，包括：获取语音，将语音输入预先训练的声学模型，基于声学模型的输出，得到语音识别结果；声学模型的构建步骤包括：确定预设的语料库中语音的标注文本的发音单元，得到标注文本的发音单元序列，其中，语料库中包括至少两种语言的语音和各个语音的标注文本；对发音单元序列中的至少两个相邻的发音单元进行组合，生成包含组合的语音...

【技术保护点】
1.一种语音识别方法，包括：获取语音，将所述语音输入预先训练的声学模型，基于所述声学模型的输出，得到语音识别结果；所述声学模型的构建步骤包括：确定预设的语料库中语音的标注文本的发音单元，得到所述标注文本的发音单元序列，其中，所述语料库中包括所述至少两种语言的语音和各个语音的标注文本；对所述发音单元序列中的至少两个相邻的发音单元进行组合，生成包含组合的语音的标注序列；基于各个语音的标注序列，训练得到所述声学模型。

【技术特征摘要】
1.一种语音识别方法，包括：获取语音，将所述语音输入预先训练的声学模型，基于所述声学模型的输出，得到语音识别结果；所述声学模型的构建步骤包括：确定预设的语料库中语音的标注文本的发音单元，得到所述标注文本的发音单元序列，其中，所述语料库中包括所述至少两种语言的语音和各个语音的标注文本；对所述发音单元序列中的至少两个相邻的发音单元进行组合，生成包含组合的语音的标注序列；基于各个语音的标注序列，训练得到所述声学模型。2.根据权利要求1所述的方法，其中，所述对所述发音单元序列中的至少两个相邻的发音单元进行组合，生成包含组合的发音单元序列，包括：将发音单元序列中协同发音的至少两个相邻的发音单元确定为协同发音组合，基于所述协同发音组合，生成包含协同发音组合的标注序列。3.根据权利要求1或2所述的方法，其中，所述对所述发音单元序列中的至少两个相邻的发音单元进行组合，生成包含组合的发音单元序列，包括：确定相邻的发音单元的历史共同出现次数，基于所述历史共同出现次数，确定所述至少两种语言的高频发音单元组合；基于所述高频发音单元组合，生成包含所述高频发音单元组合的标注序列。4.根据权利要求3所述的方法，其中，所述确定相邻的发音单元的历史共同出现次数，基于所述历史共同出现次数，确定所述至少两种语言的高频发音单元组合，包括：确定在所述语料库的语音中，同种语言的相邻的发音单元的历史共同出现次数，基于所述历史共同出现次数，确定所述至少两种语言中的每种语言的高频发音单元组合。5.根据权利要求1所述的方法，其中，在所述基于各个语音的标注序列，训练得到所述声学模型之后，所述声学模型的构建步骤还包括：执行如下发音标识修改步骤：对于标注文本中的词语，对该词语的多个发音标识中的发音标识进行添加和/或删除，得到修改后的发音标识的语音；利用修改后的发音标识的语音，训练所述声学模型。6.根据权利要求5所述的方法，其中，所述对于标注文本中的词语，对该词语的多个发音标识进行添加和/或删除，包括：对于标注文本中的词语，在该词语的多个发音标识中，确定在训练过程中，在该词语的发音标识中缺少与该词语的其中一个发音标识发音相近的另一种语言的目标发音标识，在该词语的发音标识中添加目标发音标识。7.根据权利要求5所述的方法，其中，所述对于标注文本中的词语，对该词语的多个发音标识进行添加和/或删除，包括：对于标注文本中的词语，在该词语的多个发音标识中，确定训练过程中使用次数小于预设阈值的发音标识为待删除标识；将所述待删除标识从该词语的发音标识中删除。8.根据权利要求1所述的方法，其中，所述声学模型的构建步骤还包括：在训练的过程的指定训练次数内，如果使用次数小于预设阈值的发音标识的数量大于预设数量，生成并输出提示信息。9.根据权利要求3所述的方法，其中，所述声学模型的构建步骤还包括：确定各个标注序列中的发音单元、高频发音单元组合的发音标识，其中，不同的发音标识对应不同的发音；基于所确定的发音标识，生成各个标注序列的发音标识序列。10.根据权利要求9所述的方法，其中，所述基于各个语音的标注序列，训练得到所述声学模型，包括：将所述语音和语音对应的标注文本作为输入，将该标注文本对应的标注序列和发音标识序列作为输出，进行模型训练。11.一种语音识别装置，包括：获取单元，被配置成获取语音，将所述语音输入预先训练的声学模型，基于...

【专利技术属性】
技术研发人员：白锦峰，陈智鹏，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人