实时语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号：20122420 阅读：25 留言：0更新日期：2019-01-16 12:52

本发明专利技术实施例公开了一种实时语音识别方法。该方法包括：对接收的音频数据进行实时分词识别，得到当前分词的至少一个基础候选词；采用至少两个语言模型对每个基础候选词在至少一个识别路径下进行打分；根据各语言模型对每个基础候选词的打分结果，得到当前分词在至少一个识别路径下的标准候选词，以及与标准候选词对应的综合得分；根据与音频数据中的各分词对应的标准候选词以及综合得分，确定与音频数据对应的语音识别结果。本发明专利技术实施例提供的技术方案，解决了现有技术中采用两遍解码的方式进行语音识别，识别速度慢和识别准确率不高的问题，提高了语音识别的速度和准确率。

Real-time speech recognition methods, devices, devices and storage media

The embodiment of the present invention discloses a real-time speech recognition method. The method includes: real-time segmentation of received audio data to obtain at least one basic candidate word for current segmentation; scoring each basic candidate word under at least one recognition path using at least two language models; scoring results of each basic candidate word according to each language model to obtain standard candidate words under at least one recognition path for current segmentation. According to the standard candidate words and the comprehensive score corresponding to each word in the audio data, the speech recognition results corresponding to the audio data are determined. The technical scheme provided by the embodiment of the present invention solves the problems of slow recognition speed and low recognition accuracy in speech recognition using two-pass decoding in the prior art, and improves the speed and accuracy of speech recognition.

全部详细技术资料下载

【技术实现步骤摘要】
实时语音识别方法、装置、设备及存储介质
本专利技术实施例涉及多媒体
，特别是涉及一种实时语音识别方法、装置、设备及存储介质。
技术介绍
随着技术的发展，音频数据的使用日益频繁，为了从音频数据中获取到有用的信息，需要利用语音识别技术对音频数据进行识别，将音频数据转换为文字信息。语言模型是语音识别系统中非常重要的一个模块，对音频数据最终的识别准确率有着很重要的影响。为了提高识别准确率，需要训练大规模的语言模型，但是，目前主流的语音识别技术解码图的方法不能直接利用较大规模的语言模型。为了在语音识别系统中使用大规模的语言模型，通常会用到语言模型重打分技术。现有技术中，语言模型重打分技术需要对音频数据进行两遍解码，第一遍解码生成候选句子列表，第二遍解码利用大规模语言模型对候选句子列表重新打分，选出新的最佳路径，作为最终的识别结果。现有技术中采用两遍解码的方式进行语音识别，会影响语音识别的实时率，语音识别速度变慢，同时，语音识别的中间结果不能利用大规模语言模型的信息，使得识别准确率较低。
技术实现思路
有鉴于此，本专利技术实施例提供了一种实时语音识别方法、装置、设备及存储介质，主要目的在于解决现有语音识别技术中采用两遍解码带来的识别速度慢、识别准确率较低的问题。为了解决上述问题，本专利技术实施例主要提供如下技术方案：第一方面，本专利技术实施例提供了一种实时语音识别方法，该方法包括：对接收的音频数据进行实时分词识别，得到当前分词的至少一个基础候选词；采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分；根据各所述语言模型对每个所述基础候选词的打分结果，...

【技术保护点】
1.一种实时语音识别方法，其特征在于，包括：对接收的音频数据进行实时分词识别，得到当前分词的至少一个基础候选词；采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分；根据各所述语言模型对每个所述基础候选词的打分结果，得到所述当前分词在至少一个识别路径下的标准候选词，以及与所述标准候选词对应的综合得分；根据与所述音频数据中的各分词对应的标准候选词以及综合得分，确定与所述音频数据对应的语音识别结果。

【技术特征摘要】
1.一种实时语音识别方法，其特征在于，包括：对接收的音频数据进行实时分词识别，得到当前分词的至少一个基础候选词；采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分；根据各所述语言模型对每个所述基础候选词的打分结果，得到所述当前分词在至少一个识别路径下的标准候选词，以及与所述标准候选词对应的综合得分；根据与所述音频数据中的各分词对应的标准候选词以及综合得分，确定与所述音频数据对应的语音识别结果。2.根据权利要求1所述的方法，其特征在于，采用语言模型对所述基础候选词在至少一个识别路径下进行打分，包括：判断所述当前分词是否为所述音频数据中的首个分词；若是，则将所述基础候选词的识别路径设置为空，并采用所述语言模型，对所述基础候选词进行打分；若否，则获取所述当前分词的相邻历史处理分词，并获取所述相邻历史处理分词的全部历史标准候选词；将各所述历史标准候选词加入至对应的历史识别路径中，作为所述基础候选词的识别路径，并采用所述语言模型分别计算在各所述识别路径下所述基础候选词的条件概率，作为所述基础候选词在至少一个识别路径下的打分结果。3.根据权利要求2所述的方法，其特征在于，根据各所述语言模型对所述基础候选词的打分结果，得到所述当前分词在至少一个识别路径下的标准候选词，以及与所述标准候选词对应的综合得分，包括：分别获取各所述语言模型对目标基础候选词在目标识别路径下的多个打分结果进行插值计算，得到所述目标基础候选词在目标识别路径下的综合得分；在每个基础候选词在至少一个识别路径下的综合得分中，根据得分值的大小，获取设定数量的综合得分对应的识别路径下的基础候选词作为当前分词在至少一个识别路径下的标准候选词。4.根据权利要求1所述的方法，其特征在于，根据与所述音频数据中的各分词对应的标准候选词以及综合得分，确定与所述音频数据对应的语音识别结果，包括：根据所述音频数据的末位分词在至少一个识别路径下的标准候选词，构造多个可选识别路径；根据与所述音频数据中的各分词对应的标准候选词，计算各所述可选识别路径对应的路径得分；将路径得分最高一个可选识别路径中包括的各个标准候选词的组合，确定与为所述音频数据对应的语音识别结果。5.根据权利要求1-4任一项所述的方法，其特征在于，所述语言模型包括：第一语言模型以及第二语言模...

【专利技术属性】
技术研发人员：邹明，
申请(专利权)人：北京羽扇智信息科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人