重打分语言模型的打分方法及语音识别方法技术

技术编号：28298114 阅读：32 留言：0更新日期：2021-04-30 16:24

本发明专利技术公开一种重打分语言模型的打分方法，包括：预先训练基于类的语言模型作为重打分语言模型；确定待打分OOV词的分类；根据预设分类词表和词频信息确定待打分OOV词的参数信息；将参数信息输入至所述重打分语言模型；根据所述参数信息和所述重打分语言模型的输出确定所述待打分OOV词的概率。本发明专利技术预先训练得到了重打分语言模型，通过根据预设分类词表和词频信息确定待打分OOV词的参数信息并输入至训练好的重打分语言模型的方式确定待打分OOV词的概率，在无需利用特殊的UNK标记取代OOV词的情况下实现了重打分，彻底解决了词表不匹配的问题，能够提升语音识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
重打分语言模型的打分方法及语音识别方法
本专利技术涉及语音识别
，尤其涉及一种重打分语言模型的打分方法及语音识别方法。
技术介绍
自动语音识别技术(AutomaticSpeechRecognition，ASR)是一种将人的语音转换为文本的技术。主流的ASR系统一般包含第一路语言模型和第二路语言模型，其中第一路语言模型通常来说是基于N-gram的统计语言模型，而第二路语言模型通常采用神经网络语言模型。识别的过程一般是：第一路语言模型首先解码出最佳的N个句子，然后把这些句子交给第二路语言模型进行重打分。因为第二路路语言模型会修正第一路语言模型的打分，使总体的打分更加准确，以此提升ASR系统的识别准确性。一般来说，第二路语言模型的训练语料和第一路语言模型不同，这就导致两者的词表存在差异，也就是词表不匹配问题。词表的不匹配会使得第一路语言模型的输出中包含了第二路语言模型词表之外的词(out-of-vocabulary，OOV词)。但是为包含OOV词的句子打分一直是各种语言模型的短板。一般来说，训练语言模型时会用...

【技术保护点】
1.一种重打分语言模型的打分方法，包括：/n预先训练基于类的语言模型作为重打分语言模型；/n确定待打分OOV词的分类；/n根据预设分类词表和词频信息确定待打分OOV词的参数信息；/n将参数信息输入至所述重打分语言模型；/n根据所述参数信息和所述重打分语言模型的输出确定所述待打分OOV词的概率。/n

【技术特征摘要】
1.一种重打分语言模型的打分方法，包括：
预先训练基于类的语言模型作为重打分语言模型；
确定待打分OOV词的分类；
根据预设分类词表和词频信息确定待打分OOV词的参数信息；
将参数信息输入至所述重打分语言模型；
根据所述参数信息和所述重打分语言模型的输出确定所述待打分OOV词的概率。

2.根据权利要求1所述的方法，其特征在于，所述预先训练基于类的语言模型作为重打分语言模型包括：
从训练语料集中提取词表；
对所述词表进行分类处理得到分类词表；
基于所述训练语料集和所述分类词表训练重打分语言模型。

3.根据权利要求2所述的方法，其特征在于，所述对所述词表进行分类处理得到分类词表包括：
使用同义词知识库对所述词表中的词进行分类得到分类词表。

4.根据权利要求2所述的方法，其特征在于，所述对所述词表进行分类处理得到分类词表包括：
基于所述第一训练语料集采用word2vec训练语料训练词向量；
根据训练得到的词向量对所述词表中的词进行分类得到分类词表。

5.根据权利要求4所述的方法，其特征在于，根据训练得到的词向量对所述词表中的词进行分类得到分类词表包括：采用k-means聚类算法根据训练得到的词向量对所述词表中的词进行分类得到分类词表。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述根据预设分类词表和词频信息确定待打分OOV词的参数信息包...

【专利技术属性】
技术研发人员：俞凯，戴凌锋，刘奇，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人