一种建立用于语音识别的语言模型的方法及装置制造方法及图纸

技术编号：8883682 阅读：226 留言：0更新日期：2013-07-04 02:25

本发明专利技术提供了一种建立用于语音识别的语言模型的方法及装置，其中所述方法包括：A.将对用户的语音搜索查询进行识别的结果作为语音搜索语料进行语言模型训练，得到语音语言模型；以及，将用户的文本搜索查询作为文本搜索语料进行语言模型训练，得到文本语言模型；B.将所述语音语言模型与所述文本语言模型融合，得到识别语言模型。通过上述方式得到的识别语言模型，能够很好地反映用户语音输入时的用词偏好，将该识别语言模型应用于语音识别中可以提高语音识别的精度。

全部详细技术资料下载

【技术实现步骤摘要】
—种建立用于语音识别的语言模型的方法及装置
本专利技术涉及语音识别技术，特别涉及一种建立用于语音识别的语言模型的方法及装置。
技术介绍
搜索引擎大大改变了人们获取信息的方式，已经越来越成为人们生活中不可或缺的部分。近年来，随着语音识别技术的发展，语音搜索成了一种更为便捷的搜索方式。人们通过移动终端输入语音搜索请求，就可以从搜索引擎服务器得到满足自己需求的搜索结果O语音搜索依赖语音识别技术，只有正确对用户的语音输入进行识别，才能返回用户想要查找的信息。语音识别的效果取决于语音识别中使用的声学模型及语言模型。声学模型在语音识别中应用于语音到音节概率的计算，而语言模型在语音识别中应用于音节到字概率的计算。语言模型是描述词语概率分布的模型，一个能可靠反映用户语音搜索时用词的概率分布的语言模型，是语音搜索系统取得可靠结果的关键。由于语言模型中词语的概率分布取决于训练该语言模型时使用的语料，因此，获取与用户语音搜索时用词习惯一致的训练语料非常重要。在现有技术中，通常采用两种方法获取训练语料，第一种是人工标注用户在语音搜索时的查询请求并将标注后的查询请求作为训练语料，这种方式的缺点是成本很高，也很难获取到足够数量的语料，另一种方式是直接将用户以文字输入的查询请求作为训练语料，这种方式的缺点是由于用户使用语音输入方式发出搜索请求时的用词与使用文字输入方式发出搜索请求时的用词相比存在差异，这种方式得到的语言模型，很难反映用户使用语音搜索时用词的偏好，将这样的语言模型应用于语音识别中，就会降低语音识别的精度。
技术实现思路
本专利技术所要解决的技术问题是提供一种建立用于语音识别的...

【技术保护点】
一种建立用于语音识别的语言模型的方法，其特征在于，该方法包括：A.将对用户的语音搜索查询进行识别的结果作为语音搜索语料进行语言模型训练，得到语音语言模型；以及，将用户的文本搜索查询作为文本搜索语料进行语言模型训练，得到文本语言模型；B.将所述语音语言模型与所述文本语言模型融合，得到识别语言模型。

【技术特征摘要】

【专利技术属性】
技术研发人员：万广鲁，贾磊，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人