一种基于主题模型及词聚类的语言模型重算分方法技术

技术编号:33460904 阅读:27 留言:0更新日期:2022-05-19 00:41
本发明专利技术公开了一种基于主题模型及词聚类的语言模型重算分方法,包括:对语音语料进行语音识别,得到识别文本。识别文本包括多条识别语句,将每条识别语句对应的N个候选语句依次输入声学文字计算系统,得到每个候选语句的声学分数和文字分数。计算每个候选语句的声学分数和文字分数之和,得到基础分数。判断每个候选语句的每个词汇是否为最终词汇表中的词汇,若是,记录为惩罚词汇。基于惩罚词汇的数量设定每个候选语句的惩罚值。计算每个候选语句的基础分数与惩罚值之差,得到整体分数。输出每条识别语句对应的N个候选语句中整体分数最低的候选语句。本发明专利技术可以改善语音识别可能文本偏离主题或识别效果不佳的状况,进而提升语音识别的能力。音识别的能力。音识别的能力。

【技术实现步骤摘要】
一种基于主题模型及词聚类的语言模型重算分方法


[0001]本专利技术涉及自然语言处理
,尤其是一种基于主题模型及词聚类的语言模型重算分方法。

技术介绍

[0002]语言模型的目的是描述某一种语言的词序列的机率分布,也就是判断一句话符合自然语言的表达习惯的可能性。目前语言模型主要用于语音识别、分词、情感分析、机器翻译等领域,当前语音识别的模型可分为两阶段或端到端两种训练方式,其中两阶段可拆分为声学模型和语言模型单独训练,此方法无法全局考虑声音与文字的关系,导致语音识别结果不佳。

技术实现思路

[0003]针对现有技术中的缺陷,本专利技术提供了一种基于主题模型及词聚类的语言模型重算分方法,同时考虑声音和文字的关系,提高了语音识别结果。
[0004]本专利技术提供了一种基于主题模型及词聚类的语言模型重算分方法,包括以下步骤:获取语音语料,对所述语音语料进行语音识别,得到识别文本;所述识别文本包括多条识别语句;
[0005]将所述多条识别语句输入训练好的主题模型进行主题预测,得到候选主题;/>[0006]查询本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于主题模型及词聚类的语言模型重算分方法,其特征在于,包括以下步骤:获取语音语料,对所述语音语料进行语音识别,得到识别文本;所述识别文本包括多条识别语句;将所述多条识别语句输入训练好的主题模型进行主题预测,得到候选主题;查询训练好的词聚类表,得到每条识别语句中每个词汇的类别;筛选每个词汇在词聚类表所属的类别中的若干个相似词汇作为候选词汇,并将所述候选词汇记录在候选词汇表中;判断所述候选词汇表中的每个候选词汇是否为候选主题下的词汇,若是,判定为最终词汇,并记录到最终词汇表中;所述识别文本还包括每条识别语句对应的多个词汇组合及多个词汇组合组成的N个候选语句;将每条识别语句对应的N个候选语句依次输入声学文字计算系统,得到每个候选语句的声学分数和文字分数;计算每个候选语句的声学分数和文字分数之和,得到基础分数;判断每个候选语句的每个词汇是否为所述最终词汇表中的词汇,若是,记录为惩罚词汇;基于惩罚词汇的数量设定每个候选语句的惩罚值;计算每个候选语句的基础分数与惩罚值之差,得到整体分数;输出每条识别语句对应的N个候选语句中整体分数最低的候选语句。2.根据权利要求1所述的一种基于主题模型及词聚类的语言模型重算分方法,其特征在于,将所述多条识别语句输入训练好的主题模型进行主题预测,得到候选主题具体包括:将所述多条识别语句的每条识别语句输入训练好的主题模型进行主题预测,得到每条识别语句的主题;设定所述多条识别语句中的每L条识别语句为一个单位,统计每个单位中出现次数最多的主题并设为单位主题;所述候选主题包括每个单位的单位主题。3.根据权利要求2所述的一种基于主题模型及词聚类的语言模型重算分方法,其特征在于,所述判断所述候选词汇表中的每个候选词汇是否为候选主...

【专利技术属性】
技术研发人员:简仁贤黄怀鋐林长洲
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1