【技术实现步骤摘要】
热词识别方法、装置、计算机设备及存储介质
[0001]本申请涉及互联网
,尤其涉及一种热词识别方法、装置、计算机设备及存储介质。
技术介绍
[0002]随着人工智能的发展,自动语音识别技术也在不断提高,人们只需要上传音频就可以方便快捷地将其中的内容转换成文字形式,或是在谈话间就能直接将语音转换为文本,在很大程度上提高了工作效率,而现有的这些简单语音识别技术并不能满足人们不断提高的工作与学习需求。
[0003]对于现有技术来说至少存在如下问题:目前通用的自动语音识别技术只能识别一些常规的内容,若是待识别内容中存在一些专业领域的热词、术语或是人名,运用语音识别技术得出的识别结果的正确率会大大降低,而现有技术为了纠正对于专有名词的语音识别结果,提高专有名词的识别准确率,往往需要耗费大量人力收集专有名词语料来对语音识别模型进行训练,而在一定程度上,人力收集专有名词训练语料也难以做到对专业领域热词通用性,且语音识别模型的识别结果准确性低。因此,如何提高语音识别模型中对热词的识别准确性成为亟待解决的技术问题。
专利 ...
【技术保护点】
【技术特征摘要】
1.一种热词识别方法,其特征在于,所述热词识别方法包括:通过预设热词偏置模块,将待识别热词转化成待识别嵌入特征向量,计算热词嵌入形成的所述特征向量与目标音频片段对应的目标特征向量的契合度;基于预设自适应语言模型,调整所述待识别热词在自适应语言模型中的偏误权重,以提高所述待识别热词的识别率;基于所述识别率与所述契合度,识别所述待识别热词。2.根据权利要求1所述的热词识别方法,其特征在于,所述基于预设自适应语言模型,调整所述待识别热词在自适应语言模型中的偏误权重,以提高所述待识别热词的识别率之前,包括:通过通用文本和热词训练文本组合,生成所述预设自适应语言模型。3.根据权利要求2所述的热词识别方法,其特征在于,所述基于预设自适应语言模型,调整所述待识别热词在自适应语言模型中的偏误权重,以提高所述待识别热词的识别率,包括:将包含所述待识别热词的音频文件进行解码后,通过所述预设自适应语言模型,并基于待识别热词对应的精确率和召回率,调整所述待识别热词在自适应语言模型中的偏误权重;基于调整后的所述待识别热词在自适应语言模型中的偏误权重,提高所述待识别热词的识别率。4.根据权利要求3所述的热词识别方法,其特征在于,所述将包含所述待识别热词的音频文件进行解码后,通过所述预设自适应语言模型,并基于待识别热词对应的精确率和召回率,调整所述待识别热词在自适应语言模型中的偏误权重,包括:通过下列公式,确定所述待识别热词在自适应语言模型中的偏误权重:通过下列公式,确定所述待识别热词在自适应语言模型中的偏误权重:其中,lr
i
为所述预设自适应语言模型对应的迭代学习率,η为每次迭代学习的学习率对应的衰减率,ω
k,i
为所述待识别热词在自适应语言模型中的偏误权重,sgn为预设符号函数,α
k
精确率为待识别热词在识别结果的精确度,β
k
为待识别热词在识别结果的召回率,δ为预设权重步长,i为迭代学习的迭代次数。5.根据权利要求1所述的热词识别方法,其特征在于,所述热词偏置模块包括单词嵌入单元和上下文注意力单...
【专利技术属性】
技术研发人员:康世胤,吴志勇,徐耀勋,刘柏基,黄翘楚,宋星辰,
申请(专利权)人:清华大学深圳国际研究生院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。