一种语音识别纠错方法及相关设备技术

技术编号:44812400 阅读:21 留言:0更新日期:2025-03-28 19:58
本申请公开了一种语音识别纠错方法、装置、服务器、计算机可读存储介质以及计算机程序产品。该方法将大语言模型应用到语音识别纠错任务中,直接将声学模型生成帧级别的音素概率分布全部输入到经过预训练的大语言模型中,尽可能多的保留了有用信息,大语言模型根据前后帧的全局信息进行语音识别纠正,根据全局信息进行语音识别纠正,对于上下文理解更全面,在纠错任务中能够检测到更复杂的语法错误、逻辑错误和事实错误,从而提供了更全面、一致和连贯的结果。

【技术实现步骤摘要】

本公开一般涉及语音识别,具体涉及一种语音识别纠错方法、装置、服务器、计算机可读存储介质以及计算机程序产品。


技术介绍

1、语音识别是将语音转为文字的技术,目前语音识别技术在智能手机、智能音箱和智能电视等设备上得到了广泛的应用。语音识别一般可以设置输出多个候选结果,候选结果会有语音识别系统的打分,打分越高表示候选项可能性越高。正常来说大部分得分最高的候选项就是正确的结果,但是还是有许多的正确结果不是得分最高的候选项。如何将语音识别的结果进行修复得到更好的识别率,就是语音识别纠错任务。

2、常见的语音识别纠错方法包括基于语言模型重打分的方法、基于attention-based decoder重打分的方法、基于nbest建模的语音识别纠错方法、基于chatllm的语音识别纠错方法等,但是由于数据量和模型建模能力的限制,导致这些方法鲁棒性较差,容易出现过拟合,在实际应用中性能一般,无法针对丰富的语料环境实现精准识别。


技术实现思路

1、鉴于现有技术中的上述缺陷或不足,期望提供一种语音识别纠错方法、装置、服本文档来自技高网...

【技术保护点】

1.一种语音识别纠错方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,在将所述音素概率分布映射至大语言模型的输入长度之前,还包括:

3.如权利要求2所述的方法,其特征在于,识别所述帧级别的音素概率分布中未包含有用信息的冗余帧,包括:

4.如权利要求3所述的方法,其特征在于,识别所述帧级别的音素概率分布中的空白帧,包括:

5.如权利要求3所述的方法,其特征在于,在丢弃所述空白帧之前,还包括:

6.如权利要求1至5任一项所述的方法,其特征在于,还包括:

7.一种语音识别纠错装置,其特征在于,包括:

...

【技术特征摘要】

1.一种语音识别纠错方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,在将所述音素概率分布映射至大语言模型的输入长度之前,还包括:

3.如权利要求2所述的方法,其特征在于,识别所述帧级别的音素概率分布中未包含有用信息的冗余帧,包括:

4.如权利要求3所述的方法,其特征在于,识别所述帧级别的音素概率分布中的空白帧,包括:

5.如权利要求3所述的方法,其特征在于,在丢弃所述空白帧之前,还包括:

6.如权利要求1至5任一项所述的方法,其特征在于,还...

【专利技术属性】
技术研发人员:单长浩孙思宁杨青
申请(专利权)人:度小满科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1