System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音识别方法、装置、相关设备及计算机程序产品制造方法及图纸_技高网

语音识别方法、装置、相关设备及计算机程序产品制造方法及图纸

技术编号:41255398 阅读:2 留言:0更新日期:2024-05-11 09:15
本申请公开了一种语音识别方法、装置、相关设备及计算机程序产品,在对目标场景下的待识别语音进行识别时,获取了该目标场景下与待识别语音对应的初始参考信息,示例如对于会议录音识别场景可以获取会议主题信息等作为初始参考信息。进一步,考虑到初始参考信息可能不够丰富,本申请进一步借助了人工智能大模型强大的自然语言理解及文本生成能力,指示大模型基于该初始参考信息扩展生成目标场景下所可能产生的音频转写文本,仍以会议录音识别场景为例,可以调用大模型,让大模型基于会议主题信息,生成本次会议可能产生的会议内容,作为扩展文本,以扩展文本辅助对待识别语音进行语音识别,提升语音识别的准确率。

【技术实现步骤摘要】

本申请涉及语音识别,更具体的说,是涉及一种语音识别方法、装置、相关设备及计算机程序产品


技术介绍

1、语音识别即将语音转写为文本的过程。近年来,随着语音识别技术的成熟,已成功应用于各行各业中,尤其是针对特定领域的语音识别技术,如针对会议录音数据进行语音识别、针对教学课堂的录音数据进行语音识别等。通过将会议录音、教学录音等转换为文本内容,大大方便了参会人回顾会议内容,以及学生的课后学习。

2、为了提升语音识别的准确率,部分方案尝试将录音相关的材料作为参考信息,辅助进行语音识别的过程。示例如,将会议主题信息作为参考信息,辅助进行语音识别,对于会议主题信息所包含的一些关键词,能够提升语音识别的准确率。

3、但是,一些实际场景下可供参考的信息较少,如会议录音识别场景,仅有会议主题信息,而参会人发言过程可能会针对该主题发散进行讨论,这些录音内容远远超出了会议主题信息所包含的内容,导致语音识别的准确率仍有待提升。


技术实现思路

1、鉴于上述问题,提出了本申请以便提供一种语音识别方法、装置、相关设备及计算机程序产品,以进一步提升语音识别准确率。具体方案如下:

2、第一方面,提供了一种语音识别方法,包括:

3、获取目标场景下的待识别语音,及所述目标场景下与所述待识别语音对应的初始参考信息;

4、调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本,作为模型生成的扩展文本;

5、以所述扩展文本,或者所述扩展文本和所述初始参考信息作为目标参考信息,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识别结果。

6、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本的过程,包括:

7、获取提示指令prompt格式模板,所述prompt格式模板包括任务指令及参考信息槽,所述任务指令用于指示人工智能大模型基于所述参考信息槽内的初始参考信息,扩展生成所述目标场景下所可能产生的音频转写文本;

8、将所述初始参考信息填充到所述参考信息槽,得到第一提示指令prompt;

9、将所述第一提示指令prompt输入至所述人工智能大模型,得到模型生成的音频转写文本。

10、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,所述待识别语音为在线语音识别过程中实时获取的待识别音频流;

11、对应的,与所述待识别语音对应的初始参考信息包括当前时刻之前已经识别出的语音转写文本;

12、所述任务指令具体用于:指示人工智能大模型基于所述参考信息槽内的初始参考信息,扩展生成所述目标场景下当前时刻之后未来一段时间内所可能产生的音频转写文本。

13、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,所述目标场景为会议录音识别场景,与所述待识别语音对应的初始参考信息包括以下至少一项或多项:

14、会议相关资料信息、会议主题、会议所属领域关键词、会议时长、会议发言人描述信息、会议发言人个数、已进行会议的录音转写文本;

15、对应的,调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本的过程,包括:

16、调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成本次会议可能产生的会议内容。

17、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,所述目标场景为课堂教学录音识别场景,与所述待识别语音对应的初始参考信息包括以下至少一项或多项:

18、教学相关资料信息、教学科目、教学大纲、教学时长、教师描述信息、已进行教学的录音转写文本;

19、对应的,调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本的过程,包括:

20、调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成本次课堂教学过程可能产生的教学内容。

21、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识别结果的过程,包括:

22、从所述目标参考信息中提取关键词组成关键词列表;

23、使用语音识别模型对所述待识别语音进行识别,并在识别过程中对所述关键词列表中的关键词进行正向激励,以得到语音识别结果。

24、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识别结果的过程,包括:

25、使用语音识别模型对所述待识别语音进行识别,得到初步语音识别结果;

26、利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果。

27、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果的过程,包括:

28、从所述目标参考信息中提取关键词组成关键词列表;

29、遍历所述初步语音识别结果中的各个词,并将当前遍历的词与所述关键词列表中各关键词进行字形和/或字音的匹配,若找到与当前遍历的词相匹配的目标关键词,则利用所述目标关键词替换所述当前遍历的词,得到修正后的语音识别结果。

30、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果的过程,包括:

31、将所述初步语音识别结果按照发言人角色进行分类,得到所述初步语音识别结果中每个句子对应的角色;

32、将所述目标参考信息按照发言人角色进行分类,得到每个角色对应的预发言语料库;

33、对于所述初步语音识别结果中每个句子:

34、在与所述句子对应的角色的预发言语料库中查找语义相似度超过设定相似度阈值的目标语料,遍历所述句子中各个词,将当前遍历的词与所述目标语料中各词进行字形和/或字音的匹配,若找到与当前遍历的词相匹配的目标词,则利用所述目标词替换所述当前遍历的词,得到修正后的语音识别结果。

35、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果的过程,包括:

36、调用所述人工智能大模型,以指示所述人工智能大模型基于所述目标参考信息对所述初步语音识别结果进行修正,得到模型输出的修正后的语音识别结果本文档来自技高网...

【技术保护点】

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本的过程,包括:

3.根据权利要求2所述的方法,其特征在于,所述待识别语音为在线语音识别过程中实时获取的待识别音频流;

4.根据权利要求1所述的方法,其特征在于,所述目标场景为会议录音识别场景,与所述待识别语音对应的初始参考信息包括以下至少一项或多项:

5.根据权利要求1所述的方法,其特征在于,所述目标场景为课堂教学录音识别场景,与所述待识别语音对应的初始参考信息包括以下至少一项或多项:

6.根据权利要求1-5任一项所述的方法,其特征在于,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识别结果的过程,包括:

7.根据权利要求1-5任一项所述的方法,其特征在于,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识别结果的过程,包括:

8.根据权利要求7所述的方法,其特征在于,利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果的过程,包括:

9.根据权利要求7所述的方法,其特征在于,利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果的过程,包括:

10.根据权利要求7所述的方法,其特征在于,利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果的过程,包括:

11.一种语音识别装置,其特征在于,包括:

12.一种语音识别设备,其特征在于,包括:存储器和处理器;

13.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~10中任一项所述的语音识别方法的各个步骤。

14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~10中任一项所述的语音识别方法的各个步骤。

...

【技术特征摘要】

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本的过程,包括:

3.根据权利要求2所述的方法,其特征在于,所述待识别语音为在线语音识别过程中实时获取的待识别音频流;

4.根据权利要求1所述的方法,其特征在于,所述目标场景为会议录音识别场景,与所述待识别语音对应的初始参考信息包括以下至少一项或多项:

5.根据权利要求1所述的方法,其特征在于,所述目标场景为课堂教学录音识别场景,与所述待识别语音对应的初始参考信息包括以下至少一项或多项:

6.根据权利要求1-5任一项所述的方法,其特征在于,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识别结果的过程,包括:

7.根据权利要求1-5任一项所述的方法,其特征在于,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识...

【专利技术属性】
技术研发人员:孔常青胡莹莹熊世富高建清潘嘉刘聪王士进胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1