基于视觉上下文的远程会议实时语音识别优化方法和系统技术方案

技术编号:43882110 阅读:38 留言:0更新日期:2024-12-31 19:06
本发明专利技术提供一种基于视觉上下文的远程会议实时语音识别优化方法和系统,包括:根据所述投屏画面,采集视觉上下文信息;获取语音音频并输入到语音识别模型中,获得语音识别结果;利用所述上下文信息,对所述语音识别结果进行调整。本发明专利技术在传统远程会议语音实时识别功能的基础上,通过分析当前投屏画面的文字与图像内容信息,并将这些信息融入语音识别模型中,以实现对识别概率较低或存在歧义的单词进行优化。该方法能有效降低错误识别率,解决专业领域词汇识别难题,进而提高实时语音翻译功能的整体性能。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体地,涉及一种基于视觉上下文的远程会议实时语音识别优化方法、系统、终端及介质。


技术介绍

1、在当前的远程会议系统中(例如teams、腾讯会议、zoom等),已经集成了实时语音翻译功能。该功能依赖于语音识别模型,能够实时地将会议参与者的声音转换为文本信息,如图1所示。目前,技术发展主要依赖于各种语音识别算法模型,以提高识别的准确性。

2、然而,在远程会议的特定环境中,专业术语的使用以及说话者的口音差异等问题,往往会导致现有的语音识别模型准确度降低,从而影响识别效果。现有的实时语音翻译系统主要依赖于会议参与者的语音信号,而未能充分利用更多的上下文信息来辅助语音识别。相比之下,人类在进行语音翻译理解时,会结合丰富的环境信息和知识背景,以更好地辅助对说话者语音的理解。

3、目前,解决这一问题的主要策略是通过改进语音识别模型本身。特别是,通过使用大量数据(包括专业领域数据、不同口音和方言的数据等)来训练大型模型,以期解决上述问题。但是,数据的采集、模型的训练和推理过程成本高昂。


技术实现本文档来自技高网...

【技术保护点】

1.一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,包括:

2.根据权利要求1所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述根据所述投屏画面,采集视觉上下文信息,包括:

3.根据权利要求2所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述上下文信息库存储固定帧数的投屏画面的所有文字和语义信息。

4.根据权利要求2所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述利用所述上下文信息,对所述语音识别结果进行调整,包括:

5.根据权利要求2所述的一种基于视觉上下文...

【技术特征摘要】

1.一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,包括:

2.根据权利要求1所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述根据所述投屏画面,采集视觉上下文信息,包括:

3.根据权利要求2所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述上下文信息库存储固定帧数的投屏画面的所有文字和语义信息。

4.根据权利要求2所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述利用所述上下文信息,对所述语音识别结果进行调整,包括:

5.根据权利要求2所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述利用所述上下文信息,对所述语音识别结果进行调整,包括:

6.根据权利要求1所述...

【专利技术属性】
技术研发人员:盛兴东晏轶超杨小康
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1