【技术实现步骤摘要】
本专利技术涉及人工智能,具体地,涉及一种基于视觉上下文的远程会议实时语音识别优化方法、系统、终端及介质。
技术介绍
1、在当前的远程会议系统中(例如teams、腾讯会议、zoom等),已经集成了实时语音翻译功能。该功能依赖于语音识别模型,能够实时地将会议参与者的声音转换为文本信息,如图1所示。目前,技术发展主要依赖于各种语音识别算法模型,以提高识别的准确性。
2、然而,在远程会议的特定环境中,专业术语的使用以及说话者的口音差异等问题,往往会导致现有的语音识别模型准确度降低,从而影响识别效果。现有的实时语音翻译系统主要依赖于会议参与者的语音信号,而未能充分利用更多的上下文信息来辅助语音识别。相比之下,人类在进行语音翻译理解时,会结合丰富的环境信息和知识背景,以更好地辅助对说话者语音的理解。
3、目前,解决这一问题的主要策略是通过改进语音识别模型本身。特别是,通过使用大量数据(包括专业领域数据、不同口音和方言的数据等)来训练大型模型,以期解决上述问题。但是,数据的采集、模型的训练和推理过程成本高昂。
【技术保护点】
1.一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,包括:
2.根据权利要求1所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述根据所述投屏画面,采集视觉上下文信息,包括:
3.根据权利要求2所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述上下文信息库存储固定帧数的投屏画面的所有文字和语义信息。
4.根据权利要求2所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述利用所述上下文信息,对所述语音识别结果进行调整,包括:
5.根据权利要求2所述
...【技术特征摘要】
1.一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,包括:
2.根据权利要求1所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述根据所述投屏画面,采集视觉上下文信息,包括:
3.根据权利要求2所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述上下文信息库存储固定帧数的投屏画面的所有文字和语义信息。
4.根据权利要求2所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述利用所述上下文信息,对所述语音识别结果进行调整,包括:
5.根据权利要求2所述的一种基于视觉上下文的远程会议实时语音识别优化方法,其特征在于,所述利用所述上下文信息,对所述语音识别结果进行调整,包括:
6.根据权利要求1所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。