基于大语言模型的语音交互方法及相关装置制造方法及图纸

技术编号：45433664 阅读：10 留言：0更新日期：2025-06-04 19:14

本公开提供了基于大语言模型的语音交互方法及相关装置，涉及语音识别、音频处理、计算机视觉、大语言模型等人工智能技术领域。该方法包括：基于物理环境中采集到的实时音频流，确定物理环境中所包括的用户以及用户在物理环境中所处的第一位置；在针对物理环境呈现的语音交互界面中，与目标指示符相关联地呈现对应于用户的用户指示符，用户指示符与目标指示符的相对位置关系，基于第一位置与目标指示符在物理环境中对应的第二位置的相对位置关系被确定；基于实时音频流中对应于用户的部分，调整用户指示符的视觉呈现属性。由此，能够方便用户更为直观、便利地理解会议中用户之间的交互状态、交互情况，降低了用户的交互复杂度，提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，具体涉及语音识别、音频处理、计算机视觉、大语言模型等人工智能，尤其涉及基于大语言模型的语音交互方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

1、在工作生活中，人们在处理复杂任务或需要多人协作的事项时，通常会采用会议的形式针对任务和事项进行沟通和讨论。相应地，通过会议实现的集中讨论，能够提高任务和事项的处理质量与效率。

2、在这样的背景下，如何能够帮助人们更有效率和有体验地开展会议，方便人们对会议过程中所出现的沟通和交互行为进行追踪和回顾，是值得关注和迫切需求的。

技术实现思路

1、本公开实施例提出了一种基于大语言模型的语音交互方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

2、第一方面，本公开实施例提出了一种基于大语言模型的语音交互方法，包括：基于物理环境中采集到的实时音频流，确定物理环境中所包括的用户以及用户在物理环境中所处的第一位置；在针对物理环境呈现的语音交互界面中，与目标指示符相关联地呈现对应于用户的用户...

【技术保护点】

1.一种基于大语言模型的语音交互方法，包括：

2.根据权利要求1所述的方法，其中，所述基于物理环境中采集到的实时音频流，确定所述物理环境中所包括的用户以及所述用户在所述物理环境中所处的第一位置，包括：

3.根据权利要求1所述的方法，所述方法还包括：

4.根据权利要求3所述的方法，所述方法还包括：

5.根据权利要求4所述的方法，所述方法还包括：

6.根据权利要求1所述的方法，所述方法还包括：

7.根据权利要求1所述的方法，所述方法还包括：

8.根据权利要求7所述的方法，所述方法还包括：</p>

9.根据...

【技术特征摘要】

1.一种基于大语言模型的语音交互方法，包括：

3.根据权利要求1所述的方法，所述方法还包括：

4.根据权利要求3所述的方法，所述方法还包括：

5.根据权利要求4所述的方法，所述方法还包括：

6.根据权利要求1所述的方法，所述方法还包括：

7.根据权利要求1所述的方法，所述方法还包括：

8.根据权利要求7所述的方法，所述方法还包括：

9.根据权利要求1所述的方法，其中，所述基于所述实时音频流中对应于所述用户的部分，调整所述用户指示符的视觉呈现属性，包括：

10.根据权利要求9所述的方法，所述方法还包括：

11.根据权利要求1所述的方法，其中，所述基于所述实时音频流中对应于所述用户的部分，调整所述用户指示符的视觉呈现属性，包括：

12.根据权利要求1所述的方法，其中，所述基于所述实时音频流中对应于所述用户的部分，调整所述用户指示符的视觉呈现属性，包括：

13.根据...

【专利技术属性】
技术研发人员：许志恒，钟鹏飞，任晓华，黄晓琳，赵慧斌，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人