语音处理方法、装置及XR设备制造方法及图纸

技术编号：46254801 阅读：13 留言：0更新日期：2025-08-29 20:03

本发明专利技术提供一种语音处理方法、装置及XR设备，涉及语音处理技术领域，其中方法应用于扩展现实XR设备，包括：获取当前场景图像及用户的当前头部姿态数据；根据所述当前场景图像和所述当前头部姿态数据，确定目标注视对象；获取所述目标注视对象的实时音频数据和实时视频数据；通过语音分离模型，对所述实时音频数据和所述实时视频数据进行处理，确定所述目标注视对象的目标音频信号。本发明专利技术能够在不增加XR设备的额外硬件成本、且无需依赖目标说话对象的先验信息的前提下，准确地识别出目标说话对象的语音信号。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音处理，尤其涉及一种语音处理方法、装置及xr设备。

技术介绍

1、在多人交谈或嘈杂环境（即“鸡尾酒会”场景）中，人类听觉系统展现出的“鸡尾酒会效应”使其能够将注意力高度集中于某一特定说话对象，有效抑制背景噪声及其他说话对象的干扰。然而，对于机器而言，尤其是在轻量化设备（例如xr（extended reality，扩展现实）设备）上，要在单一麦克风采集的混合音频中，自动、准确地分离出特定目标说话对象的语音信号，始终是一项极具挑战性的任务。

2、为应对这一挑战，传统技术方案往往依赖于额外的硬件设备或目标说话对象的先验信息。一类常见方案是采用麦克风阵列，通过波束形成来按空间方向增强目标说话对象的声音。然而，麦克风阵列会显著增加设备的成本、体积和复杂度。另一类方案则利用目标说话对象的声纹特征进行语音分离。例如，通过预先获取目标说话对象的一段音频样本，以提取其声纹特征，进而在混合语音中识别并提取出该目标说话对象的语音信号。这类基于声纹特征的选择性听觉方法，虽然摆脱了对说话对象位置的依赖，但其核心缺陷在于必须事先获得目标...

【技术保护点】

1.一种语音处理方法，其特征在于，应用于扩展现实XR设备，包括：

2.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述当前场景图像和所述当前头部姿态数据，确定目标注视对象之后，还包括：

3.根据权利要求2所述的语音处理方法，其特征在于，所述实时获取用户的第二头部姿态序列数据，根据所述第二头部姿态序列数据和所述当前参考轨迹，检测用户的注视对象是否发生变化，包括：

4.根据权利要求3所述的语音处理方法，其特征在于，所述检测所述偏离度是否大于预设偏离度阈值，以检测用户的注视对象是否发生变化，包括：

5.根据权利要求1所述的语音处理方法，...

【技术特征摘要】

1.一种语音处理方法，其特征在于，应用于扩展现实xr设备，包括：

2.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述当前场景图像和所述当前头部姿态数据，确定目标注视对象之后，还包括：

4.根据权利要求3所述的语音处理方法，其特征在于，所述检测所述偏离度是否大于预设偏离度阈值，以检测用户的注视对象是否发生变化，包括：

5.根据权利要求1所述的语音处理方法，其特征在于，所述通过语音分离模型，对所述实时音频数据和所述实时视频数据进行处理，确定所述目标注视对象的目标音频信号，包括：

6.根据权利要求5所述的语音处理方法，其特征在于，所述语音分离模型包括音...

【专利技术属性】
技术研发人员：曹卫，陈军，史春苓，陈科科，
申请(专利权)人：杭州秋果计划科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人