信息处理方法技术

技术编号：40299907 阅读：5 留言：0更新日期：2024-02-07 20:47

本说明书实施例提供信息处理方法，包括：获取目标用户的待识别音频以及与所述待识别音频关联的人脸图像；将所述待识别音频输入至用户识别模型，获得所述待识别音频对应的目标音频特征，其中，所述用户识别模型根据人脸图像样本对应的第一音频特征、和所述人脸图像样本关联的第一音频样本对预训练的初始用户识别模型优化得到，所述第一音频特征通过人脸识别模型和图像音频投影网络对所述人脸图像样本进行处理得到；根据所述目标音频特征确定所述目标用户的属性信息；根据所述待识别音频和所述人脸图像的关联关系，创建所述人脸图像和所述目标用户的属性信息之间的对应关系。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例涉及计算机，特别涉及信息处理方法。

技术介绍

1、目前，随着计算机技术的发展，说话人识别逐渐应用于多种场景。比如说话人识别可以应用于智能音箱设备，通常，可以通过说话人的语音识别说话人的身份信息，便于智能音箱设备确定说话人的身份，并根据说话人发出的指令执行对应的操作。

2、然而，由于音频数据的信息密度较小，且音频数据集包括的音频数据有限，导致基于这些音频数据训练得到的说话人识别模型的处理性能较差，难以准确识别说话人的身份。因此，亟需一种有效的技术方案解决上述问题。

技术实现思路

1、有鉴于此，本说明书实施例提供了两种信息处理方法。本说明书一个或者多个实施例同时涉及两种信息处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种信息处理方法，包括：

3、获取目标用户的待识别音频以及与所述待识别音频关联的人脸图像；

4、将所述待识别音频输入至用户识别模型，获得所述待识别音频对应的目标音频特征，其中，所述用户识别模型根据人脸图像样本对应的第一音频特征、和所述人脸图像样本关联的第一音频样本对预训练的初始用户识别模型优化得到，所述第一音频特征通过人脸识别模型和图像音频投影网络对所述人脸图像样本进行处理得到；

5、根据所述目标音频特征确定所述目标用户的属性信息；

6、根据所述待识别音频和所述人脸图像的关联关系，创建所述人脸图

7、根据本说明书实施例的第二方面，提供了一种信息处理装置，包括：

8、获取模块，被配置为获取目标用户的待识别音频以及与所述待识别音频关联的人脸图像；

9、输入模块，被配置为将所述待识别音频输入至用户识别模型，获得所述待识别音频对应的目标音频特征，其中，所述用户识别模型根据人脸图像样本对应的第一音频特征、和所述人脸图像样本关联的第一音频样本对预训练的初始用户识别模型优化得到，所述第一音频特征通过人脸识别模型和图像音频投影网络对所述人脸图像样本进行处理得到；

10、确定模块，被配置为根据所述目标音频特征确定所述目标用户的属性信息；

11、创建模块，被配置为根据所述待识别音频和所述人脸图像的关联关系，创建所述人脸图像和所述目标用户的属性信息之间的对应关系。

12、根据本说明书实施例的第三方面，提供了一种信息处理方法，应用于云侧设备，包括：

13、接收音频处理请求，其中，所述音频处理请求携带有目标用户的待识别音频和所述待识别音频关联的人脸图像；

14、将所述待识别音频输入至用户识别模型，获得所述待识别音频对应的目标音频特征，其中，所述用户识别模型根据人脸图像样本对应的第一音频特征、和所述人脸图像样本关联的第一音频样本对预训练的初始用户识别模型优化得到，所述第一音频特征通过人脸识别模型和图像音频投影网络对所述人脸图像样本进行处理得到；

15、根据所述目标音频特征确定所述目标用户的属性信息；

16、根据所述待识别音频和所述人脸图像的关联关系，创建所述人脸图像和所述目标用户的属性信息之间的对应关系。

17、根据本说明书实施例的第四方面，提供了一种信息处理装置，应用于云侧设备，包括：

18、接收模块，被配置为接收音频处理请求，其中，所述音频处理请求携带有目标用户的待识别音频和所述待识别音频关联的人脸图像；

19、输入模块，被配置为将所述待识别音频输入至用户识别模型，获得所述待识别音频对应的目标音频特征，其中，所述用户识别模型根据人脸图像样本对应的第一音频特征、和所述人脸图像样本关联的第一音频样本对预训练的初始用户识别模型优化得到，所述第一音频特征通过人脸识别模型和图像音频投影网络对所述人脸图像样本进行处理得到；

20、确定模块，被配置为根据所述目标音频特征确定所述目标用户的属性信息；

21、创建模块，被配置为根据所述待识别音频和所述人脸图像的关联关系，创建所述人脸图像和所述目标用户的属性信息之间的对应关系。

22、根据本说明书实施例的第五方面，提供了一种计算设备，包括：

23、存储器和处理器；

24、所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述方法的步骤。

25、根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述方法的步骤。

26、根据本说明书实施例的第七方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述方法的步骤。

27、本说明书一个实施例提供了一种信息处理方法，获取目标用户的待识别音频以及与所述待识别音频关联的人脸图像；将所述待识别音频输入至用户识别模型，获得所述待识别音频对应的目标音频特征，其中，所述用户识别模型根据人脸图像样本对应的第一音频特征、和所述人脸图像样本关联的第一音频样本对预训练的初始用户识别模型优化得到，所述第一音频特征通过人脸识别模型和图像音频投影网络对所述人脸图像样本进行处理得到；根据所述目标音频特征确定所述目标用户的属性信息；根据所述待识别音频和所述人脸图像的关联关系，创建所述人脸图像和所述目标用户的属性信息之间的对应关系。

28、上述方法中，可以根据人脸识别模型和图像音频投影网络对人脸图像样本进行处理得到的第一音频特征、以及该人脸图像样本关联的第一音频样本对预训练的用户识别模型进行优化，实现将人脸图像模态的知识迁移至语音模态中，提升优化得到的用户识别模型的处理性能，进一步保证该用户识别模型的输出结果的准确性。并且为用户创建人脸图像和用户属性信息之间的对应关系，使得后续应用过程中，能够基于用户的人脸图像和/或待识别音频识别用户身份。

本文档来自技高网...

【技术保护点】

1.一种信息处理方法，包括：

2.根据权利要求1所述的方法，所述根据所述目标音频特征确定所述目标用户的属性信息，包括：

3.根据权利要求1所述的方法，所述确定所述目标用户的属性信息之后，还包括：

4.根据权利要求1所述的方法，所述目标用户为至少两个；

5.根据权利要求4所述的方法，所述获得所述每个目标用户对应的音频特征聚类结果之后，还包括：

6.根据权利要求1所述的方法，所述将所述待识别音频输入至用户识别模型之前，还包括：

7.根据权利要求6所述的方法，所述根据人脸识别模型和图像音频投影网络对所述人脸图像样本进行处理，获得所述人脸图像样本对应的第一音频特征，包括：

8.根据权利要求6所述的方法，所述根据所述第一音频特征和所述第二音频特征，对预训练的初始用户识别模型进行优化，直至获得满足训练停止条件的用户识别模型，包括：

9.根据权利要求8所述的方法，所述计算所述第一音频特征和所述第二音频特征的相似度之后，还包括：

10.一种信息处理方法，应用于云侧设备，包括：

11.一种计算设备，包括：

12.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种信息处理方法，包括：

2.根据权利要求1所述的方法，所述根据所述目标音频特征确定所述目标用户的属性信息，包括：

3.根据权利要求1所述的方法，所述确定所述目标用户的属性信息之后，还包括：

4.根据权利要求1所述的方法，所述目标用户为至少两个；

5.根据权利要求4所述的方法，所述获得所述每个目标用户对应的音频特征聚类结果之后，还包括：

6.根据权利要求1所述的方法，所述将所述待识别音频输入至用户识别模型之前，还包括：

7.根据权利要求6所述的方法，所述根据人脸识别模型和图像音频投影网络对所述人脸图像样...

【专利技术属性】
技术研发人员：贺玄煜，翟小凡，胡于响，陈浩楠，
申请(专利权)人：浙江艾克斯精灵人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人