基于人设特征的合成音频识别方法、装置、设备及介质制造方法及图纸

技术编号:38424100 阅读:12 留言:0更新日期:2023-08-07 11:22
本公开实施例中提供了一种基于人设特征的合成音频识别方法、装置、设备及介质,方法包括:获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;计算所述第二音频特征向量与所述人设特征向量的相似度;根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。本发明专利技术能够提高对合成音频的识别准确性。性。性。

【技术实现步骤摘要】
基于人设特征的合成音频识别方法、装置、设备及介质


[0001]本专利技术涉及合成语音领域,具体涉及一种基于人设特征的合成音频识别方法、装置、设备及介质。

技术介绍

[0002]近年来,随着人工智能的快速发展,语音合成技术也日趋成熟,并在人机交互、智能家居、娱乐、教育等领域得到广泛的应用。现今的语音合成技术合成效果在清晰度和自然度上十分接近真实语音,合成音频的声学参数也很接近真实语音,已能生成与真人相媲美的语音。语音合成技术的发展在给人们带来便利的同时,不良用途的语音合成技术也给人民和社会带来危害,与之对应的语音真假鉴别技术也受到大家的广泛关注。
[0003]在先技术中,对合成语音的检测主要是依靠单纯的音频进行鉴别,其不仅准确率有限且难以提升。

技术实现思路

[0004]有鉴于此,本公开实施例提供一种基于人设特征的合成音频识别方法、装置、设备及介质,至少部分解决现有技术中存在的问题。
[0005]本专利技术实施例提供了一种基于人设特征的合成音频识别方法,其包括:
[0006]获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;
[0007]利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;
[0008]利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;
[0009]对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;
[0010]计算所述第二音频特征向量与所述人设特征向量的相似度;
[0011]根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。
[0012]优选地,所述多模态的用户数据还包括用户的图像数据以及人设描述的文本数据;则编码器包括用于对音频数据进行特征提取的Wav2vec2.0编码器,用于对图像进行特征提取的ViT编码器以及用于对文本数据进行特征提取的BERT编码器。
[0013]优选地,人设描述的文本数据包括年龄、性别、人格、情感。
[0014]优选地,在利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括音频特征向量之前还包括:
[0015]获取用于训练的多组多模态的用户数据;
[0016]对每组多模态的用户数据,分别提取出各个模态的用户数据对应的特征向量;
[0017]对除音频特征向量外的其他特征向量进行拼接,得到人设特征向量;
[0018]根据所述人设特征向量与所述音频特征向量进行对比学习,以调整各个编码器的
参数,使得其编码的配对的特征向量在特征中间中更为接近,而非配对的特征向量在向量空间距离尽可能远;其中,在对比学习时,将人设特征向量和其配对的音频特征向量作为正样例,非配对的人设特征向量和音频特征向量作为负样例;对于给定的样例和它对应的正样例以及负样例,采用欧几里得距离来计算向量间的距离;同时定义一个对比损失来拉近正样例间的距离,,其中为欧几里得距离,m用来控制正负样例距离间的偏移量,使模型不需要考虑优化过于简单的负样例。
[0019]优选地,根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频,具体包括:
[0020]将所述相似度直接编码后输入Transformer神经网络,获得第二音频特征向量和人设特征向量的第一符合程度;其中,所述相似度用第二音频特征向量和所述人设特征向量的欧氏距离表示;
[0021]将所述第一音频特征向量输入Transformer神经网络,获得所述第一音频特征向量与合成音频的第二符合程度;
[0022]根据第一符合程度以及第二符合程度以及其相应的权重,判断所述音频数据为自然音频或者合成音频。
[0023]优选地,所述Transformer神经网络损失采用交叉熵损失L2,该神经网络总的目标损失计算函数为:
[0024][0025]其中和为权重。
[0026]优选地,还包括:
[0027]采用一个18层的残差网络用于自动生成最佳的和权重。
[0028]本专利技术实施例还提供了一种基于人设特征的合成音频识别装置,其包括:
[0029]用户数据获取单元,用于获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;
[0030]第一特征提取单元,用于利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;
[0031]第二特征提取单元,用于利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;
[0032]拼接单元,用于对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;
[0033]相似度计算单元,用于计算所述第二音频特征向量与所述人设特征向量的相似度;
[0034]判断单元,用于根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。
[0035]本专利技术实施例还提供了一种基于人设特征的合成音频识别设备,其包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实
现如上述的基于人设特征的合成音频识别方法。
[0036]本专利技术实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上述的基于人设特征的合成音频识别方法。
[0037]综上所述,本实施例在兼顾音频本身的声学特征的基础上,可以通过融合音频外的多种模态(如包含人外貌的图像信息、描述人设特征包括年龄、性别、人格、情感等要素的文本信息)辅助进行音频合成检测。能够有效的解决现今合成音频在声学特征上越来越接近真实音频,从而导致模型对音频合成检测效果难以提升,且本实施例的方法兼具鲁棒性,能够在仅依赖音频或者部分模态缺失的情况下依然能正常进行音频合成检测。
附图说明
[0038]为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0039]图1为本专利技术第一实施例的基于人设特征的合成音频识别方法的流程示意图;
[0040]图2是利用对比学习调整编码器的示意图;
[0041]图3是利用神经网络判断音频是否为合成语音的示意图;
[0042]图4为本专利技术第二实施例的基于人设特征的合成音频识别装置的结构示意图。
具体实施方式
[0043]下面结合附图对本公开实施例进行详细描述。
[0044]以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人设特征的合成音频识别方法,其特征在于,包括:获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;计算所述第二音频特征向量与所述人设特征向量的相似度;根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。2.根据权利要求1所述的基于人设特征的合成音频识别方法,其特征在于,所述多模态的用户数据还包括用户的图像数据以及人设描述的文本数据;则编码器包括用于对音频数据进行特征提取的Wav2vec2.0编码器,用于对图像进行特征提取的ViT编码器以及用于对文本数据进行特征提取的BERT编码器。3.根据权利要求1所述的基于人设特征的合成音频识别方法,其特征在于,人设描述的文本数据包括年龄、性别、人格、情感。4.根据权利要求1所述的基于人设特征的合成音频识别方法,其特征在于,在利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括音频特征向量之前还包括:获取用于训练的多组多模态的用户数据;对每组多模态的用户数据,分别提取出各个模态的用户数据对应的特征向量;对除音频特征向量外的其他特征向量进行拼接,得到人设特征向量;根据所述人设特征向量与所述音频特征向量进行对比学习,以调整各个编码器的参数,使得其编码的配对的特征向量在特征中间中更为接近,而非配对的特征向量在向量空间距离尽可能远;其中,在对比学习时,将人设特征向量和其配对的音频特征向量作为正样例,非配对的人设特征向量和音频特征向量作为负样例;对于给定的样例和它对应的正样例以及负样例,采用欧几里得距离来计算向量间的距离;同时定义一个对比损失来拉近正样例间的距离,,其中为欧几里得距离,m用来控制正负样例距离间的偏移量,使模型不需要考虑优化过于简单的负样例。5.根据权利要求4所述的基于人设特征的合成音频识别方法...

【专利技术属性】
技术研发人员:温正棋陆逸
申请(专利权)人:中科极限元杭州智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1