【技术实现步骤摘要】
基于人设特征的合成音频识别方法、装置、设备及介质
[0001]本专利技术涉及合成语音领域,具体涉及一种基于人设特征的合成音频识别方法、装置、设备及介质。
技术介绍
[0002]近年来,随着人工智能的快速发展,语音合成技术也日趋成熟,并在人机交互、智能家居、娱乐、教育等领域得到广泛的应用。现今的语音合成技术合成效果在清晰度和自然度上十分接近真实语音,合成音频的声学参数也很接近真实语音,已能生成与真人相媲美的语音。语音合成技术的发展在给人们带来便利的同时,不良用途的语音合成技术也给人民和社会带来危害,与之对应的语音真假鉴别技术也受到大家的广泛关注。
[0003]在先技术中,对合成语音的检测主要是依靠单纯的音频进行鉴别,其不仅准确率有限且难以提升。
技术实现思路
[0004]有鉴于此,本公开实施例提供一种基于人设特征的合成音频识别方法、装置、设备及介质,至少部分解决现有技术中存在的问题。
[0005]本专利技术实施例提供了一种基于人设特征的合成音频识别方法,其包括:
[0006]获取待识别的 ...
【技术保护点】
【技术特征摘要】
1.一种基于人设特征的合成音频识别方法,其特征在于,包括:获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;计算所述第二音频特征向量与所述人设特征向量的相似度;根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。2.根据权利要求1所述的基于人设特征的合成音频识别方法,其特征在于,所述多模态的用户数据还包括用户的图像数据以及人设描述的文本数据;则编码器包括用于对音频数据进行特征提取的Wav2vec2.0编码器,用于对图像进行特征提取的ViT编码器以及用于对文本数据进行特征提取的BERT编码器。3.根据权利要求1所述的基于人设特征的合成音频识别方法,其特征在于,人设描述的文本数据包括年龄、性别、人格、情感。4.根据权利要求1所述的基于人设特征的合成音频识别方法,其特征在于,在利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括音频特征向量之前还包括:获取用于训练的多组多模态的用户数据;对每组多模态的用户数据,分别提取出各个模态的用户数据对应的特征向量;对除音频特征向量外的其他特征向量进行拼接,得到人设特征向量;根据所述人设特征向量与所述音频特征向量进行对比学习,以调整各个编码器的参数,使得其编码的配对的特征向量在特征中间中更为接近,而非配对的特征向量在向量空间距离尽可能远;其中,在对比学习时,将人设特征向量和其配对的音频特征向量作为正样例,非配对的人设特征向量和音频特征向量作为负样例;对于给定的样例和它对应的正样例以及负样例,采用欧几里得距离来计算向量间的距离;同时定义一个对比损失来拉近正样例间的距离,,其中为欧几里得距离,m用来控制正负样例距离间的偏移量,使模型不需要考虑优化过于简单的负样例。5.根据权利要求4所述的基于人设特征的合成音频识别方法...
【专利技术属性】
技术研发人员:温正棋,陆逸,
申请(专利权)人:中科极限元杭州智能科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。