合成音频深度检测方法、装置、设备和介质制造方法及图纸

技术编号:39438123 阅读:9 留言:0更新日期:2023-11-19 16:21
本发明专利技术提供一种合成音频深度检测方法、装置、设备和介质,涉及合成音频检测技术领域。其中,这种合成音频检测方法包含步骤S1至步骤S6。S1、获取待分辨音频。S2、根据待分辨音频,通过语音识别模型获取内容文本。S3、根据内容文本,通过情感分析模型获取情感特征。S4、根据待分辨音频,通过音频预训练知识特征提取模型获取音频深度真伪特征。S5、融合情感特征和音频深度真伪特征,获取深层可信度鲁棒特征。S6、根据深层可信度鲁棒特征,通过音频深度合成检测模型获取待分辨音频的真假类型。本发明专利技术的音频深度合成检测方法在音频深度真伪特征中融合情感特征,大大提高合成语音的检测精度,能够有效鉴别虚假语音,具有很好的实际意义。具有很好的实际意义。具有很好的实际意义。

【技术实现步骤摘要】
合成音频深度检测方法、装置、设备和介质


[0001]本专利技术涉及合成音频检测
,具体而言,涉及一种合成音频深度检测方法、装置、设备和介质。

技术介绍

[0002]近年来,随着深度学习的快速发展,语音合成技术也日趋成熟,已能生成与真人相媲美的语音。在人机交互、智能家居、娱乐、教育等领域有广泛的应用。但是,不良用途的语音合成技术也给人民和社会带来危害,与之对应的语音真假鉴别技术也受到大家的广泛关注。
[0003]深度合成音频检测技术是一种利用人工智能技术来检测和识别合成音频的方法。它主要通过使用深度神经网络来提取音频中的特征,并利用这些特征来区分真实音频和合成音频。这种技术可以帮助我们准确识别出合成音频,从而帮助我们确保网络上流传的音频信息的真实性。
[0004]在先技术中,深度合成音频检测技术主要通过声学特征和音素时长特征对语音进行判别。常用的声学特征有梅尔倒谱系数MFCC,线性预测系数LFCC,常数Q倒谱系数CQCC等。现有的深度合成音频检测技术存在准确率低和泛化性不足的问题。
[0005]有鉴于此,申请人在研究了现有的技术后特提出本申请。

技术实现思路

[0006]本专利技术提供了一种合成音频深度检测方法、装置、设备和介质,以改善上述技术问题中的至少一个。
[0007]第一方面、
[0008]本专利技术实施例提供了一种合成音频深度检测方法,其包含步骤S1至步骤S6。
[0009]S1、获取待分辨音频。
[0010]S2、根据待分辨音频,通过语音识别模型获取内容文本。
[0011]S3、根据内容文本,通过情感分析模型获取情感特征。
[0012]S4、根据待分辨音频,通过音频预训练知识特征提取模型获取音频深度真伪特征。
[0013]S5、融合情感特征和音频深度真伪特征,获取深层可信度鲁棒特征。
[0014]S6、根据深层可信度鲁棒特征,通过音频深度合成检测模型获取待分辨音频的真假类型。
[0015]第二方面、
[0016]本专利技术实施例提供了一种合成音频深度检测装置,其包含:
[0017]初始音频获取模块,用于获取待分辨音频。
[0018]内容识别模块,用于根据待分辨音频,通过语音识别模型获取内容文本。
[0019]情感分析模块,用于根据内容文本,通过情感分析模型获取情感特征。
[0020]音频特征提取模块,用于根据待分辨音频,通过音频预训练知识特征提取模型获
取音频深度真伪特征。
[0021]特征融合模块,用于融合情感特征和音频深度真伪特征,获取深层可信度鲁棒特征。
[0022]真假判别模块,用于根据深层可信度鲁棒特征,通过音频深度合成检测模型获取待分辨音频的真假类型。
[0023]第三方面、
[0024]本专利技术实施例提供了一种合成音频深度检测设备,其包括处理器、存储器,以及存储在存储器内的计算机程序。计算机程序能够被处理器执行,以实现如第一方面任意一段所说的融合情感特征的合成音频检测方法。
[0025]第四方面、
[0026]本专利技术实施例提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如第一方面任意一段所说的融合情感特征的合成音频检测方法。
[0027]通过采用上述技术方案,本专利技术可以取得以下技术效果:
[0028]本专利技术实施例合成音频检测方法在音频深度真伪特征中融合情感特征,大大提高合成语音的检测精度,能够有效鉴别虚假语音,具有很好的实际意义。
附图说明
[0029]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0030]图1是合成音频检测方法的流程示意图。
[0031]图2是合成音频检测方法的逻辑框图。
[0032]图3是情感分析模型的网络结构图。
[0033]图4是情感分析模型的训练流程图。
[0034]图5是音频预训练知识特征提取模型的网络结构图。
[0035]图6是音频预训练知识特征提取模型的训练流程图。
[0036]图7是12维度特征的fisher比值柱状图。
[0037]图8是15维度特征的fisher比值柱状图。
[0038]图9是音频深度合成检测模型的网络结构图。
[0039]图10是合成音频检测装置的结构示意图。
具体实施方式
[0040]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0041]实施例一、
[0042]请参阅图1至图9,本专利技术第一实施例提供一种合成音频深度检测方法。其可由合成音频深度检测设备来执行。特别地,由合成音频深度检测设备中的一个或多个处理器来执行,以实现步骤S1至步骤S6。
[0043]S1、获取待分辨音频。
[0044]具体的,待分辨音频需要经过预处理转化为神经网络能够识别的向量。预处理包括但不限于语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等。对待检测音频进行预处理属于本领域技术人员的常规技术手段,本专利技术在此不再赘述。
[0045]可以理解的是,合成音频深度检测设备可以是便携笔记本计算机、台式机计算机、服务器、智能手机或者平板电脑等具有计算性能的电子设备。
[0046]S2、根据待分辨音频,通过语音识别模型获取内容文本。
[0047]具体的,语音识别模型可以是任意的语音识别模型。例如SpeechLM或CoBERT,或者基于注意力机制的语音识别模型。将音频转换为文本,属于常规技术手段,本专利技术在此不再赘述。
[0048]一般来说,待分辨音频经过预处理转换为梅尔倒谱系数(MFCC),然后将MFCC输入语音识别模型,语音识别模型输出文本序列。
[0049]S3、根据内容文本,通过情感分析模型获取情感特征。
[0050]具体的,情感预测模型的功能是利用文本预测其情感信息。
[0051]在上述实施例的基础上,本专利技术的一个可选地实施例中,步骤S3具体包括步骤S31至步骤S34。
[0052]S31、根据内容文本,通过词嵌入模型,获取词向量。
[0053]S32、根据内容文本,通过语音嵌入模型,获取音向量。
[0054]S33、融合词向量和音向量,获取融合向量。
[0055]S34、将融合向量输入情感分析模型,获取情感特征。
[0056]具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合成音频深度检测方法,其特征在于,包含:获取待分辨音频;根据所述待分辨音频,通过语音识别模型获取内容文本;根据所述内容文本,通过情感分析模型获取情感特征;根据所述待分辨音频,通过音频预训练知识特征提取模型获取音频深度真伪特征;融合所述情感特征和所述音频深度真伪特征,获取深层可信度鲁棒特征;根据所述深层可信度鲁棒特征,通过音频深度合成检测模型获取待分辨音频的真假类型。2.根据权利要求1所述的合成音频深度检测方法,其特征在于,根据所述内容文本,通过情感分析模型获取情感特征,具体包括:根据所述内容文本,通过词嵌入模型,获取词向量;根据所述内容文本,通过语音嵌入模型,获取音向量;融合所述词向量和所述音向量,获取融合向量;将所述融合向量输入所述情感分析模型,获取所述情感特征。3.根据权利要求2所述的合成音频深度检测方法,其特征在于,所述情感分析模型为第一自注意力编码模型;所述第一自注意力编码模型包含3层第一自注意力网络;所述音频预训练知识特征提取模型为第二自注意力编码模型;所述第二自注意力编码模型包括12层第二自注意力网络;所述第一自注意力网络和所述第二自注意力网络的网络结构相同;所述第二自注意力网络包括依次连接的第一Multi

Head Self

Attention多头自注意力层、第一Add & LayerNorm残差和标准化层、第一Feed Forward全连接层,以及第二Add & LayerNorm残差和标准化层。4.根据权利要求1所述的合成音频深度检测方法,其特征在于,融合所述情感特征和所述音频深度真伪特征,获取深层可信度鲁棒特征,具体包括:根...

【专利技术属性】
技术研发人员:温正棋王小鹏
申请(专利权)人:中科极限元杭州智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1