一种基于多域信息融合的合成语音检测方法技术

技术编号:37669650 阅读:17 留言:0更新日期:2023-05-26 04:30
本申请公开了一种基于多域信息融合的合成语音检测方法,包括:提取待检测的语音信号的多域声学特征;将提取的多域声学特征输入合成语音检测模型,以完成检测,所述合成语音检测模型,基于训练语音数据集,执行训练:分解出所述训练语音数据集中语音数据的有声段部分、静音段部分以及固有模态分量,基于所述语音数据的有声段部分、静音段以及固有模态分量部分,分别提取特征,将提取到的特征级联,作为多域声学特征;将所述训练语音数据集的语音数据的多域声学特征作为所述特征融合器的输入,执行训练;训练后的各浅层分类器、深度分类器用以输出融合的识别结果。本申请实施例通过多种手段综合提升合成语音检测模型的检测能力和泛化应用能力。泛化应用能力。泛化应用能力。

【技术实现步骤摘要】
一种基于多域信息融合的合成语音检测方法


[0001]本申请涉及语音检测
,尤其涉及一种基于多域信息融合的合成语音检测方法。

技术介绍

[0002]合成语音检测技术是指通过一定的技术手段对伪造合成的语音进行鉴别,实现真伪语音的区分。目前,合成语音的技术手段主要包括语音合成技术和语音转换技术。语音合成技术实现从文本到语音的生成,语音转换技术实现从某人语音到特定人语音的转换生成。近年来,随着人工智能技术的发展,合成语音的自然度和相似度水平快速提升,提高了对检测技术的迷惑性;此外,合成语音的技术手段日新月异、频繁更新,而大多数合成语音检测技术属于监督性学习方法,如何在实际应用中保证检测模型的泛化能力,也是当下合成语音技术研发的重点方向。
[0003]在合成语音检测技术研究中,一般有两种技术路线:一种是前端提取声学特征,后端进行分类器的训练;另一种是直接以语音信号作为输入,训练端到端的分类网络。在第一种技术路线中,目前常用的声学特征包括梅尔倒谱系数(Mel

Frequency Cepstral Coefficient,MFCC)、线性频率倒谱系数(LFCC, Linear Frequency Cepstral Coefficient)、常数Q变换倒谱系数(CQCC, Constant

QCepstral Coefficient)等,其中LFCC特征在合成语音检测任务中表现突出;而在后端分类器设计方面,高斯混合模型、各类神经网络模型(如卷积神经网络、长短时记忆神经网络、残差神经网络等)最为常用。不同特征、不同分类器各具特点,通过特征融合和决策融合提升模型性能是一条可行的技术路线,关键在于设计有效的融合策略,在尽量控制冗余信息的同时充分利用特征和分类器的互补性。
[0004]专利技术CN113488073A提出了一种基于多特征融合的伪造语音检测方法,对于语音信号,提取基频、梅尔倒谱系数、非周期成分、梅尔频谱、能量谱、频谱、线性预测系数、线性预测倒谱系数等多种声学特征,通过特征缩放和特征平衡矩阵将提取的特征进行融合获得融合特征。该方法为特征融合提供了一种思路,但所用声学特征间存在着比较明显的冗余性,缺少互补性的设计。
[0005]此外,在实际应用中,训练数据集语音所处场景与实际应用时采集到的语音所处的场景存在偏差,进而导致检测模型在实际场景下性能下降的问题。

技术实现思路

[0006]本申请实施例提供一种基于多域信息融合的合成语音检测方法,通过多种手段综合提升合成语音检测模型的检测能力和泛化应用能力。
[0007]本申请实施例提供一种基于多域信息融合的合成语音检测方法,包括如下步骤:获取待检测的语音信号,并提取待检测的语音信号的多域声学特征;将提取的多域声学特征输入合成语音检测模型,以完成检测,其中所述合成语音
检测模型包括特征融合器、深度分类器和至少两个浅层分类器,所述合成语音检测模型,基于训练语音数据集,采用如下方式训练获得:在时域上,分割出所述训练语音数据集中语音数据的有声段部分和静音段部分,以及,在时频域,分解出所述语音数据的固有模态分量,基于所述语音数据的有声段部分、静音段部分和固有模态分量,分别提取特征,将提取到的特征级联,作为多域声学特征;将所述训练语音数据集的语音数据的多域声学特征作为所述特征融合器的输入,执行训练,以获得多域声学特征的权重系数;将所述特征融合器的输出作为深度分类器的输入,训练深度分类器,通过预设的交叉熵损失函数计算损失函数值,根据所述损失函数值调整特征融合器和深度分类器的参数,迭代训练;以及,将所述特征融合器的输出作为各浅层分类器的输入,训练浅层分类器;训练后的各浅层分类器、深度分类器用以输出融合的识别结果。
[0008]可选的,还包括:获取初始训练语音数据集;对所述初始训练语音数据集中的语音数据进行数据增强,以扩充所述初始训练语音数据集,获得所述训练语音数据集。
[0009]可选的,在时域上,分割出所述训练语音数据集中语音数据的有声段部分和静音段部分包括:在时域上,将所述语音数据分割为有声段部分和静音段部分;在时频域,分解出所述语音数据的固有模态分量包括:在时频域上,采用变分模态分解(Variational mode decomposition, VMD)方法对语音进行分解,得到M个固有模态分量;基于所述语音数据的有声段部分、静音段部分和固有模态分量,分别提取特征包括:在时域上,对分解出的语音静音段,提取短时能量和过零率特征;在频域上,对分解出的语音有声段,提取MFCC特征;在时频域上,对分解出的M个固有模态分量提取LFCC特征。
[0010]可选的,所述特征融合器包括顺序设置的全局池化层、全连接层、ReLU激活层和sigmoid层。
[0011]可选的,所述深度分类器为深度残差网络、深度卷积网络或深度递归网络。
[0012]可选的,基于训练后的各浅层分类器、深度分类器输出融合的识别结果包括:对各分类器识别的标签结果取众数,并对各分类器的识别概率取均值;根据所取的众数以及识别概率的均值,来确定最终融合识别的结果,其中若识别概率的均值的最大值不低于预设阈值,则融合识别的结果为识别概率的均值的最大值所在列对应的标签结果,若识别概率的均值的最大值低于预设阈值,则根据各分类器识别的标签结果来确定融合的识别结果。
[0013]可选的,训练所述合成语音检测模型的过程还包括:指根据事先预设好的准确率、精确率和召回率指标,检验当前训练好的合成语音检测模型的性能指标是否满足要求,其中准确率被定义为训练语音数据集中被正确识别的
样本数与总测试样本数的比值,精确率被定义为训练语音数据集中被识别为正的样本中实际是正样本的比例,召回率被定义为训练语音数据集中实际正样本被识别为正的比例。
[0014]本申请实施例还提出一种合成语音检测设备,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于多域信息融合的合成语音检测方法的步骤。
[0015]本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于多域信息融合的合成语音检测方法的步骤。
[0016]本申请实施例设计的合成语音检测模型包括特征融合器、深度分类器和至少两个浅层分类器,由此通过多种手段综合提升合成语音检测模型的检测能力和泛化应用能力。
[0017]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0018]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多域信息融合的合成语音检测方法,其特征在于,包括如下步骤:获取待检测的语音信号,并提取待检测的语音信号的多域声学特征;将提取的多域声学特征输入合成语音检测模型,以完成检测,其中所述合成语音检测模型包括特征融合器、深度分类器和至少两个浅层分类器,所述合成语音检测模型,基于训练语音数据集,采用如下方式训练获得:在时域上,分割出所述训练语音数据集中语音数据的有声段部分和静音段部分,以及,在时频域,分解出所述语音数据的固有模态分量,基于所述语音数据的有声段部分、静音段部分和固有模态分量,分别提取特征,将提取到的特征级联,作为多域声学特征;将所述训练语音数据集的语音数据的多域声学特征作为所述特征融合器的输入,执行训练,以获得多域声学特征的权重系数;将所述特征融合器的输出作为深度分类器的输入,训练深度分类器,通过预设的交叉熵损失函数计算损失函数值,根据所述损失函数值调整特征融合器和深度分类器的参数,迭代训练;以及,将所述特征融合器的输出作为各浅层分类器的输入,训练浅层分类器;训练后的各浅层分类器、深度分类器用以输出融合的识别结果。2.如权利要求1所述的基于多域信息融合的合成语音检测方法,其特征在于,还包括:获取初始训练语音数据集;对所述初始训练语音数据集中的语音数据进行数据增强,以扩充所述初始训练语音数据集,获得所述训练语音数据集。3.如权利要求1所述的基于多域信息融合的合成语音检测方法,其特征在于,在时域上,分割出所述训练语音数据集中语音数据的有声段部分和静音段部分包括:在时域上,将所述语音数据分割为有声段部分和静音段部分;在时频域,分解出所述语音数据的固有模态分量包括:在时频域上,采用变分模态分解(Variational mode decomposition, VMD)方法对语音进行分解,得到M个固有模态分量;基于所述语音数据的有声段部分、静音段部分和固有模态分量,分别提取特征包括:在时域上,对分解出的语音静音段,提取短时能量和...

【专利技术属性】
技术研发人员:田野汤跃忠陈云坤傅景楠张晓灿付泊暘
申请(专利权)人:中国电子科技集团公司第三研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1