一种基于音频伪造信息解耦和强化学习的合成语音的检测方法技术

技术编号:39320003 阅读:12 留言:0更新日期:2023-11-12 16:01
本发明专利技术属于音频检测技术领域,特别涉及一种基于音频伪造信息解耦和强化学习的合成语音的检测方法,包括以下步骤:获取待检测语音;依据所述待检测语音提取音频因素并对所述音频因素进行解耦;基于强化学习对解耦后的所述音频因素进行合成检测,得到检测结果。本发明专利技术提供的合成语音检测方法使用音频信息解耦的方式,从不同的特征维度上进行深度合成音频伪造检测,使用强化学习在与环境交互过程中通过学习策略以达成回报最大化来进行深度合成音频伪造检测,具有可解释性强、鲁棒性强和泛化性强的优点。性强的优点。性强的优点。

【技术实现步骤摘要】
一种基于音频伪造信息解耦和强化学习的合成语音的检测方法


[0001]本专利技术涉及音频检测
,尤其涉及一种基于音频伪造信息解耦和强化学习的合成语音的检测方法。

技术介绍

[0002]语音是现代通讯和信息交流的重要形式之一。随着数字语音技术的不断发展,语音合成技术已经成为实现语音信息自动化的关键技术之一,被广泛应用于语音转换、语音合成、音乐生成等领域。然而,随着语音合成技术的广泛应用,一些不良分子利用语音合成技术进行网络欺诈、声音冒充等活动,严重威胁了网络安全和社会稳定。因此,如何准确、高效地检测合成语音具有重要的现实意义和应用价值。传统的深度合成音频检测往往直接将音频提取特征然后送入分类网络中,缺乏对伪造信息检测的鲁棒性、泛化性和可解释性。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供了一种基于音频伪造信息解耦和强化学习的合成语音的检测方法,用以解决传统深度合成音频检测方法缺乏对伪造信息检测的鲁棒性、泛化性和可解释性的技术问题。
[0004]第一方面,本专利技术实施例提供一种合成语音检测方法,包括以下步骤:获取待检测语音;依据所述待检测语音提取音频因素并对所述音频因素进行解耦;基于强化学习对解耦后的所述音频因素进行合成检测,得到检测结果。
[0005]优选地,依据所述待检测语音提取音频因素包括以下步骤:使用预训练的d

vector模型提取所述音色特征;提取不同音素的持续时长,并通过多层卷积网络作为韵律特征;使用预训练的Hubert模型提取内容特征;使用传统信号的提取方式提取基频特征;将传统波形通过SincNet滤波器后进行编码,保留伪造痕迹特征。
[0006]优选地,对所述音频因素进行解耦包括以下步骤:对所述音色特征、韵律特征、内容特征、基频特征和伪造痕迹特征进行解耦,得到音色信息、韵律信息、内容信息、基频信息和伪造痕迹信息。
[0007]优选地,在提取所述内容特征和基频特征之前,对所述待检测语音进行随机重采样。
[0008]优选地,基于强化学习对所述音频因素进行合成检测包括以下步骤:使用预设的神经网络模型对所述音色信息、韵律信息、内容信息、基频信息和伪造痕迹信息进行鉴别,每一种所述音频音素至少对应一个神经网络模型。
[0009]优选地,基于强化学习对所述音频因素进行合成检测还包括以下步骤:
[0010]基于残差连结网络对每一个所述神经网络模型的输出进行权重调节。
[0011]第二方面,本专利技术实施例提供一种合成语音的检测装置,包括:
[0012]音频获取模块:用于获取待检测语音;
[0013]音频音素提取模块:用于从所述待检测语音中提取所述音频因素;
[0014]音频音素解耦模块:用于对音频因素进行解耦;
[0015]信息合成鉴别模块:用于检测音频因素是否为合成因素,输出检测结果。
[0016]优选地,还包括
[0017]第三方面,本专利技术实施例提供一种可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被执行时实现如上述方法的步骤。
[0018]第四方面,本专利技术实施例提供一种程序产品,其上包括计算机程序指令,所述计算机程序指令被执行时实现如上述方法的步骤。
[0019]与现有技术相比,本专利技术所提供的一种合成语音检测方法,具有如下的有益效果:
[0020]1、本专利技术实施例提供基于音频伪造信息解耦和强化学习的合成语音的检测方法包括以下步骤:获取待检测语音;依据所述待检测语音提取音频因素并对所述音频因素进行解耦;基于强化学习对解耦后的所述音频因素进行合成检测,得到检测结果。可以理解地,本专利技术具有以下优点:可解释性强:本专利技术基于音频信息解耦的方法进行深度合成音频检测,能够清晰知道音频不同因素信息在深度合成音频检测中发挥的作用;鲁棒性强和泛化性强:本专利技术对于未见过的音频数据,也能通过信息解耦的方式,从音频的各个特征维度出发,充分利用各个维度信息对音频是否为深度合成音频进行检测,大幅增加了深度合成音频检测的鲁棒性和泛化性。准确率高:本专利技术采用了信息解耦和强化学习的方式进行深度合成音频检测,使用强化学习在与环境交互过程中通过学习策略以达成回报最大化。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,这些均在本专利技术的保护范围内。
[0022]图1为本专利技术第一实施例提供的合成语音检测方法的流程示意图一。
[0023]图2为本专利技术第一实施例提供的合成语音检测方法的流程示意图二。
[0024]图3为本专利技术第二实施例提供的合成语音检测方法中的解耦流程示意图。
[0025]图4为本专利技术第四实施例提供的程序产品的结构示意图。
[0026]图5为本专利技术第五实施例提供的程序产品的结构示意图。
[0027]图6为本专利技术第五实施例提供的电子设备的电子设备。
[0028]附图标号说明:
[0029]1、基于音频伪造信息解耦和强化学习的合成语音的检测方法;2、合成语音检测装置;3、程序产品;4、电子设备;
[0030]20、音频获取模块;21、音频因素提取模块;22、音频因素解耦块;23、信息合成鉴别模块;30、计算机程序指令;40、处理器;41、存储器;42、总线;43、通信接口。
具体实施方式
[0031]为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0032]请结合图1与图2,本专利技术第一实施例提供了一种基于音频伪造信息解耦和强化学习的合成语音的检测方法1,用于检测深度合成语音,包括以下步骤:
[0033]获取待检测语音;
[0034]依据所述待检测语音提取音频因素并对所述音频因素进行解耦;
[0035]基于强化学习对解耦后的所述音频因素进行合成检测,得到检测结果。
[0036]可以理解地,现今的深度合成音频检测往往直接将音频提取特征然后送入分类网络中,缺乏对伪造信息检测的鲁棒性、泛化性和可解释性。模型往往难以区分音频中各个成分在深度合成检测中的作用,因此泛化性不强。同时,音频中不同成分在深度合成检测中互相干扰,部分次要因素掩盖主要因素,从而影响深度合成音频的检测效果。与现有技术相比,本专利技术实施例具有以下优点:可解释性强:本专利技术基于音频信息解耦的方法进行深度合成音频检测,能够清晰知道音频不同因素信息在深度合成音频检测中发挥的作用;鲁棒性强和泛化性强:本专利技术对于未见过的音频数据,也能通过信息解耦的方式,从音频的各个特征维度出发,充分利用各个维度信息对音频是否为深度合成音频进行检测,大幅增加了深度合成音频检测的鲁棒性和泛化性。准确率高:本专利技术采用了信息解耦和强化学习的方式进行深度合成音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频伪造信息解耦和强化学习的合成语音的检测方法,其特征在于:包括以下步骤:获取待检测语音;依据所述待检测语音提取音频因素并对所述音频因素进行解耦;基于强化学习对解耦后的所述音频因素进行合成检测,得到检测结果。2.如权利要求1所述的合成语音的检测方法,其特征在于:依据所述待检测语音提取音频因素包括以下步骤:使用预训练的d

vector模型提取所述音色特征;提取不同音素的持续时长,并通过多层卷积网络作为韵律特征;使用预训练的Hubert模型提取内容特征;使用传统信号的提取方式提取基频特征;将传统波形通过SincNet滤波器后进行编码,保留伪造痕迹特征。3.如权利要求2所述的合成语音的检测方法,其特征在于:对所述音频因素进行解耦包括以下步骤:对所述音色特征、韵律特征、内容特征、基频特征和伪造痕迹特征进行解耦,得到音色信息、韵律信息、内容信息、基频信息和伪造痕迹信息。4.如权利要求2所述的合成语音的检测方法,其特征在于:在提取所述内容特征和基频特征之前,对所述待检测语音进行随机重采样。5.如权利要求3所述的合成语音的检测方法,其特征在于:基于强化学习对所述音频因素进行合成检测包括以下步骤:使用预设的神经网络...

【专利技术属性】
技术研发人员:温正棋陆逸
申请(专利权)人:中科极限元杭州智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1