基于韵律特征的合成语音检测方法技术

技术编号:38680935 阅读:16 留言:0更新日期:2023-09-02 22:53
本发明专利技术属于合成语音检测技术领域,特别涉及一种基于韵律特征的合成语音检测方法,其中,合成语音检测方法包括以下步骤:获取待检测语音信号;根据预设的第一方式对待检测语音信号进行处理,得到声学特征;根据预设的第二方式对待检测语音信号进行处理,得到韵律特征;将声学特征与韵律特征拼接,得到特征向量;将特征向量输入预设的神经网络模型进行检测,得到检测结果。本发明专利技术提供的合成语音检测方法,通过提取语音中的韵律特征来鉴别深度合成语音和真实语音,提高了语音鉴别的准确性和鲁棒性。棒性。棒性。

【技术实现步骤摘要】
基于韵律特征的合成语音检测方法


[0001]本专利技术涉及语音检测领域,尤其涉及一种基于韵律特征的合成语音检测方法。

技术介绍

[0002]语音是现代通讯和信息交流的重要形式之一。随着数字语音技术的不断发展,语音合成技术已经成为实现语音信息自动化的关键技术之一,被广泛应用于语音转换、语音合成、音乐生成等领域。然而,随着语音合成技术的广泛应用,一些不良分子利用语音合成技术进行网络欺诈、声音冒充等活动,严重威胁了网络安全和社会稳定。因此,如何准确、高效地检测合成语音具有重要的现实意义和应用价值。
[0003]近年来,针对声音防伪检测的研究主要集中在两个方面。首先是在特征层面的探索,其中高斯混合模型(Gaussian Mixture Model,GMM)分类器与常数Q倒谱系数(CQCC)的组合在各种反欺骗任务中受到了广泛的关注。CQCC特征是从常量Q变换(CQT)中提取的一种受感知启发的时频分析方法。然而,由于伪造声音和真实声音之间的相似性,单一特征无法完全展示出它们之间的差异,使得传统合成语音检测方法无法准确地区分伪造语音和真实声音之间的区别,可靠性较低。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种基于韵律特征的合成语音检测方法,用以解决传统合成语音检测方法的可靠性较低的技术问题。
[0005]第一方面,本专利技术实施例提供一种基于韵律特征的合成语音检测方法,包括以下步骤:获取待检测语音信号;根据预设的第一方式对所述待检测语音信号进行处理,得到声学特征;根据预设的第二方式对所述待检测语音信号进行处理,得到韵律特征;将所述声学特征与所述韵律特征拼接,得到特征向量;将所述特征向量输入预设的神经网络模型进行检测,得到检测结果。
[0006]优选地,根据预设的第一方式对所述待检测语音信号进行处理包括以下步骤:对所述待检测语音信号进行预处理,得到第一中间语音信号;计算所述第一中间语音信号的功率谱,并进行梅尔滤波处理,得到梅尔频率谱;对所述梅尔频率谱进行离散余弦变换,将得到梅尔频率倒谱系数作为所述声学特征。
[0007]优选地,根据预设的第二方式对所述待检测语音信号进行处理包括以下步骤:对所述待检测语音信号进行预处理,得到第二中间语音信号;从所述第二中间语音信号提取语音的音素时长信息和基频信息;将所述基频信息和所述音素时长信息进行融合,得到所述韵律特征。
[0008]优选地,将所述基频信息和所述音素时长信息进行融合包括以下步骤:将所述音素时长信息进行归一化处理,然后处理结果与所述基频信息分别输入到两层CNN网络中,并分别提取固定64维度的表征向量,再将所述表征向量进行点乘,得到所述韵律特征。
[0009]优选地,所述神经网络模型包括卷积神经网络、循环神经网络、长短期记忆网络或
Transformer模型。
[0010]第二方面,本专利技术实施例提供一种一种合成语音检测装置,包括:语音获取模块:用于获取待检测语音;声学特征提取模块:用于对所述待检测语音信号进行处理,得到声学特征;韵律特征模块:用于对所述待检测语音信号进行处理,得到韵律特征;鉴别器模块:用于根据特征向量检测待检测语音的真伪。
[0011]优选地,所述韵律特征模块包括:韵律特征提取模组:用于提取待检测语音信号中的所述音素时长信息和所述基频信息;韵律特征融合模组:用于将所述音素时长信息和所述基频信息进行融合,生成韵律特征。
[0012]优选地,将所述音素时长信息和所述基频信息进行融合的方式包括向量加法、乘法等数学运算以及使用神经网络模型进行训练融合。
[0013]第三方面,本专利技术实施例提供一种可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被执行时实现如上述方法的步骤。
[0014]第四方面,本专利技术实施例提供一种程序产品,其上包括计算机程序指令,所述计算机程序指令被执行时实现如上述方法的步骤。
[0015]与现有技术相比,本专利技术所提供的一种基于韵律特征的合成语音检测方法,具有如下的有益效果:
[0016]本专利技术实施例提供基于韵律特征的合成语音检测方法包括以下步骤:获取待检测语音信号;根据预设的第一方式对待检测语音信号进行处理,得到声学特征;根据预设的第二方式对待检测语音信号进行处理,得到韵律特征;将声学特征与韵律特征拼接,得到特征向量;将特征向量输入预设的神经网络模型进行检测,得到检测结果。可以理解地,传统的语音鉴伪方法一方面缺乏关于真实声音和伪造声音差异的理论研究,从特征和信号层面无法清晰解释两者的差别;另一方面,声音的防伪检测需要系统具有鲁棒性,需要能够有效地识别多种不同来源的合成声音,但现有技术在这方面存在一定的局限性。而在本方案中,通过提取语音中的韵律特征来鉴别深度合成语音和真实语音。韵律特征在语音中扮演着至关重要的角色,因为它们反映了说话者的情感状态和语言表达方式。同时,由于深度合成语音与真实语音在韵律特征方面存在较大的差距,因此基于韵律特征的检测方法可以有效地区分真实语音和深度合成语音。此外,韵律特征还可以提供额外的信息,帮助识别可能存在的语音编辑或伪造。因此,本专利技术旨在利用韵律特征来鉴别真假语音,提高了语音鉴别的准确性和鲁棒性。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,这些均在本专利技术的保护范围内。
[0018]图1为本专利技术第一实施例提供的基于韵律特征的合成语音检测方法的流程示意图。
[0019]图2为本专利技术第二实施例提供的合成语音检测装置的结构示意图一。
[0020]图3为本专利技术第二实施例提供的合成语音检测装置的结构示意图二。
[0021]图4为本专利技术第四实施例提供的程序产品的结构示意图。
[0022]图5为本专利技术第五实施例提供的电子设备的结构示意图。
[0023]附图标号说明:
[0024]1、合成语音检测方法;2、合成语音检测装置;3、程序产品;4、电子设备;
[0025]20、语音获取模块;21、声学特征提取模块;22、韵律特征提取模块;23、鉴别器模块;30、计算机程序指令;40、处理器;41、存储器;42、总线;43、通信接口;
[0026]220、韵律特征提取模组;221、韵律特征融合模组。
具体实施方式
[0027]为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0028]请参见图1,本专利技术第一实施例提供了一种基于韵律特征的合成语音检测方法,用于检测目标语音的真实性,包括以下步骤:
[0029]获取待检测语音信号;
[0030]根据预设的第一方式对待检测语音信号进行处理,得到声学特征;
[0031]根据预设的第二方式对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于韵律特征的合成语音检测方法,其特征在于:包括以下步骤:获取待检测语音信号;根据预设的第一方式对所述待检测语音信号进行处理,得到声学特征;根据预设的第二方式对所述待检测语音信号进行处理,得到韵律特征;将所述声学特征与所述韵律特征拼接,得到特征向量;将所述特征向量输入预设的神经网络模型进行检测,得到检测结果。2.如权利要求1所述的合成语音检测方法,其特征在于:根据预设的第一方式对所述待检测语音信号进行处理包括以下步骤:对所述待检测语音信号进行预处理,得到第一中间语音信号;计算所述第一中间语音信号的功率谱,并进行梅尔滤波处理,得到梅尔频率谱;对所述梅尔频率谱进行离散余弦变换,将得到梅尔频率倒谱系数作为所述声学特征。3.如权利要求1所述的合成语音检测方法,其特征在于:根据预设的第二方式对所述待检测语音信号进行处理包括以下步骤:对所述待检测语音信号进行预处理,得到第二中间语音信号;从所述第二中间语音信号提取语音的音素时长信息和基频信息;将所述基频信息和所述音素时长信息进行融合,得到所述韵律特征。4.如权利要求1所述的合成语音检测方法,其特征在于:将所述基频信息和所述音素时长信息进行融合包括以下步骤:将所述音素时长信息进行归一化处理,然后处理结果与所述基频信息分别输入到两层CNN网络中,并分别提取固定64维度的表征向量,再将所述表征向量进行点乘,得到所述韵律特征。5....

【专利技术属性】
技术研发人员:温正棋汪涛
申请(专利权)人:中科极限元杭州智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1