语音生成过程听觉无感模拟水印嵌入方法技术

技术编号:38392135 阅读:15 留言:0更新日期:2023-08-05 17:45
本发明专利技术公开了一种语音生成过程听觉无感模拟水印嵌入方法,包括:基于待合成文本构建语音时频谱;将溯源水印内容中的每个字符用一串N位二进制编码值表征;在听觉无感的频率范围内选取N个瞄点频率;将每串N位二进制编码值依次与N个瞄点频率对应,以形成频域掩码;若二进制编码值为1/0,则对应瞄点频率

【技术实现步骤摘要】
语音生成过程听觉无感模拟水印嵌入方法


[0001]本专利技术涉及语音处生成
,尤其涉及一种语音生成过程听觉无感模拟水印嵌入方法。

技术介绍

[0002]目前,随着深度伪造技术的快速发展,生成式语音(主要包括利用语音合成技术及音色转换技术生成的语音)的真实度、自然度、与目标人物音色的相似度都得到了极大的提升,达到了以假乱真的程度。智能语音生成技术在为智能交互应用或设备提供便利的同时,也给信息认知、社会安全等方面带来了威胁。近年来,以语音合成和音色转换为主的智能语音生成软件在互联网上广泛传播,降低了语音制作的技术门槛和成本,并提高了生成语音质量,逐渐被不法分子用于网络电信诈骗等场景,通过生成式语音隐藏犯罪行径或仿冒受害者亲属进行诈骗,造成了大量的受害者和巨额的经济损失,业已成为影响社会稳定的突出犯罪问题。
[0003]专利CN112712809A提供了一种语音真伪检测方法,通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测,完成了语音真伪和语音来源的检测,解决了现有语音检测技术检测结果偏移的问题,有助于提升语音检测方法的准确性。
[0004]专利CN112992126A提供了语音真伪的验证方法,通过训练声音特征提取网络及分类模型,提取出针对于语音活体检测的声音特征,同时利用区分度更高更不易混淆的分类模型进行分类,提高对声音分类的准确性。
[0005]专利CN115083422A提供了一种语音溯源取证方法,通过提取算法指纹,预测出的待测试语音的生成算法,作为语音溯源取证结果,进而得到虚假音频的生成来源。
[0006]从上述专利的背景描述中可以发现,目前针对生成式语音检测任务的语音鉴伪技术尚不成熟与完善,更多研究聚焦于真伪语音的检测,难以实现语音生成来源的追溯;且由于语音生成的手段和方法日新月异、层出不穷,语音鉴伪技术在实际应用中干扰较多,难以实现精准溯源和取证,同时也难以对生成语音的公司或个人信息进行溯源。

技术实现思路

[0007]本专利技术实施例提供一种语音生成过程听觉无感模拟水印嵌入方法,用以解决现有技术溯源效果差的问题。
[0008]本专利技术实施例的语音生成过程听觉无感模拟水印嵌入方法,包括:获取待合成文本及其溯源水印内容;基于所述待合成文本,构建语音时频谱;将所述溯源水印内容中的每个字符用一串N位二进制编码值表征;所述字符为汉字、或阿拉伯数字、或英文字母、或特殊符号;在听觉无感的频率范围内选取N个瞄点频率;基于预设对应规则将每个所述字符对应的N位二进制编码值与所述N个瞄点频率
对应起来,以形成该字符对应的频域掩码;若一位所述二进制编码值为1,则对应瞄点频率
±
aHz带宽上的频域掩码为1,若一位所述二进制编码值为0,则对应瞄点频率
±
aHz带宽上的频域掩码为0;对所述语音时频谱进行分段处理,以获得多段语音时频谱片段,并将所述多段语音时频谱片段与所述溯源水印内容中的多个字符对应起来,所述多段语音时频谱片段的段数大于等于所述溯源水印内容中的字符个数;基于所述溯源水印内容中每个字符对应的频域掩码对其对应的语音时频谱片段进行频域掩蔽处理;当所述频域掩码为1时,所述语音时频谱片段中该频域掩码对应频段的能量不变;当所述频域掩码为0时,所述语音时频谱片段中该频域掩码对应频段的能量置零;对完成掩蔽处理的语音时频谱进行逆傅里叶变换,以生成语音。
[0009]本专利技术实施例还提出一种基于语音生成过程听觉无感模拟水印嵌入的语音溯源方法,包括:获取待溯源语音,所述待溯源语音基于如上所述的语音生成过程听觉无感模拟水印嵌入方法生成;统计所述待溯源语音对应频段上的能量分布信息,并结合水印编码规则,解码出所述待溯源语音携带的溯源水印内容;基于所述溯源水印内容对所述待溯源语音溯源。
[0010]本专利技术实施例还提出一种语音生成设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的方法的步骤。
[0011]本专利技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如上所述的方法的步骤。
[0012]采用本专利技术实施例,可以实现生成式语音标识的“事前”、伴随式嵌入,从而保证生成式语音的精准溯源及有效管理。
[0013]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0014]通过阅读下文实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。在附图中:图1是本专利技术实施例中基于语音生成过程听觉无感模拟水印嵌入的语音溯源方法流程图;图2是本专利技术实施例中语音生成过程听觉无感模拟水印嵌入方法流程图;图3是本专利技术实施例中梅尔滤波器组分布示意图;图4是本专利技术实施例中逆梅尔滤波器组分布示意图。
具体实施方式
[0015]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。另外,在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0016]本专利技术实施例的语音生成过程听觉无感模拟水印嵌入方法,包括:获取待合成文本及其溯源水印内容;溯源水印内容(也可简称为水印内容)用于待合成文本的溯源。
[0017]基于所述待合成文本,构建语音时频谱;将所述溯源水印内容中的每个字符用一串N位二进制编码值表征;所述字符为汉字、或阿拉伯数字、或英文字母、或特殊符号;可以理解,溯源水印内容可以由汉字、阿拉伯数字、英文字母、特殊符号中的一种或多种组合构建而成。字符中的每个汉字、和/或每个阿拉伯数字、和/或每个英文字母、和/或每个特殊符都对应一串N位二进制编码值。
[0018]在听觉无感的频率范围内选取N个瞄点频率;这里的“听觉无感的频率范围”可以理解为该频率范围内的频率不易被人类感知到。这里的“N”代表的是一个正整数。
[0019]基于预设对应规则将每个所述字符对应的N位二进制编码值与所述N个瞄点频率对应起来,以形成该字符对应的频域掩码;若一位所述二进制编码值为1,则对应瞄点频率
±
aHz带宽上的频域掩码为1,若一位所述二进制编码值为0,则对应瞄点频率
±
aHz带宽上的频域掩码为0。
[0020]可以理解,一个字符对应的N位频域掩码也是一串N位二进制编码值且其值就等于用于表征字符的N位二进制编码值,只不过这N位二进制编码值中的每个二进制编码值对应一个频带,即:瞄点频率
±<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音生成过程听觉无感模拟水印嵌入方法,其特征在于,包括:获取待合成文本及其溯源水印内容;基于所述待合成文本,构建语音时频谱;将所述溯源水印内容中的每个字符用一串N位二进制编码值表征;所述字符为汉字、或阿拉伯数字、或英文字母、或特殊符号;在听觉无感的频率范围内选取N个瞄点频率;基于预设对应规则将每个所述字符对应的N位二进制编码值与所述N个瞄点频率对应起来,以形成该字符对应的频域掩码;若一位所述二进制编码值为1,则对应瞄点频率
±
aHz带宽上的频域掩码为1,若一位所述二进制编码值为0,则对应瞄点频率
±
aHz带宽上的频域掩码为0;对所述语音时频谱进行分段处理,以获得多段语音时频谱片段,并将所述多段语音时频谱片段与所述溯源水印内容中的多个字符对应起来,所述多段语音时频谱片段的段数大于等于所述溯源水印内容中的字符个数;基于所述溯源水印内容中每个字符对应的频域掩码对其对应的语音时频谱片段进行频域掩蔽处理;当所述频域掩码为1时,所述语音时频谱片段中该频域掩码对应频段的能量不变;当所述频域掩码为0时,所述语音时频谱片段中该频域掩码对应频段的能量置零;对完成掩蔽处理后的语音时频谱进行逆傅里叶变换,以生成语音。2.如权利要求1所述的方法,其特征在于,所述将所述溯源水印内容中的每个字符用一串二进制编码值表征,包括:基于Unicode编码技术,将所述溯源水印内容中的每个字符用一串16位二进制编码值表征。3.如权利要求2所述的方法,其特征在于,所述在听觉无感的频率范围内选取N个瞄点频率,包括:在4000Hz~5500Hz范围内选取16个瞄点频率。...

【专利技术属性】
技术研发人员:田野汤跃忠陈骁陈云坤
申请(专利权)人:中国电子科技集团公司第三研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1