语音生成过程听觉无感模拟水印嵌入方法技术

技术编号：38392135 阅读：15 留言：0更新日期：2023-08-05 17:45

本发明专利技术公开了一种语音生成过程听觉无感模拟水印嵌入方法，包括：基于待合成文本构建语音时频谱；将溯源水印内容中的每个字符用一串N位二进制编码值表征；在听觉无感的频率范围内选取N个瞄点频率；将每串N位二进制编码值依次与N个瞄点频率对应，以形成频域掩码；若二进制编码值为1/0，则对应瞄点频率

全部详细技术资料下载

【技术实现步骤摘要】
语音生成过程听觉无感模拟水印嵌入方法

[0001]本专利技术涉及语音处生成
，尤其涉及一种语音生成过程听觉无感模拟水印嵌入方法。

技术介绍

[0002]目前，随着深度伪造技术的快速发展，生成式语音（主要包括利用语音合成技术及音色转换技术生成的语音）的真实度、自然度、与目标人物音色的相似度都得到了极大的提升，达到了以假乱真的程度。智能语音生成技术在为智能交互应用或设备提供便利的同时，也给信息认知、社会安全等方面带来了威胁。近年来，以语音合成和音色转换为主的智能语音生成软件在互联网上广泛传播，降低了语音制作的技术门槛和成本，并提高了生成语音质量，逐渐被不法分子用于网络电信诈骗等场景，通过生成式语音隐藏犯罪行径或仿冒受害者亲属进行诈骗，造成了大量的受害者和巨额的经济损失，业已成为影响社会稳定的突出犯罪问题。
[0003]专利CN112712809A提供了一种语音真伪检测方法，通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测，完成了语音真伪和语音来源的检测，解决了现有语音检测技术检测结果偏移的问题，有助于提升语音检测方法的准确性。
[0004]专利CN112992126A提供了语音真伪的验证方法，通过训练声音特征提取网络及分类模型，提取出针对于语音活体检测的声音特征，同时利用区分度更高更不易混淆的分类模型进行分类，提高对声音分类的准确性。
[0005]专利CN115083422A提供了一种语音溯源取证方法，通过提取算法指纹，预测出的待测试语音的生成算法，作为语音溯源取证结果，进而...

【技术保护点】

【技术特征摘要】
1.一种语音生成过程听觉无感模拟水印嵌入方法，其特征在于，包括：获取待合成文本及其溯源水印内容；基于所述待合成文本，构建语音时频谱；将所述溯源水印内容中的每个字符用一串N位二进制编码值表征；所述字符为汉字、或阿拉伯数字、或英文字母、或特殊符号；在听觉无感的频率范围内选取N个瞄点频率；基于预设对应规则将每个所述字符对应的N位二进制编码值与所述N个瞄点频率对应起来，以形成该字符对应的频域掩码；若一位所述二进制编码值为1，则对应瞄点频率
±
aHz带宽上的频域掩码为1，若一位所述二进制编码值为0，则对应瞄点频率
±
aHz带宽上的频域掩码为0；对所述语音时频谱进行分段处理，以获得多段语音时频谱片段，并将所述多段语音时频谱片段与所述溯源水印内容中的多个字符对应起来，所述多段语音时频谱片段的段数大于等于所述溯源水印内容中的字符个数；基于所述溯源水印内容中每个字符对应的频域掩码对其对应的语音时频谱片段进行频域掩蔽处理；当所述频域掩码为1时，所述语音时频谱片段中该频域掩码对应频段的能量不变；当所述频域掩码为0时，所述语音时频谱片段中该频域掩码对应频段的能量置零；对完成掩蔽处理后的语音时频谱进行逆傅里叶变换，以生成语音。2.如权利要求1所述的方法，其特征在于，所述将所述溯源水印内容中的每个字符用一串二进制编码值表征，包括：基于Unicode编码技术，将所述溯源水印内容中的每个字符用一串16位二进制编码值表征。3.如权利要求2所述的方法，其特征在于，所述在听觉无感的频率范围内选取N个瞄点频率，包括：在4000Hz~5500Hz范围内选取16个瞄点频率。...

【专利技术属性】
技术研发人员：田野，汤跃忠，陈骁，陈云坤，
申请(专利权)人：中国电子科技集团公司第三研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人