一种基于音频伪造信息解耦和强化学习的合成语音的检测方法技术

技术编号：39320003 阅读：12 留言：0更新日期：2023-11-12 16:01

本发明专利技术属于音频检测技术领域，特别涉及一种基于音频伪造信息解耦和强化学习的合成语音的检测方法，包括以下步骤：获取待检测语音；依据所述待检测语音提取音频因素并对所述音频因素进行解耦；基于强化学习对解耦后的所述音频因素进行合成检测，得到检测结果。本发明专利技术提供的合成语音检测方法使用音频信息解耦的方式，从不同的特征维度上进行深度合成音频伪造检测，使用强化学习在与环境交互过程中通过学习策略以达成回报最大化来进行深度合成音频伪造检测，具有可解释性强、鲁棒性强和泛化性强的优点。性强的优点。性强的优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于音频伪造信息解耦和强化学习的合成语音的检测方法

[0001]本专利技术涉及音频检测
，尤其涉及一种基于音频伪造信息解耦和强化学习的合成语音的检测方法。

技术介绍

[0002]语音是现代通讯和信息交流的重要形式之一。随着数字语音技术的不断发展，语音合成技术已经成为实现语音信息自动化的关键技术之一，被广泛应用于语音转换、语音合成、音乐生成等领域。然而，随着语音合成技术的广泛应用，一些不良分子利用语音合成技术进行网络欺诈、声音冒充等活动，严重威胁了网络安全和社会稳定。因此，如何准确、高效地检测合成语音具有重要的现实意义和应用价值。传统的深度合成音频检测往往直接将音频提取特征然后送入分类网络中，缺乏对伪造信息检测的鲁棒性、泛化性和可解释性。

技术实现思路

[0003]有鉴于此，本专利技术实施例提供了一种基于音频伪造信息解耦和强化学习的合成语音的检测方法，用以解决传统深度合成音频检测方法缺乏对伪造信息检测的鲁棒性、泛化性和可解释性的技术问题。
[0004]第一方面，本专利技术实施例提供一种合成语音检测方法，包括以下步骤：获取待检测语音；依据所述待检测语音提取音频因素并对所述音频因素进行解耦；基于强化学习对解耦后的所述音频因素进行合成检测，得到检测结果。
[0005]优选地，依据所述待检测语音提取音频因素包括以下步骤：使用预训练的d
‑
vector模型提取所述音色特征；提取不同音素的持续时长，并通过多层卷积网络作为韵律特征；使用预训练的Hubert模型提取内容特征；...

【技术保护点】

【技术特征摘要】
1.一种基于音频伪造信息解耦和强化学习的合成语音的检测方法，其特征在于：包括以下步骤：获取待检测语音；依据所述待检测语音提取音频因素并对所述音频因素进行解耦；基于强化学习对解耦后的所述音频因素进行合成检测，得到检测结果。2.如权利要求1所述的合成语音的检测方法，其特征在于：依据所述待检测语音提取音频因素包括以下步骤：使用预训练的d
‑
vector模型提取所述音色特征；提取不同音素的持续时长，并通过多层卷积网络作为韵律特征；使用预训练的Hubert模型提取内容特征；使用传统信号的提取方式提取基频特征；将传统波形通过SincNet滤波器后进行编码，保留伪造痕迹特征。3.如权利要求2所述的合成语音的检测方法，其特征在于：对所述音频因素进行解耦包括以下步骤：对所述音色特征、韵律特征、内容特征、基频特征和伪造痕迹特征进行解耦，得到音色信息、韵律信息、内容信息、基频信息和伪造痕迹信息。4.如权利要求2所述的合成语音的检测方法，其特征在于：在提取所述内容特征和基频特征之前，对所述待检测语音进行随机重采样。5.如权利要求3所述的合成语音的检测方法，其特征在于：基于强化学习对所述音频因素进行合成检测包括以下步骤：使用预设的神经网络...

【专利技术属性】
技术研发人员：温正棋，陆逸，
申请(专利权)人：中科极限元杭州智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人