一种基于多任务对抗解耦学习的语音隐私保护方法及系统技术方案

技术编号：41270851 阅读：6 留言：0更新日期：2024-05-11 09:25

本发明专利技术公开了一种基于多任务对抗解耦学习的语音隐私保护方法及系统，该方法包括下述步骤：对语音信号提取声学特征得到特征编码结果，基于三个并行的通道注意力计算模块构建信息解耦模块，将特征编码结果进行多任务解耦特征学习，进行年龄段分类、自动语音解码和身份识别，并基于年龄段分类、自动语音解码和身份识别对应的损失函数进行监督训练，计算解耦特征信息的整体相似度并构建最小‑最大目标，HiFi‑GAN生成器将相加后的特征信息进行隐秘音频重建，输出隐秘音频。本发明专利技术在维护隐私的同时避免丢失其中的年龄属性，并确保下游的年龄估计任务具有良好的预测精度，并且从隐私保护的角度出发添加相似度约束，实现高精度的年龄识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音信号处理，具体涉及一种基于多任务对抗解耦学习的语音隐私保护方法及系统。

技术介绍

1、随着近年来人工智能技术的快速发展以及数据和计算资源的不断增强，语音识别技术逐步从传统的高斯混合模型-隐马尔可夫模型转向以深度神经网络为主导。然而，这一转变也由此引发了人们对数据隐私安全的担忧与顾虑。

2、常见的语音识别技术，声纹识别能够从一段用户语音中提取到其相应的声纹特征，从而实现用户身份认证/辨认，这表明语音不仅包含了潜在的敏感信息，如说话内容，还有具备与身份密切相关的声纹特征。为了确保隐私安全，通常采用复合式架构来对语音识别服务进行部署，在这种架构下，客户端部署模型的编码器，对用户输入的语音进行初步的编码，同时保护原始语音的隐私，随后，编码后的信息被传输到云端服务器，通过语音处理引擎、语音识别模型完成预测、分类等任务，最终将结果返回给客户端。

3、虽然被传输的特征编码在离开原始训练的神经网络后难以逆向重建原始语音，但对这些中间编码进行敏感信息的识别和提取仍然具有一定的可能性。尽管引入同态加密和差分隐私等技术在一定程度上能够有效解决对中间编码进行敏感信息识别和提取的问题，但却对模型的分类精度造成一定影响，同时也带来了更高的计算成本。

4、综上所述，如何针对语音中的敏感内容和某些属性（例如身份）实施隐私保护，同时确保下游任务（例如估计年龄）的预测精度不受影响，是一个亟待解决的关键问题。

技术实现思路

1、为了克服现有技术存在的缺陷与不足，本专

2、为了达到上述目的，本专利技术采用以下技术方案：

3、本专利技术提供一种基于多任务对抗解耦学习的语音隐私保护方法，包括下述步骤：

4、获取语音信号，基于编码器对语音信号进行声学特征提取，得到特征编码结果；

5、基于三个并行的通道注意力计算模块构建信息解耦模块，进行多任务解耦特征学习，具体包括：

6、将特征编码结果进行一维全局自适应平均池化，得到各通道的全局统计量；

7、全局统计量经过三个并行的通道注意力计算模块的一维卷积运算，得到三个不同的注意力权重，所述一维卷积运算中卷积核参数不同，一维卷积运算的卷积核大小与通道维度成正比；

8、对三个不同的注意力权重的每一个特征维度进行归一化，得到三个最终的注意力权重；

9、基于三个最终的注意力权重对特征编码结果进行放缩，分别得到特征信息、特征信息、特征信息；

10、分别使用两个全连接层对特征信息和特征信息进行编码，得到特征信息和特征信息；

11、基于全连接网络的年龄段分类器、基于transformer的自动语音解码器和基于全连接网络的身份识别器分别对特征信息、特征信息和特征信息进行年龄段分类、自动语音解码和身份识别；

12、基于多分类交叉熵损失函数对年龄段分类进行监督训练，基于ctc损失和交叉熵损失构建自动语音识别损失对自动语音解码进行监督训练，基于三元损失函数对身份识别进行监督训练；

13、对特征信息、特征信息、特征信息中同一时间步的特征向量两两计算余弦相似度，将所有时间步的相似度进行累加及求和，得到整体相似度，基于多分类交叉熵损失函数、自动语音识别损失、三元损失函数和整体相似度构建最小-最大目标；

14、将特征信息、特征信息和特征信息进行特征相加，相加后的特征信息输入至hifi-gan生成器中进行隐秘音频重建，输出隐秘音频。

15、作为优选的技术方案，所述基于编码器对语音信号进行声学特征提取，采用wav2vec 2.0编码器对语音信号进行声学特征提取。

16、作为优选的技术方案，全局统计量经过三个并行的通道注意力计算模块的一维卷积运算，得到三个不同的注意力权重，具体表示为：

17、；

18、；

19、；

20、；

21、；

22、；

23、其中，、和分别表示三个并行的通道注意力计算模块的一维卷积运算，表示通道维度，表示全局统计量；

24、对三个注意力权重的每一个特征维度进行归一化，得到三个最终的注意力权重，具体表示为：

25、；

26、；

27、；

28、其中，。

29、作为优选的技术方案，所述一维卷积运算的卷积核大小与通道维度成正比，具体表示为：

30、；

31、其中，表示取最近的奇数，和是自定义参数，表示通道维度，表示卷积核大小。

32、作为优选的技术方案，分别使用两个全连接层对特征信息和特征信息进行编码，得到特征信息和特征信息，具体表示为：

33、；

34、；

35、其中， w 3和 w 4是两个全连接层的权重矩阵， b 3和 b 4是相应的偏置向量，是sigmoid激活函数。

36、作为优选的技术方案，多分类交叉熵损失函数表示为：

37、；

38、其中， n s是样本数量， n a是年龄段数量， y i,j是一个指示器，对于第 i个样本属于第 j个年龄段时为1，否则为0， p i,j是年龄段分类器预测第 i个样本属于第 j个年龄段的概率；

39、ctc损失表示为：

40、；

41、；

42、；

43、；

44、；

45、其中， l ctc表示ctc损失，表示第个样本的输入音频序列，表示在时间步时选取的字符为的概率，表示第个样本的标注字符序列，表示与对齐的所有可能路径的集合，表示其中一条路径， k表示字符集合的大小， l表示本文档来自技高网...

【技术保护点】

1.一种基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，所述基于编码器对语音信号进行声学特征提取，采用wav2vec 2.0编码器对语音信号进行声学特征提取。

3.根据权利要求1所述基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，全局统计量经过三个并行的通道注意力计算模块的一维卷积运算，得到三个不同的注意力权重，具体表示为：

4.根据权利要求1所述基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，所述一维卷积运算的卷积核大小与通道维度成正比，具体表示为：

5.根据权利要求1所述基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，分别使用两个全连接层对特征信息和特征信息进行编码，得到特征信息和特征信息，具体表示为：

6.根据权利要求1所述基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，多分类交叉熵损失函数表示为：

7.根据权利要求1所述基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，对特征信

8.根据权利要求1所述基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，所述HiFi-GAN生成器包括依次连接的转置卷积层、自注意力计算模块、多感受野融合模块；

9.根据权利要求1所述基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，将特征信息、特征信息和特征信息进行特征相加，相加后的特征信息输入至HiFi-GAN生成器中进行隐秘音频重建，输出隐秘音频，具体包括：

10.一种基于多任务对抗解耦学习的语音隐私保护系统，其特征在于，用于实现上述权利要求1-9任一项所述的基于多任务对抗解耦学习的语音隐私保护方法，该系统包括：语音信号获取模块、编码器、信息解耦模块、混淆模块、年龄段分类器、自动语音解码器、身份识别器、监督训练模块、整体相似度计算模块、最小-最大目标构建模块、隐秘音频重建模块；

...

【技术特征摘要】

1.一种基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，包括下述步骤：

4.根据权利要求1所述基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，所述一维卷积运算的卷积核大小与通道维度成正比，具体表示为：

6.根据权利要求1所述基于多任务对抗解耦学习的语音隐私保护方法，其特征在于，多分类交叉熵损失函数表示为：

7.根据权利要...

【专利技术属性】
技术研发人员：林舒源，廖海良，翁健，潘涛，
申请(专利权)人：暨南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人