异常语言检测方法、电子设备、存储介质技术

技术编号：40290034 阅读：7 留言：0更新日期：2024-02-07 20:41

本申请涉及保险金融、人工智能技术领域，尤其是涉及一种异常语言检测方法、电子设备、存储介质。本申请异常语言检测方法需要先获取目标音频与目标文本，目标音频与目标文本用于反映同一目标语言内容；再将目标音频输入预训练的音频编码器进行音频特征提取，得到音频特征信息，将目标文本输入预训练的文本编码器进行文本特征提取，得到文本特征信息；进一步，将音频特征信息与文本特征信息进行整合，得到融合嵌入信息；将融合嵌入信息输入预训练的模态融合解码器进行异常语言检测，得到异常语言检测结果。如此一来，便能够提升异常语言检测的准确性。尤其在金融、保险相关领域，对业务资料中敏感词、不雅词等不良信息的筛查，提供了便利。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及保险金融、人工智能，尤其是涉及一种异常语言检测方法、电子设备、存储介质。

技术介绍

1、异常语言检测，指的是指对文本或者语音中的敏感词、不雅词等不良信息进行识别和过滤的技术。异常语言检测的重要性在于维护网络环境的健康和秩序，以及保护用户权益。在金融、保险相关领域，文本形式的业务资料可以源自各式各样的人群，其中不少的人因为不了解如何使用规范的文本表述，以至于提供的业务资料中常常会包含敏感词、不雅词等不良信息，因此在金融领域、保险领域中针对异常语言进行识别和过滤的需求较大。

2、相关技术中，异常语言检测的方法主要包括基于规则的方法和基于机器学习的方法。其一，基于规则的异常语言检测方法通过建立敏感词库或正则表达式来匹配文本中的异常语言，该方法简单易实现，但缺点是需要人工维护敏感词库，不能适应新出现的异常语言，也不能处理语义上的隐含或替换等变形方式，导致异常语言检测的准度较低；其二，基于机器学习的异常语言检测方法通过训练模型来自动学习文本中的异常语言特征，并对新输入的文本进行分类或标注，该方法能够处理一定程度上的变形方式，但缺点是需要大量标注数据来训练模型，且模型可能存在误判或漏判等问题。因此，如何提升异常语言检测的准确性，仍然是业内亟待解决的一大难题。

技术实现思路

1、本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种异常语言检测方法、电子设备、存储介质，能够提升异常语言检测的准确性。

2、根据本申请的第一方面实施例的异常语言检测方法，包括：

3、获取目标音频与目标文本，所述目标音频与所述目标文本用于反映同一目标语言内容；

4、将所述目标音频输入预训练的音频编码器进行音频特征提取，得到音频特征信息；

5、将所述目标文本输入预训练的文本编码器进行文本特征提取，得到文本特征信息；

6、将所述音频特征信息与所述文本特征信息进行整合，得到融合嵌入信息；

7、将所述融合嵌入信息输入预训练的模态融合解码器进行异常语言检测，得到异常语言检测结果，所述异常语言检测结果用于指示所述目标语言内容达到语言异常基准，或者用于指示所述目标语言内容未达到所述语言异常基准。

8、根据本申请的一些实施例，所述将所述目标音频输入预训练的音频编码器进行音频特征提取，得到音频特征信息之前，还包括对所述音频编码器、所述文本编码器与所述融合模态解码器进行联合预训练，具体包括：

9、获取训练数据集，所述训练数据集包括多个训练语言样本，每个所述训练语言样本配置有对应的训练标签；其中，所述训练语言样本包括表征同一训练语言内容的训练音频与训练文本，所述训练标签用于标识所述训练语言内容是否达到所述语言异常基准；

10、将所述训练音频输入原始的所述音频编码器、将所述训练文本输入原始的所述文本编码器、将所述训练标签输入原始的所述融合模态解码器联合进行迭代训练；

11、当迭代训练符合第一预定条件，得到预训练的所述音频编码器、预训练的所述文本编码器与预训练的所述融合模态解码器。

12、根据本申请的一些实施例，所述将所述训练音频输入原始的所述音频编码器、将所述训练文本输入原始的所述文本编码器、将所述训练标签输入原始的所述融合模态解码器联合进行迭代训练，包括：

13、每一轮迭代训练中，基于所述音频编码器对所述训练音频进行音频特征提取得到训练音频信息；

14、基于所述文本编码器对所述训练文本进行文本特征提取得到训练文本信息；

15、将所述训练音频信息与所述训练文本信息整合生成训练融合信息输入所述融合模态解码器进行异常语言检测，得到本轮检测结果；

16、在得到所述本轮检测结果后，基于所述本轮检测结果与所述训练标签更新所述音频编码器、所述文本编码器与所述融合模态解码器。

17、根据本申请的一些实施例，所述获取目标音频与目标文本，包括：

18、获取所述目标语言内容的所述目标音频；

19、对所述目标音频进行语音识别处理，得到与所述目标语言内容对应的目标文本。

20、根据本申请的一些实施例，所述将所述融合嵌入信息输入预训练的模态融合解码器进行异常语言检测，得到异常语言检测结果，包括：

21、将所述融合嵌入信息输入预训练的模态融合解码器进行解码处理，得到与所述融合嵌入信息对应的解码分类参量；

22、基于所述解码分类参量检测所述目标语言内容是否达到所述语言异常基准，得到所述异常语言检测结果。

23、根据本申请的一些实施例，所述异常语言检测结果包括第一检测结果或者第二检测结果，所述第一检测结果用于指示所述目标语言内容达到所述语言异常基准，所述第二检测结果用于指示所述目标语言内容未达到所述语言异常基准；

24、所述基于所述解码分类参量检测所述目标语言内容是否达到所述语言异常基准，得到所述异常语言检测结果，包括：

25、基于所述解码分类参量，确定出所述目标语言内容中的异常语言内容量；

26、当所述异常语言内容量符合第二预定条件，确定所述目标语言内容达到所述语言异常基准；并将所述异常语言检测结果确定为所述第一检测结果；

27、当所述异常语言内容量未符合第二预定条件，确定所述目标语言内容未达到所述语言异常基准，并将所述异常语言检测结果确定为所述第二检测结果。

28、根据本申请的一些实施例，所述将所述目标音频输入预训练的音频编码器进行音频特征提取，得到音频特征信息，包括：

29、将所述目标音频输入预训练的音频编码器的多头注意力模块进行编码处理，生成音频查询矩阵、音频键矩阵与音频值矩阵；

30、将所述音频查询矩阵、所述音频键矩阵与所述音频值矩阵进行缩放点积注意力运算，得到所述音频特征信息。

31、根据本申请的一些实施例，所述将所述目标文本输入预训练的文本编码器进行文本特征提取，得到文本特征信息，包括：

32、将所述目标文本输入预训练的文本编码器的多头注意力模块进行编码处理，生成文本查询矩阵、文本键矩阵与文本值矩阵；

33、将所述文本查询矩阵、所述文本键矩阵与所述文本值矩阵进行缩放点积注意力运算，得到所述文本特征信息。

34、第二方面，本申请实施例提供了一种电子设备，包括：存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如本申请第一方面实施例中任意一项所述的异常语言检测方法。

35、第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行实现如本申请第一方面实施例中任意一项所述的异常语言检测方法。

36、根据本申请实施例的异常语言检测方法、电子设备、存储介质，至少具有如下有益效果：

37、根据本申请异常语言检测方法，需要先获取目标音频与目标文本，目标音频本文档来自技高网...

【技术保护点】

1.一种异常语言检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标音频输入预训练的音频编码器进行音频特征提取，得到音频特征信息之前，还包括对所述音频编码器、所述文本编码器与所述融合模态解码器进行联合预训练，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述训练音频输入原始的所述音频编码器、将所述训练文本输入原始的所述文本编码器、将所述训练标签输入原始的所述融合模态解码器联合进行迭代训练，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取目标音频与目标文本，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述融合嵌入信息输入预训练的模态融合解码器进行异常语言检测，得到异常语言检测结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述异常语言检测结果包括第一检测结果或者第二检测结果，所述第一检测结果用于指示所述目标语言内容达到所述语言异常基准，所述第二检测结果用于指示所述目标语言内容未达到所述语言异常基准；

7.根据权利要求1所述的

8.根据权利要求1所述的方法，其特征在于，所述将所述目标文本输入预训练的文本编码器进行文本特征提取，得到文本特征信息，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的异常语言检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行实现如权利要求1至8中任意一项所述的异常语言检测方法。

...

【技术特征摘要】

1.一种异常语言检测方法，其特征在于，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取目标音频与目标文本，包括：

6.根据权利要求5所述的方法，其特征在于，所述异常语言检测结...

【专利技术属性】
技术研发人员：孙超，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人