内容风险识别方法、存储介质及电子设备技术

技术编号：40391962 阅读：6 留言：0更新日期：2024-02-20 22:22

本申请提供一种内容风险识别方法、存储介质及电子设备。所述方法包括：包括：分别获取文本单模态、音频单模态以及图片单模态的文本特征向量、音频特征向量以及图片特征向量；分别以文本、音频以及图片作为目标模态，基于跨模态注意力机制、所述文本特征向量、所述音频特征向量以及所述图片特征向量获取目标模态的跨模态表示；将各所述目标模态的跨模态表示输入到Transformer网络模型，获取内容风险概率值。本申请有效解决现有技术中单模态内容风险识别方法存在的鲁棒性差，识别率不够高以及无法解决多模态内容融合的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于人工智能，特别是涉及风险识别。

技术介绍

1、随着内容风险的不断增加，内容风险识别已经成为了一项非常重要的任务。目前，大多数关于内容风险识别模型的研究集中在语言模态上，尤其是文本识别方面。但是，单模态内容风险识别存在识别率不够高和鲁棒性差等问题，也无法解决音频、图片与文本融合的内容。

2、cbir(content-based image retrieval，基于内容的图像检索)是一种基于图像内容的检索技术，重点在于对图像信息的提取、编码和降维处理。cbir是一种单模态检索方法，主要针对图片这一特定的模态进行检索，虽然能够有效地识别风险图像，但其检索能力较为有限，难以涉及到更广泛的内容风险识别领域，而hsd(hate speech detection)是一种面向文本的检测技术，主要针对恶意言论和仇恨言论的文本进行识别和分类，与cbir一样不能很好的处理多模态的信息。与之相比，本文所提及的模型注重多模态特征的融合和交互，能够更准确地捕捉到不同模态之间的特征信息，能够同时处理文本、视觉和语音等多种模态的风险内容，更具有鲁棒性和普适性。

3、fnd(functional neck dissection，模糊神经网络)虽然在一定程度上也使用了一些多模态特征(如文本、图像等)，但是在建模过程中主要采用的是cnn(convolutionalneural networks，卷积神经网络)模型。在多模态情况下，fnd主要采用cnn模型对特征进行提取和融合，很难在多模态情况下进行灵活有效的特征融合，因此可能在某些情况下误差会更大一些。

技术实现思路

1、本申请提供一种内容风险识别方法、存储介质及电子设备，用于解决现有技术中单模态内容风险识别方法存在的鲁棒性差，识别率不够高以及无法解决多模态内容融合的技术问题。

2、第一方面，本申请实施例提供一种内容风险识别方法，包括：分别获取文本单模态、音频单模态以及图片单模态的文本特征向量、音频特征向量以及图片特征向量；分别以文本、音频以及图片作为目标模态，基于跨模态注意力机制、所述文本特征向量、所述音频特征向量以及所述图片特征向量获取目标模态的跨模态表示；将各所述目标模态的跨模态表示输入到transformer网络模型，获取内容风险概率值。

3、在所述第一方面的一种实现方式中，所述获取目标模态的跨模态表示包括：获取所述文本特征向量、所述音频特征向量以及所述图片特征向量的多模态联合特征；基于所述多模态联合特征和预设的偏置、预设的权值矩阵获取目标模态的跨模态表示。

4、在所述第一方面的一种实现方式中，获取所述文本特征、所述音频特征以及所述图片特征的多模态联合特征的一种方式包括：d＝wαxα+wβxβ+wγxγ；其中，d表示为多模态联合特征，α，β，γ分别表示文本特征向量，语音特征向量，以及图片特征向量，xα，xβ，xγ分别表示文本特征向量，语音特征向量，以及图片特征向量的输入顺序，wα、wβ以及wγ分别表示文本特征向量，语音特征向量，以及图片特征向量的权重。

5、在所述第一方面的一种实现方式中，所述基于所述多模态联合特征和预设的偏置、预设的权值矩阵获取目标模态的跨模态表示的一种方式包括：score＝softmax(vttanh(d+b))；其中，score表示为目标模态的跨模态表示，b表示为偏置，d表示为多模态联合特征，v表示为权值矩阵，softmax表示为归一化指数函数。

6、在所述第一方面的一种实现方式中，通过均匀分布或正态分布随机生成所述偏置的初始值和所述权值矩阵的初始值，通过反向传播算法优化所述偏置和所述权值矩阵。

7、在所述第一方面的一种实现方式中，基于bert预训练模型获取文本单模态的文本特征；所述文本特征的一种表达方式为：

8、

9、其中，ft为语义表征，bert为bert预训练模型，it为文本模态特征，为bert模型参数，rd为特征向量维度。

10、在所述第一方面的一种实现方式中，利用covarep语音处理工具获取音频单模态的的音频特征。

11、在所述第一方面的一种实现方式中，通过resnext模型获取图片单模态的的图片特征；其中，采用从resnext模型的全局平均池化层输出获取图片特征向量。

12、第二方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请第一方面中任一项所述的内容风险识别方法。

13、第三方面，本申请实施例提供一种电子设备，所述电子设备包括：存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行本申请第一方面中任一项所述的内容风险识别方法。

14、本申请实施例提供的内容风险识别方法，通过多模态内容风险识别，可以更具体地利用多种模态识别包含的信息，捕捉模态之间的互补信息，从而提升识别性能和鲁棒性，通过不同模态的融合，可以进一步提高多模态内容风险识别的准确性和泛化能力，有效解决现有技术中单模态内容风险识别方法存在的鲁棒性差，识别率不够高以及无法解决多模态内容融合的技术问题。

本文档来自技高网...

【技术保护点】

1.一种内容风险识别方法，其特征在于，包括：

2.根据权利要求1所述的内容风险识别方法，其特征在于，所述获取目标模态的跨模态表示包括：

3.根据权利要求2所述的内容风险识别方法，其特征在于，获取所述文本特征、所述音频特征以及所述图片特征的多模态联合特征的一种方式包括：

4.根据权利要求2所述的内容风险识别方法，其特征在于，所述基于所述多模态联合特征和预设的偏置、预设的权值矩阵获取目标模态的跨模态表示的一种方式包括：

5.根据权利要求4所述的内容风险识别方法，其特征在于，通过均匀分布或正态分布随机生成所述偏置的初始值和所述权值矩阵的初始值，通过反向传播算法优化所述偏置和所述权值矩阵。

6.根据权利要求1所述的内容风险识别方法，其特征在于，基于BERT预训练模型获取文本单模态的文本特征；所述文本特征的一种表达方式为：

7.根据权利要求1所述的内容风险识别方法，其特征在于，利用COVAREP语音处理工具获取音频单模态的的音频特征。

8.根据权利要求1所述的内容风险识别方法，其特征在于，通过ResNext

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的内容风险识别方法。

10.一种电子设备，其特征在于，所述电子设备包括：

...

【技术特征摘要】

1.一种内容风险识别方法，其特征在于，包括：

2.根据权利要求1所述的内容风险识别方法，其特征在于，所述获取目标模态的跨模态表示包括：

3.根据权利要求2所述的内容风险识别方法，其特征在于，获取所述文本特征、所述音频特征以及所述图片特征的多模态联合特征的一种方式包括：

6.根...

【专利技术属性】
技术研发人员：谢蒸，宋荣康，周斌，王志伟，
申请(专利权)人：上海识装信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人