一种基于跨模态语言模型的违规图片识别方法及系统技术方案

技术编号：41696363 阅读：18 留言：0更新日期：2024-06-19 12:31

本发明专利技术实施例公开了一种基于跨模态语言模型的违规图片识别方法及系统，本发明专利技术实施例通过基于注意力机制的第一网络对待识别图片进行处理，获得待识别图片的第一特征序列；通过单层线性映射的第二网络获得第二特征序列；根据需要判断的违规类型，通过模板构造提示文本，得到第一词序列并进行文本预处理，获取第一词向量序列并和第二特征序列进行拼接，生成第三特征序列并使用第一语言模型进行文本生成，得到第一生成词序列；对第一生成词序列中的关键词进行判断，获取图片识别结果。本发明专利技术实施例通过利用语言模型中的额外知识来判断图片中的违规内容，提升了整体的泛化性能；对于不同的违规类别，不需要重新训练模型，节约了成本，提升了开发效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及图像处理，具体涉及一种基于跨模态语言模型的违规图片识别方法及系统。

技术介绍

1、在互联网场景中，基于合规或是实际业务需求，需要对用户发表的内容进行审核。近期人工智能生成技术的快速发展也使得审核的需求量激增。相对于其他载体而言，图片承载的信息量大、内容展现直观，因此图片一直是审核的重点内容之一。

2、现有的图片审核技术通常是基于深度学习中的分类模型、检测模型或是二者的结合。这样的方式可以解决部分问题但存在很大的缺陷。首先，无论是分类模型还是检测模型，都十分依赖于人工标注数据，当有新的类别需要识别时，往往需要重新训练模型；其次，通常而言违规的样本比较难获取，在训练数据量有限的情况下，分类和检测模型的泛化能力不足，会导致一些样本的漏检或是误检。

技术实现思路

1、为此，本专利技术实施例提供一种基于跨模态语言模型的违规图片识别方法及系统，以解决现有技术通过分类模型或检测模型进行检测时易造成漏检误检，识别准确率不足的技术问题。

2、为了实现上述目的，本专...

【技术保护点】

1.一种基于跨模态语言模型的违规图片识别方法，其特征在于，所述方法应用于跨模态语言模型，其包括：

2.如权利要求1所述的一种基于跨模态语言模型的违规图片识别方法，其特征在于，通过基于注意力机制的第一网络对所述待识别图片进行处理，获得所述待识别图片的第一特征序列，包括：

3.如权利要求2所述的一种基于跨模态语言模型的违规图片识别方法，其特征在于，根据需要判断的违规类型，通过模板构造提示文本，包括：

4.如权利要求3所述的一种基于跨模态语言模型的违规图片识别方法，其特征在于，对第一词序列进行文本预处理，获取第一词向量序列，包括：