一种违规图像识别方法、系统及设备技术方案

技术编号:32558712 阅读:34 留言:0更新日期:2022-03-05 12:01
本文涉及人工智能领域,提供了一种违规图像识别方法、系统及设备,方法包括:分析待识别图像,得到文本信息及图像信息;将文本信息输入至文本特征提取模型中,得到文本特征向量组;将图像信息输入至图像特征提取模型中,得到图像特征向量组;将文本特征向量组及图像特征向量组输入至特征融合模型中,得到融合特征向量组,特征融合模型用于利用交叉注意力机制使得文本特征向量为图像特征向量添加注意力;将融合特征向量组输入至分类识别模型中,得到违规识别结果。本文使用交叉注意力机制融合两种模态特征,可提升违规图像识别的性能及鲁棒性。性。性。

【技术实现步骤摘要】
一种违规图像识别方法、系统及设备


[0001]本文涉及人工智能
,尤其涉及一种违规图像识别方法、系统及设备。

技术介绍

[0002]互联网上存在着大量的违规图像,这些图像的广泛传播不仅严重危害青少年的身心健康,更增加了社会的不稳定因素。图像识别是计算机视觉领域最基本的研究问题之一,现有技术中对违规图像的识别主要采用如下方法:(1)基于手工提取特征的方式,该种方式主要针对图像底层特征(例如RGB、HOG、SIFT、SURF、SILTP等)的提取,处理相对简单,无需学习与训练;(2)基于卷积神经网络的深度模型识别图像,但现有的深度模型均采用单一图像模态的方式对图像进行识别。
[0003]第一种方式没有考虑高层次特征,具有识别精度低的问题。第二种方式存在无法识别文本违规的图像,不能保证图像识别的精度及鲁棒性。

技术实现思路

[0004]本文用于解决现有的违规图像识别方法未考虑高层次特征,且无法识别文本违规的图像,具有识别精度低及鲁棒性差的问题。
[0005]为了解决上述技术问题,本文的第一方面提供一种违规图像识别方法,包括:分析待识别图像,得到文本信息及图像信息;将所述文本信息输入至文本特征提取模型中,得到文本特征向量组;将所述图像信息输入至图像特征提取模型中,得到图像特征向量组;将所述文本特征向量组及所述图像特征向量组输入至特征融合模型中,得到融合特征向量组,其中,所述特征融合模型用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力;将所述融合特征向量输入至分类识别模型中,得到违规识别结果;其中,所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型利用具有违规识别标签的图像训练得到。
[0006]作为本文的进一步实施例中,所述文本特征提取模型包括:第一嵌入层及多个第一Transformer层;将所述文本信息输入至文本特征提取模型中,得到文本特征向量组,包括:利用所述第一嵌入层对所述文本信息进行分词划分处理得到分词结果,在所述分词结果的开头添加开始符号以及在所述分词结果的结尾添加结束符号,将包含开始符号及结束符号的分词结果中的每一字符分别转换为一个d维度向量;利用所述多个第一Transformer层学习所述第一嵌入层输出结果中每一符号语义关联性,得到文本特征向量组。
[0007]作为本文的进一步实施例中,所述图像特征提取模型包括:第二嵌入层及多个第
二Transformer层;将所述图像信息输入至图像特征提取模型中,得到图像特征向量组,包括:利用所述第二嵌入层对所述图像信息进行缩放处理得到第一预定大小的图像,将缩放后的图像切分为第二预定大小的子图像,将各子图像分别转换为一个d维度向量;利用所述多个第二Transformer层学习第二嵌入层输出结果中每一子图像语义关联性,得到图像特征向量组。
[0008]作为本文的进一步实施例中,所述特征融合模型包括第一线性变换层、第二线性变换层、第三线性变换层、第一关联层组、第二关联层组;将所述文本特征向量组及所述图像特征向量组输入至特征融合模型中,得到融合特征向量组,包括:利用所述第一线性变换层对所述文本特征向量组进行变换,得到键向量组;利用所述第二线性变换层对所述文本特征向量组进行变换,得到值向量组;利用所述第三线性变换层对所述图像特征向量组进行变换,得到查询向量组;利用所述第一关联层组并根据所述查询向量组及键向量组,计算得到注意力矩阵;利用所述第二关联层组并根据所述注意力矩阵、所述值向量组及所述图像特征向量组,计算得到融合特征向量组。
[0009]作为本文的进一步实施例中,所述第一关联层组包括:第一计算层及归一化层;利用所述第一计算层对所述查询向量组及键向量组进行乘积处理,得到注意力矩阵;利用所述归一化层对所述注意力矩阵进行归一化处理。
[0010]作为本文的进一步实施例中,所述第二关联层组包括:第二计算层、第一残差连接与归一化层、第四线性变换层及第二残差连接与归一化层;利用所述第二计算层对归一化后的注意力矩阵及所述值向量组进行相乘处理,得到第一中间向量组;利用所述第一残差连接与归一化层将所述图像特征向量组作为残差添加至所述第一中间向量组中,并对添加残差后的向量组进行归一化处理,得到第二中间向量组;利用所述第四线性变换层对所述第二中间向量组进行变换;利用所述第二残差连接与归一化层将第二中间向量组作为残差添加至所述第四线性变换层输出的向量组中,并对添加残差后的向量组进行归一化处理,得到融合特征向量组。
[0011]作为本文的进一步实施例中,所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型训练过程包括:获取多个历史图像样本及各历史图像样本的违规识别标签;分析各历史图像样本,得到各样本的文本信息及图像信息;初始化文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型中的参数;根据各样本的文本信息及文本特征提取模型,得到各样本的文本特征向量组;根据各样本的图像信息及图像特征提取模型,得到各样本的图像特征向量组;
将各样本的文本特征向量组及各样本的图像特征向量组输入至特征融合模型中,得到各样本的融合特征向量组;将各样本的融合特征向量组输入至分类识别模型中,得到各样本的违规识别结果;根据各样本的违规识别结果及相应的违规识别标签,建立二分类损失函数;利用二分类损失函数训练所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型中的参数。
[0012]作为本文的进一步实施例中,所述文本特征提取模型及图像特征提取模型中的参数利用CLIP预训练模型初始化;所述特征融合模型中的参数利用图像特征提取模型的参数初始化;所述分类识别模型中的参数利用Xvaier初始化。
[0013]本文的第二方面提供一种违规图像识别系统,包括:图像识别模型、文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型;所述图像识别模型用于接收待识别图像,分析所述待识别图像得到文本信息及图像信息;所述文本特征提取模型连接所述图像识别模型,用于提取文本信息中的特征,得到文本特征向量组;所述图像特征提取模型连接所述图像识别模型,用于提取图像信息中的特征,得到图像特征向量组;所述特征融合模型连接所述文本特征提取模型及图像特征提取模型,用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力,从而得到融合特征向量组;所述分类识别模型连接所述特征融合模型,用于根据融合特征向量组,得到违规识别结果。
[0014]作为本文进一步实施例中,所述文本特征提取模型包括:第一嵌入层及多个第一Transformer层;所述第一嵌入层用于对所述文本信息进行分词划分处理得到分词结果,在所述分词结果的开头添加开始符号以及在分词结果的结尾添加结束符号,将包含开始符号及结束符号的分词结果中的每一字符分别转换为一个d维度向量;所述多个第一Transformer层用于学习所述第一嵌入层输出结果中每一符号语义关联性,得到文本特征向量组。
[0015]作为本文进一步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种违规图像识别方法,其特征在于,包括:分析待识别图像,得到文本信息及图像信息;将所述文本信息输入至文本特征提取模型中,得到文本特征向量组;将所述图像信息输入至图像特征提取模型中,得到图像特征向量组;将所述文本特征向量组及所述图像特征向量组输入至特征融合模型中,得到融合特征向量组,其中,所述特征融合模型用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力;将所述融合特征向量组输入至分类识别模型中,得到违规识别结果;其中,所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型利用具有违规识别标签的图像训练得到。2.如权利要求1所述的方法,其特征在于,所述文本特征提取模型包括:第一嵌入层及多个第一Transformer层;将所述文本信息输入至文本特征提取模型中,得到文本特征向量组,包括:利用所述第一嵌入层对所述文本信息进行分词划分处理得到分词结果,在所述分词结果的开头添加开始符号以及在所述分词结果的结尾添加结束符号,将包含开始符号及结束符号的分词结果中的每一字符分别转换为一个d维度向量;利用所述多个第一Transformer层学习所述第一嵌入层输出结果中每一符号语义关联性,得到文本特征向量组。3.如权利要求1所述的方法,其特征在于,所述图像特征提取模型包括:第二嵌入层及多个第二Transformer层;将所述图像信息输入至图像特征提取模型中,得到图像特征向量组,包括:利用所述第二嵌入层对所述图像信息进行缩放处理得到第一预定大小的图像,将缩放后的图像切分为第二预定大小的子图像,将各子图像分别转换为一个d维度向量;利用所述多个第二Transformer层学习第二嵌入层输出结果中每一子图像语义关联性,得到图像特征向量组。4.如权利要求1所述的方法,其特征在于,所述特征融合模型包括:第一线性变换层、第二线性变换层、第三线性变换层、第一关联层组、第二关联层组;将所述文本特征向量组及所述图像特征向量组输入至特征融合模型中,得到融合特征向量组,包括:利用所述第一线性变换层对所述文本特征向量组进行变换,得到键向量组;利用所述第二线性变换层对所述文本特征向量组进行变换,得到值向量组;利用所述第三线性变换层对所述图像特征向量组进行变换,得到查询向量组;利用所述第一关联层组并根据所述查询向量组及键向量组,计算得到注意力矩阵;利用所述第二关联层组并根据所述注意力矩阵、所述值向量组及所述图像特征向量组,计算得到融合特征向量组。5.如权利要求4所述的方法,其特征在于,所述第一关联层组包括:第一计算层及归一化层;利用所述第一计算层对所述查询向量组及键向量组进行乘积处理,得到注意力矩阵;利用所述归一化层对所述注意力矩阵进行归一化处理。
6.如权利要求5所述的方法,其特征在于,所述第二关联层组包括...

【专利技术属性】
技术研发人员:阮晓峰王坚李兵余昊楠胡卫明
申请(专利权)人:人民中科济南智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1