一种违规图像识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35695315 阅读:15 留言:0更新日期:2022-11-23 14:45
本发明专利技术提供了一种违规图像识别方法、装置、电子设备及及计算机可读存储介质。本发明专利技术提供的违规图像识别方法,包括:获取第一图像数据集,对第一图像数据集进行文本表征标注,得到初始文本检测特征值;利用第一图像数据集以及初始文本检测特征值,对全卷积神经网络模型进行训练,得到文本检测器;获取第二图像数据集,利用第二图像数据集对文本识别网络进行训练,得到训练完备的文本识别模型;获取待识别图像,利用文本检测器对待识别图像进行检测,输出实时文本检测特征值,将文本检测特征值输入至训练完备的文本识别模型中,得到图像识别结果。本发明专利技术的违规图像识别方法,可以实现对违规图像的识别,并且可以提高违规图像的识别准确率。识别准确率。识别准确率。

【技术实现步骤摘要】
一种违规图像识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及图像识别
,尤其涉及一种违规图像识别方法、装置、电子设备及及计算机可读存储介质。

技术介绍

[0002]互联网内容合规是治理网络生态、维护网络言论健康发展的基本要求。在网络言论发帖中,内容分文本、图片、短视频等形式,平台运营主体通过建立自动化审核系统并辅助人工审核,来保证内容的合规性。文本审核技术比较成熟,主要是建立敏感词库,通过正则匹配和自然语言处理等方式识别违规文本。短视频审核主要是通过截取视频帧,然后通过图像审核实现。
[0003]在传统图像审核中,主要是先收集违规图像样本,然后进行图像特征提取,通过相似性比较算法,计算新图像与样本图像的相似性。这种相似性风控方式,对于图像实物和轮廓类图像审核比较有效。风险用户了解到文本和图像风控原理后,利用图像处理手段,就将正常图像添加上文字的方式进行发帖,绕过后台风控审核,给平台合规造成风险。现在图像处理工具成熟,经过图像处理手段处理后的违规图像,被识别的准确率较低。

技术实现思路

[0004]本专利技术的目的在于提供一种违规图像识别方法、装置、电子设备及及计算机可读存储介质,以解决现有技术中违规图像被识别的准确率较低的技术问题。
[0005]本专利技术的技术方案如下,提供了一种违规图像识别方法,包括:
[0006]获取第一图像数据集,对所述第一图像数据集进行文本表征标注,得到初始文本检测特征值,其中,所述文本表征标注的内容包括文本图像检测框、文本图像底边、文本图像锚点以及文本图像的像素值;
[0007]利用所述第一图像数据集以及所述初始文本检测特征值,对全卷积神经网络模型进行训练,得到文本检测器;
[0008]获取第二图像数据集,利用所述第二图像数据集对文本识别网络进行训练,得到训练完备的文本识别模型;
[0009]获取待识别图像,利用所述文本检测器对所述待识别图像进行检测,输出实时文本检测特征值,将所述实时文本检测特征值输入至所述训练完备的文本识别模型中,得到图像识别结果。
[0010]进一步地,利用所述第一图像数据集以及所述初始文本检测特征值,对全卷积神经网络模型进行训练,包括:
[0011]创建数据集目录,在所述数据集目录下创建图像子目录,在所述图像子目录中存放所述所述第一图像数据集;
[0012]在所述数据集目录下创建标签子目录,在所述标签子目录中存放所述初始文本检测特征值;
[0013]根据所述图像子目录中的所述第一图像数据集,以及所述标签子目录中的所述初始文本检测特征值,对所述全卷积神经网络模型进行训练。
[0014]进一步地,根据所述图像子目录中的所述第一图像数据集,以及所述标签子目录中的所述初始文本检测特征值,对所述全卷积神经网络模型进行训练,包括:
[0015]将所述图像子目录中的所述第一图像数据集随机分成训练集和测试集,并生成所述训练集对应的数据实例字典文件和所述测试集对应的数据实例字典文件;
[0016]根据所述训练集对应的数据实例字典文件、所述测试集对应的数据实例字典文件,以及所述标签子目录中的所述初始文本检测特征值,对所述全卷积神经网络模型进行训练。
[0017]进一步地,根据所述训练集对应的数据实例字典文件、所述测试集对应的数据实例字典文件,以及所述标签子目录中的所述初始文本检测特征值,对所述全卷积神经网络模型进行训练,包括:
[0018]获取文本检测模型框架,根据所述训练集对应的数据实例字典文件、所述测试集对应的数据实例字典文件、所述标签子目录中的所述初始文本检测特征值以及所述文本检测模型框架,对所述全卷积神经网络模型进行训练。
[0019]进一步地,对所述第一图像数据集进行文本表征标注,得到初始文本检测特征值,包括:
[0020]确定所述第一图像数据集中图像的文本检测框,将所述文本检测框表征为,以对称轴为中心,有序、重叠的圆盘序列,得到文本有序列表,根据所述文本有序列表生成初始文本检测特征值,其中,所述圆盘序列中每个圆盘的半径和方向均为可变的。
[0021]进一步地,所述文本有序列表为S(t)={D1,

,Di,

,Dn},其中,Di为第i个圆盘,n为圆盘总数,Di=(ci,ri,θi),其中ci、ri和θi分别是圆盘Di的中心、半径和方向。
[0022]进一步地,所述文本识别网络为自我注意文本识别网络,利用所述第二图像数据集对文本识别网络进行训练,包括:
[0023]利用自我注意文本识别网络中的自注意力机制,对所述第二图像数据集中所有字符的空间关系进行建模,得到建模后的第二图像数据集,根据所述建模后的第二图像数据集对所述自我注意文本识别网络进行训练。
[0024]本专利技术的另一技术方案如下,还提供了一种违规图像识别装置,包括数据处理模块、检测器构建模块、文本识别模型构建模块以及图像识别模块;
[0025]所述数据处理模块,用于获取第一图像数据集,对所述第一图像数据集进行文本表征标注,得到初始文本检测特征值,其中,所述文本表征标注的内容包括文本图像检测框、文本图像底边、文本图像锚点以及文本图像的像素值;
[0026]所述检测器构建模块,用于利用所述第一图像数据集以及所述初始文本检测特征值,对全卷积神经网络模型进行训练,得到文本检测器;
[0027]所述文本识别模型构建模块,用于获取第二图像数据集,利用所述第二图像数据集对文本识别网络进行训练,得到训练完备的文本识别模型;
[0028]所述图像识别模块,用于获取待识别图像,利用所述文本检测器对所述待识别图像进行检测,输出实时文本检测特征值,将所述实时文本检测特征值输入至所述训练完备的文本识别模型中,得到图像识别结果。
[0029]本专利技术的另一技术方案如下,还提供了一种电子设备,包括存储器、处理器,所述存储器存储有可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项技术方案所述的违规图像识别方法。
[0030]本专利技术的另一技术方案如下,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项技术方案所述的违规图像识别方法。
[0031]本专利技术的有益效果在于:获取第一图像数据集,对所述第一图像数据集进行文本表征标注,得到初始文本检测特征值,其中,所述文本表征标注的内容包括文本图像检测框、文本图像底边、文本图像锚点以及文本图像的像素值;利用所述第一图像数据集以及所述初始文本检测特征值,对全卷积神经网络模型进行训练,得到文本检测器;获取第二图像数据集,利用所述第二图像数据集对文本识别网络进行训练,得到训练完备的文本识别模型;获取待识别图像,利用所述文本检测器对所述待识别图像进行检测,输出实时文本检测特征值,将所述实时文本检测特征值输入至所述训练完备的文本识别模型中,得到图像识别结果;通过上述技术方案,可以实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种违规图像识别方法,其特征在于,包括如下步骤:获取第一图像数据集,对所述第一图像数据集进行文本表征标注,得到初始文本检测特征值,其中,所述文本表征标注的内容包括文本图像检测框、文本图像底边、文本图像锚点以及文本图像的像素值;利用所述第一图像数据集以及所述初始文本检测特征值,对全卷积神经网络模型进行训练,得到文本检测器;获取第二图像数据集,利用所述第二图像数据集对文本识别网络进行训练,得到训练完备的文本识别模型;获取待识别图像,利用所述文本检测器对所述待识别图像进行检测,输出实时文本检测特征值,将所述实时文本检测特征值输入至所述训练完备的文本识别模型中,得到图像识别结果。2.根据权利要求1所述的违规图像识别方法,其特征在于,利用所述第一图像数据集以及所述初始文本检测特征值,对全卷积神经网络模型进行训练,包括:创建数据集目录,在所述数据集目录下创建图像子目录,在所述图像子目录中存放所述所述第一图像数据集;在所述数据集目录下创建标签子目录,在所述标签子目录中存放所述初始文本检测特征值;根据所述图像子目录中的所述第一图像数据集,以及所述标签子目录中的所述初始文本检测特征值,对所述全卷积神经网络模型进行训练。3.根据权利要求2所述的违规图像识别方法,其特征在于,根据所述图像子目录中的所述第一图像数据集,以及所述标签子目录中的所述初始文本检测特征值,对所述全卷积神经网络模型进行训练,包括:将所述图像子目录中的所述第一图像数据集随机分成训练集和测试集,并生成所述训练集对应的数据实例字典文件和所述测试集对应的数据实例字典文件;根据所述训练集对应的数据实例字典文件、所述测试集对应的数据实例字典文件,以及所述标签子目录中的所述初始文本检测特征值,对所述全卷积神经网络模型进行训练。4.根据权利要求3所述的违规图像识别方法,其特征在于,根据所述训练集对应的数据实例字典文件、所述测试集对应的数据实例字典文件,以及所述标签子目录中的所述初始文本检测特征值,对所述全卷积神经网络模型进行训练,包括:获取文本检测模型框架,根据所述训练集对应的数据实例字典文件、所述测试集对应的数据实例字典文件、所述标签子目录中的所述初始文本检测特征值以及所述文本检测模型框架,对所述全卷积神经网络模型进行训练。5.根据权利要求1所述的违规图像识别方法,其特征在于,对所述第一图像数据集进行文本表...

【专利技术属性】
技术研发人员:唐炳武
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1