一种微博图片敏感信息检测方法技术

技术编号:8533482 阅读:499 留言:0更新日期:2013-04-04 16:55
本发明专利技术公开了一种微博图片敏感信息检测方法,包括:建立敏感词库、字体库和颜色库,接收N张待检测微博图片,创建敏感信息列表,遍历检测微博图片是否含敏感信息,根据当前微博图片大小和敏感词库、字体库和颜色库生成对应于该微博图片的敏感信息图片库,并遍历与该微博图片进行匹配,根据微博图片上遍历位置的图像块与敏感信息图片的匹配度中的最大值判定是否存在敏感信息,并将匹配信息存入敏感信息列表中。本方法的特征是基于生成式,不易漏检误检,鲁棒性强,并且检测准确率高。

【技术实现步骤摘要】

本专利技术属于计算机视觉
,更具体地,涉及。
技术介绍
微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台,在这个信息时代里,无论是微博用户数量还是微博图片数量都增长到十分惊人的程度。然而,微博图片良莠不齐,对于印有敏感信息的微博图片,由于缺乏有效的检测技术,只能通过人力来进行肉眼判别筛选,这对于呈指数级增长的微博图片来说是不现实的。随着近年计算机视觉技术的飞速发展,利用计算机提取或挖掘出图像中包含信息的应用功能也越来越强大,在各个领域得到了广泛的使用。在计算机视觉领域中,文本检测是应用前景很广的一块,传统的文本检测方法,是基于检测式的思路,需要大量的训练集,对噪声抗性不佳,而且容易漏检错检,并且可扩展性较差,在转化成应用方面遇到了很大的困难,无法适用于微博图片敏感信息检测。
技术实现思路
针对现有技术的不足,本专利技术的目的在于提出,其能利用计算机自动匹配和识别出微博图片中的敏感文字信息,且可扩展性强,能抵抗噪声等干扰,并且检测准确率闻。为实现上述目的,本专利技术提供了,包括以下步骤( I)建立敏感词库、字体库和颜色库;(2)接收N张待检测微博图片;(3)创建一个空的敏感信息列表,用于存储所有微博图片所含敏感信息的检测结果;(4)设置微博图片计数器i = 1,即从第一张微博图片开始敏感信息检测。(5)判断条件i ( N是否满足,如果满足,则继续进行步骤(6),当不满足时跳到步骤(12);(6)以第i张微博图片大小为准,并根据敏感词库、字体库和颜色库生成对应于该微博图片的敏感信息图片库,敏感信息图片库包括M个敏感信息图片;(7)设置敏感信息图片计数器j为I ;(8)判断条件j ( M是否满足,如果满足,则继续进行步骤(9),当不满足时跳到步骤(11);(9)从第i张微博图片的所有可能位置上提取出与第j个敏感信息图片等大小的多个图像块,遍历计算每个图像块与第j个敏感信息图片的匹配度,并根据计算得到的所有匹配度中的最大值确定与第j个敏感信息图片最相近的图像块匹配度,根据匹配度判定是否存在敏感信息,若存在则将相关匹配信息存入敏感信息列表中;(10)设置计数器j = j+1,返回步骤(8);(11)设置计数器i = i+Ι,返回步骤(5);(12)输出敏感信息列表。步骤(I)具体为根据用户的实际要求,建立敏感词库、字体库和颜色库,其中,敏感词库、字体库和颜色库由用户指定,均衡考虑检测的速度和准确率,字体库包括宋体、楷体、仿宋、黑体,颜色库包括白底黑、红、黄、绿、蓝字,黑底白、红、黄、绿、蓝字、红底黑、白字,黄底黑、白字,绿底黑、白字,蓝底黑、白字。步骤(6)具体为 第i张微博图片的高为Hi个像素点,宽为Wi个像素点,对于敏感 词库中的每一个敏感词、字体库中的每一种字体和颜色库中的每一种颜色这三者产生的所有组合而言,为每种组合生成一张包含敏感词、敏感词字体、敏感词颜色和文字背景色的敏感信息图片,其高度为第i张微博图片宽度的X倍,其中X为O. 08至O. 12,敏感信息图片的宽度为当高为XWi时此种字体下敏感词文字对应的默认宽度。步骤(9)包括以下子步骤(9-1)设置行计数器p=l,即从微博图片的第一行开始匹配;(9-2)判断条件P彡H.-xff.+l是否满足,即所选图像块不能超出该微博图片高的范围,如果满足,则继续进行步骤(9-3),当不满足时跳到步骤(9-8);(9-3)设置列计数器q=l,即从微博图片的第一列开始匹配;(9-4)判断条件q ^ W1-Bj+!是否满足,其中Bj是第j张敏感/[目息图片的宽度,如果满足,则继续进行步骤(9-5),当不满足时跳到步骤(9-8);(9-5)从第i张微博图片中以坐标为(P,q)的点为左上点,提取出与第j个敏感信息图片等大小的图像块,把这个图像块和第j个敏感信息图片进行匹配,通过匹配算法计算出匹配度fM,存入第j个敏感信息图片与第i张微博图片的匹配度矩阵Fu中,即Fij (p,Q) = fpq ;(9-6)设置列计数器q = q+1,返回步骤(9-4);(9-7)设置行计数器P = p+1,返回步骤(9-2);(9-8)找出匹配度矩阵Fu中最大的元素au作为第j个敏感信息图片对第i张微博图片的匹配度;(9-9)判断au是否大于给定的阈值,如果是,则说明第j个敏感信息图片与第i个微博图片匹配,然后进入步骤(9-10),如果不是,进行步骤(10);(9-10)把第i张微博图片的序号1、匹配度au、第j张微博图片中含有的敏感信息、敏感信息字体、敏感信息颜色和匹配度最大的图像块所在的位置存入敏感信息列表中,然后进行步骤(10)。匹配算法选用归一化互相关匹配算法。通过本专利技术所构思的以上技术方案,与现有技术相比,本专利技术具有以下的有益效果1、通过步骤(I)至步骤(9),本系统通过输入信息生成所有可能的敏感信息图片,与待检测图片进行图像块匹配,是生成式的匹配模式,与传统文本检测技术相比,由于采用生成所有可能的敏感信息图片的方法,不需要通过特征或边缘等来表达图像,而是直接进行图像块匹配,相比之下,方法简洁有效,不易漏检误检。2、本系统可扩展性强通过步骤(I)和步骤(6),如果出现了新的敏感词、字体、颜色,只需要在相应的库中修改即可完成;根据步骤(9-5),如果有更佳的匹配算法,替换原匹配算法即可。由于本系统输出了敏感词、字体、颜色、匹配度和敏感信息位置等诸多信息,而不是传统方法的简单结果,后续的对敏感信息的处理和统计工作变得十分便利。3、通过步骤(9),若采用归一化互相关匹配算法,本系统在生成式匹配方法中使用归一化互相关匹配算法来完成匹配,对噪声和灰线性变化有较强的抵抗能力,即使敏感信息的字体或颜色不在库中,本系统也有一定的检测能力,鲁棒性强。附图说明图1是本专利技术微博图片敏感信息检测方法的流程图。图2是构建敏感信息图片库示意图。图3是从微博图片中提取图像块并与敏感信息图片匹配的示意图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。以下首先就本专利技术的技术术语进行解释和说明敏感信息列表用来储存微博图片所含敏感信息情况的列表,敏感信息包括微博图片序号、敏感信息文字、敏感信息字体、敏感信息颜色(文字颜色及背景色)。敏感词库微博图片中需要检测出的敏感词总表,由用户设定,可按检测需求修改。字体库微博图片中需要检测出的敏感词的字体总表,可按检测需求修改。颜色库微博图片中需要检测出的敏感词的颜色搭配总表,颜色搭配为敏感词颜色和背景颜色的搭配,如白底黑字,可按检测需求修改。敏感信息图片本系统根据敏感词库、字体库和颜色库的所有组合,对每种组合情况各生成的一张包含敏感词文字(敏感词、敏感词字体、敏感词颜色)和文字背景色的图片,用于与微博图片图像块比较,从而计算出该图像块与敏感信息的相似度,以确定微博图片是否含有敏感信息。如图1所示,本专利技术运用最大子图的基于局部模型的物体检测方法包括以下步骤( I)建立敏感词库、字体库和颜色库;具体来说,根据用户的实际要求,建立敏感词库、字体库和颜色库。其中,敏感词库、字体库和颜色库由用户指定。均衡考虑检测的速度和准确率,字本文档来自技高网...

【技术保护点】
一种微博图片敏感信息检测方法,其特征在于,包括以下步骤:(1)建立敏感词库、字体库和颜色库;(2)接收N张待检测微博图片;(3)创建一个空的敏感信息列表,用于存储所有微博图片所含敏感信息的检测结果;(4)设置微博图片计数器i=1,即从第一张微博图片开始敏感信息检测。(5)判断条件i≤N是否满足,如果满足,则继续进行步骤(6),当不满足时跳到步骤(12);(6)以第i张微博图片大小为准,并根据敏感词库、字体库和颜色库生成对应于该微博图片的敏感信息图片库,敏感信息图片库包括M个敏感信息图片;(7)设置敏感信息图片计数器j为1;(8)判断条件j≤M是否满足,如果满足,则继续进行步骤(9),当不满足时跳到步骤(11);(9)从第i张微博图片的所有可能位置上提取出与第j个敏感信息图片等大小的多个图像块,遍历计算每个图像块与第j个敏感信息图片的匹配度,并根据计算得到的所有匹配度中的最大值确定与第j个敏感信息图片最相近的图像块匹配度,根据匹配度判定是否存在敏感信息,若存在则将相关匹配信息存入敏感信息列表中;(10)设置计数器j=j+1,返回步骤(8);(11)设置计数器i=i+1,返回步骤(5);(12)输出敏感信息列表。...

【技术特征摘要】
1.一种微博图片敏感信息检测方法,其特征在于,包括以下步骤 (1)建立敏感词库、字体库和颜色库; (2)接收N张待检测微博图片; (3)创建一个空的敏感信息列表,用于存储所有微博图片所含敏感信息的检测结果; (4)设置微博图片计数器i= 1,即从第一张微博图片开始敏感信息检测。(5)判断条件i< N是否满足,如果满足,则继续进行步骤(6),当不满足时跳到步骤(12); (6)以第i张微博图片大小为准,并根据敏感词库、字体库和颜色库生成对应于该微博图片的敏感信息图片库,敏感信息图片库包括M个敏感信息图片; (7)设置敏感信息图片计数器j为I; (8)判断条件j( M是否满足,如果满足,则继续进行步骤(9),当不满足时跳到步骤(11); (9)从第i张微博图片的所有可能位置上提取出与第j个敏感信息图片等大小的多个图像块,遍历计算每个图像块与第j个敏感信息图片的匹配度,并根据计算得到的所有匹配度中的最大值确定与第j个敏感信息图片最相近的图像块匹配度,根据匹配度判定是否存在敏感信息,若存在则将相关匹配信息存入敏感信息列表中; (10)设置计数器j= j+1,返回步骤(8); (11)设置计数器i= i+1,返回步骤(5); (12)输出敏感信息列表。2.根据权利要求1所述的微博图片敏感信息检测方法,其特征在于,步骤(I)具体为根据用户的实际要求,建立敏感词库、字体库和颜色库,其中,敏感词库、字体库和颜色库由用户指定,均衡考虑检测的速度和准确率,字体库包括宋体、楷体、仿宋、黑体,颜色库包括白底黑、红、黄、绿、蓝字,黑底白、红、黄、绿、蓝字、红底黑、白字,黄底黑、白字,绿底黑、白字,蓝底黑、白字。3.根据权利要求1所述的微博图片敏感信息检测方法,其特征在于,步骤(6)具体为第i张微博图片的高为Hi个像素点,宽为Wi个像素点,对于敏感词库中的每一个敏感词、字体库中的每一种字体和颜色库中的每一种颜色这三者产生的所有组合而言...

【专利技术属性】
技术研发人员:白翔姚聪陈瑞军申辰刘文予
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1