【技术实现步骤摘要】
一种基于视觉分块的网页LOGO提取系统及方法
本专利技术是一种基于视觉分块的网页LOGO提取系统及方法,尤其涉及网页LOGO提取及视觉识别分析技术,属于计算机网络领域。
技术介绍
《中国互联网络发展状况统计报告》指出依然有44.4%网民遭受过网络安全的威胁,其中钓鱼网站占比最重。国家已经设置了国家防火墙对此进行了管控,通过设置黑名单的方式根据IP,域名进行过滤,但是攻击者根据现有的防御方式不断发掘新的攻击技术。有一部分网站不断的更换域名和主机地址,导致这些网页的识别难度变大。在这样的情况下只通过黑名单就无能为力,所以需要对网页内容的特征提取。目前基于网页内容的特征提取主要分为3大类,有基于机器学习的启发式特征提取方法,有基于网页源代码的提取方法,有基于网页DOM树结构的提取方法,还有基于视觉特征的提取方法。基于网页源代码的特征提取的效率高,但是未充分利用网页中的其他信息。基于网页DOM树结构的特征提取方法同时考虑了文本密度和网页的DOM树结构信息,准确率得到的提高,但与基于网页源码的特征提取存在相同的问题,所以提取出更加有代表性的网页视觉特征,对网页识别有这举足轻重的影响。网页特征提取方法主要分为三类:基于网页文本的特征提取,基于网页结构的特征提取和基于网页视觉信息的特征提取:(1)基于网页文本的特征提取:针对于网页中的文本信息,对于普通文本的文档特征提取出现的比较早,Heintze等人从文档中提取长度为30至45的字符串作为文档特征Shivakumar等人通过对分段文本的签名 ...
【技术保护点】
1.一种基于视觉分块的网页LOGO提取系统,其特征在于:该系统包括页面数据提取模块、分隔符探测模块和页面布局重构模块,上述各模块之间呈递进逻辑连接;/n页面数据提取模块用于所需特征量的提取;/n分隔符探测模块负责分隔符的添加以及规则化分隔;/n页面布局重构模块用于将页面内容重新布局重构。/n
【技术特征摘要】
1.一种基于视觉分块的网页LOGO提取系统,其特征在于:该系统包括页面数据提取模块、分隔符探测模块和页面布局重构模块,上述各模块之间呈递进逻辑连接;
页面数据提取模块用于所需特征量的提取;
分隔符探测模块负责分隔符的添加以及规则化分隔;
页面布局重构模块用于将页面内容重新布局重构。
2.根据权利要求1所述的一种基于视觉分块的网页LOGO提取系统,其特征在于:所述的页面数据提取模块由视觉块提取模块和LOGO块提取模块两部分组成。
3.一种基于视觉分块的网页LOGO提取方法,是根据权利要求2所述提取系统为基础实现的,其特征在于:具体方法步骤如下:
步骤一,在对html页面进行解析,然后通过所述的页面数据提取模块中的视觉块提取模块对视觉块进行提取,通过所述的LOGO块提取模块对LOGO块进行数据提取;
步骤二,利用所述的分隔符探测模块在网页中添加分隔符并通过算法进行分隔;
步骤三,最终通过页面布局重构模块将分隔整理后的内容进行页面布局重构,实现网页LOGO提取。
4.根据权利要求3所述的一种基于视觉分块的网页LOGO提取方法,其特征在于:在步骤一中视觉块提取模块根据视觉块的特点进行视觉块提取,视觉块为DOM树节点的子集;视觉块用VisualBlock表示,由多个视觉块组成的视觉结构则用VisualStructure表示,所述的视觉块特点具体为:
A.每个视觉块都是一个与网页平行的矩形;
B.一个视觉结构里的所有视觉块之间关联度高于一个阈值,说明这个结构中内容关联度高,可以合并为一个视觉结构;
C.视觉块中包含位置信息,字体大小,文本个数,链接个数,图片个数;
D.视觉块之间不存在重合;
E.视觉结构拥有所有视觉块的特点。
5.根据权利要求4所述的一种基于视觉分块的网页LOGO提取方法,其特征在于:所述的位置信息以top、left、heigh和width作为坐标四元组,top和left分别定义节点显示区域矩形的左上角定点与页面下边沿的像素距离;heigh指矩形区域的高度,width指矩形区域的宽度;确定四元组进而确定VisualBlock的显示区域,所述的字体大小通过解析VisualBlock包含的DOM树结点获得,对所有节点的字体大小进行统计;所述的图片个数对包含的DOM树节点解析,获取到<image>标签,统计个数并且保存链接生成DOM树,最终利用CSSBOX类库模型对视觉块进行提取。
6.根据权利要求5所述的一种基于视觉分块的网页LOGO提取方法,其特征在于:根据步骤二中所述的分隔符探测模块,一个分隔符由一个二元组代表Ps,Pe,其中Ps代表着起始坐标,Pe代表着结束坐标,分隔符宽度由这两个值计算,分隔符探测算法步骤如下:
步骤二一,首先初始化分隔符列表,列表最开始只包含一个以面板为界限的分隔符对于在面板上的每个视觉块,每个视觉块之间的分隔符按如下规则别评估,首先移除初始面板周围的4个分隔符,如果分隔符中包含一个块,则分隔这个分隔符;如果块穿过一个分隔符,则重新调整分隔符参数;如果一个分隔符被block覆盖,则移除这个分隔符;移除初始面板周围的4个分隔符;
步骤二二,分隔符被用来辨别不同语义块,因此分隔符的权重可以根据相邻块的不同分配,接下来的规则被用来为每一个分隔符设置权重,分隔符宽度越宽则权值越大,如果分隔符与某些标签重叠则权值越高,如果分隔符分隔开的两个视觉块背景颜色不同则权值提高;
步骤二三,对于水平分隔符,如果分隔符两侧的字体属性差异较大,则权值会增加,此外,如果分隔符上方的块的字体大小小于分隔符下方的块的字体大小,则权值会增加,对于水平分隔器,当分隔器两侧的块的结构非常相似时,分隔器的权值将减小。
7.根据权利要求6所述的一种基于视觉分块的网页LOGO提取方法,其特征在于:步骤三中所述的页面布局重构模块,构建过程从权值最小的的分隔符开始,然后将这些分隔符旁边视觉块合并以形成新的视觉块;合并过程将反复进行,直到满足最大权值的分隔符为止,并根据块区域中分隔符的最大权重设置每个视觉块文件的DOC,其中预先定义文件为PDOC,则DOC的要求是DOC>PDO...
【专利技术属性】
技术研发人员:余翔湛,史建焘,刘立坤,叶麟,李精卫,张元禛,杨宸,王璞,刘睿,李康,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。