一种基于视觉分块的网页LOGO提取系统及方法技术方案

技术编号:26730799 阅读:39 留言:0更新日期:2020-12-15 14:31
本发明专利技术是一种基于视觉分块的网页LOGO提取系统及方法,属于计算机网络领域,尤其涉及网页LOGO提取及视觉识别分析技术,目的是为解决网页视觉识别分析不稳定,准确率不高,实际应用效果不好等问题;本发明专利技术包括页面数据提取模块、分隔符探测模块和页面布局重构模块各模块之间呈递进逻辑连接,通过页面数据提取模块用于所需特征量的提取;分隔符探测模块负责分隔符的添加以及规则化分割;页面布局重构模块用于将页面内容重新布局重构,使得网页视觉识别率得到提高,该方法提取更为健壮的视觉特征,有更好的鲁棒性,同时具有更高的准确度。

【技术实现步骤摘要】
一种基于视觉分块的网页LOGO提取系统及方法
本专利技术是一种基于视觉分块的网页LOGO提取系统及方法,尤其涉及网页LOGO提取及视觉识别分析技术,属于计算机网络领域。
技术介绍
《中国互联网络发展状况统计报告》指出依然有44.4%网民遭受过网络安全的威胁,其中钓鱼网站占比最重。国家已经设置了国家防火墙对此进行了管控,通过设置黑名单的方式根据IP,域名进行过滤,但是攻击者根据现有的防御方式不断发掘新的攻击技术。有一部分网站不断的更换域名和主机地址,导致这些网页的识别难度变大。在这样的情况下只通过黑名单就无能为力,所以需要对网页内容的特征提取。目前基于网页内容的特征提取主要分为3大类,有基于机器学习的启发式特征提取方法,有基于网页源代码的提取方法,有基于网页DOM树结构的提取方法,还有基于视觉特征的提取方法。基于网页源代码的特征提取的效率高,但是未充分利用网页中的其他信息。基于网页DOM树结构的特征提取方法同时考虑了文本密度和网页的DOM树结构信息,准确率得到的提高,但与基于网页源码的特征提取存在相同的问题,所以提取出更加有代表性的网页视觉特征,对网页识别有这举足轻重的影响。网页特征提取方法主要分为三类:基于网页文本的特征提取,基于网页结构的特征提取和基于网页视觉信息的特征提取:(1)基于网页文本的特征提取:针对于网页中的文本信息,对于普通文本的文档特征提取出现的比较早,Heintze等人从文档中提取长度为30至45的字符串作为文档特征Shivakumar等人通过对分段文本的签名进行比较来识别目标文档。除了Heintze和Shivakumar的匹配算法外,还有YAP3算法、MDR算法等,这些算法没有考虑到网页文本内容或者普通文档的整体结构,只是使用了字符串比较的方法。在文档查重中还有基于词频统计的方法,如Shivakumar等人提出的SCAM方法,后来该方法被改进后被应用于Google的系统。但是由于网页内容比较少,包含的词汇量也很少,这导致生成的文本特征向量十分的稀疏,会导致分类的准确率下降,并且传统的方法并没有考虑到网页的语义特征和结构特征。(2)基于网页的结构特征提取:Si等人在1997年提出了Check方法,它引入了文档的结构信息,即文档按章、节、段落等生成一颗文档树,然后对文档树进行深度优先比较来计算相似度Sahuguet等人提出的W4F算法是将网页构建成DOM树,基于人工标记好的网页,抽取出网页主要内容对应的规则。Liu等人设计的XWrap也是先将网页构建成DOM树,然后根据目标节点的XPath表达式来进行内容的提取,这个技术的不足之处是该技术对网页结构的变化敏感,所以要经常对结构发生变化的网页更新XPath表达式。(3)基于网页视觉特征提取:网页中包含很多的视觉特征比如字体,背景颜色,链接个数,DengCai等人提出了一种独立于标记树,自上而下的方法来检测Web内容结构体。它根据用户的视觉感受模拟用户如何理解Web布局结构。这种方法独立于HTML文档表示。王宪法等人使用了WEMLVF,分别提出了基于经典包装器归纳算法SoftMeadly和基于XPath的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达并不包含视觉特征,使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征,从而既充分利用了视觉特征在信息抽取中的作用,又显著提升了信息抽取的效率。2015年Wu等人提出一种基于视觉特征的正文抽取方法,他们结合了网页的结构特征和视觉特征,利用已标注数据集进行训练,使用分类算法来将正文和非正文内容分成两类,但是这些方法并没有得到好的实际应用效果。
技术实现思路
为了解决现有技术中基于网页视觉识别分析不稳定,准确率不高,实际应用效果不好的问题,本专利技术提出一种基于视觉分块的网页LOGO提取系统及方法,具体方案如下:方案一:一种基于视觉分块的网页LOGO提取系统,包括页面数据提取模块、分隔符探测模块和页面布局重构模块,上述各模块之间呈递进逻辑连接;页面数据提取模块用于所需特征量的提取;分隔符探测模块负责分隔符的添加以及规则化分割;页面布局重构模块用于将页面内容重新布局重构。进一步地,所述的页面数据提取模块由视觉块提取模块和LOGO块提取模块两部分组成。方案二:一种基于视觉分块的网页LOGO提取方法,是根据上述提取系统为基础实现的,具体方法步骤如下:步骤一,在对html页面进行解析,然后通过所述的页面数据提取模块中的视觉块提取模块对视觉块进行提取,通过所述的LOGO块提取模块对LOGO块进行数据提取;步骤二,利用所述的分隔符探测模块在网页中添加的分隔符并通过算法进行分割;步骤三,最终通过页面布局重构模块将分割整理后的内容进行页面布局重构,实现网页LOGO提取。进一步地,在步骤一中视觉块提取模块根据视觉块的特点进行视觉快提取,视觉块为DOM树节点的子集;视觉块用VisualBlock表示,由多个视觉块组成的视觉结构则用VisualStructure表示,所述的视觉块特点具体为:A.每个视觉块都是一个与网页平行的矩形;B.一个视觉结构里的所有视觉块之间关联度高于一个阈值,说明这个结构中内容关联度高,可以合并为一个视觉结构;C.视觉块中包含位置信息,字体大小,文本个数,链接个数,图片个数;D.视觉块之间不存在重合;E.视觉结构拥有所有视觉块的特点。进一步地,所述的位置信息以top、left、heigh和width作为坐标四元组,top和left分别定义节点显示区域矩形的左上角定点与页面下边沿的像素距离;heigh指矩形区域的高度,width指矩形区域的宽度;确定四元组进而确定VisualBlock的显示区域,所述的字体大小通过解析VisualBlock包含的DOM树结点获得,对所有节点的字体大小进行统计;所述的图片个数对包含的DOM树节点解析,获取到<image>标签,统计个数并且保存链接生成DOM树,最终利用CSSBOX类库模型对视觉块进行提取。进一步地,根据步骤二中所述的分隔符探测模块,一个分隔符由一个二元组代表Ps,Pe,其中Ps代表着起始坐标,Pe代表着结束坐标,分隔符宽度由这两个值计算,分隔符探测算法步骤如下:步骤二一,首先初始化分隔符列表,列表最开始只包含一个以面板为界限的分隔符对于在面板上的每个视觉块,每个视觉块之间的分隔符按如下规则别评估,首先移除初始面板周围的4个分隔符,如果分隔符中包含一个块,则分割这个分隔符;如果块穿过一个分隔符,则重新调整分隔符参数;如果一个分隔符被block覆盖,则移除这个分隔符;移除初始面板周围的4个分隔符;步骤二二,分隔符被用来辨别不同语义块,因此分隔符的权重可以根据相邻块的不同分配,接下来的规则被用来为每一个分隔符设置权重,分隔符宽度越宽则权值越大,如果分隔符与某些标签重叠则权值越高,如果分隔符分割开的两个视觉块背景颜色不同则本文档来自技高网
...

【技术保护点】
1.一种基于视觉分块的网页LOGO提取系统,其特征在于:该系统包括页面数据提取模块、分隔符探测模块和页面布局重构模块,上述各模块之间呈递进逻辑连接;/n页面数据提取模块用于所需特征量的提取;/n分隔符探测模块负责分隔符的添加以及规则化分隔;/n页面布局重构模块用于将页面内容重新布局重构。/n

【技术特征摘要】
1.一种基于视觉分块的网页LOGO提取系统,其特征在于:该系统包括页面数据提取模块、分隔符探测模块和页面布局重构模块,上述各模块之间呈递进逻辑连接;
页面数据提取模块用于所需特征量的提取;
分隔符探测模块负责分隔符的添加以及规则化分隔;
页面布局重构模块用于将页面内容重新布局重构。


2.根据权利要求1所述的一种基于视觉分块的网页LOGO提取系统,其特征在于:所述的页面数据提取模块由视觉块提取模块和LOGO块提取模块两部分组成。


3.一种基于视觉分块的网页LOGO提取方法,是根据权利要求2所述提取系统为基础实现的,其特征在于:具体方法步骤如下:
步骤一,在对html页面进行解析,然后通过所述的页面数据提取模块中的视觉块提取模块对视觉块进行提取,通过所述的LOGO块提取模块对LOGO块进行数据提取;
步骤二,利用所述的分隔符探测模块在网页中添加分隔符并通过算法进行分隔;
步骤三,最终通过页面布局重构模块将分隔整理后的内容进行页面布局重构,实现网页LOGO提取。


4.根据权利要求3所述的一种基于视觉分块的网页LOGO提取方法,其特征在于:在步骤一中视觉块提取模块根据视觉块的特点进行视觉块提取,视觉块为DOM树节点的子集;视觉块用VisualBlock表示,由多个视觉块组成的视觉结构则用VisualStructure表示,所述的视觉块特点具体为:
A.每个视觉块都是一个与网页平行的矩形;
B.一个视觉结构里的所有视觉块之间关联度高于一个阈值,说明这个结构中内容关联度高,可以合并为一个视觉结构;
C.视觉块中包含位置信息,字体大小,文本个数,链接个数,图片个数;
D.视觉块之间不存在重合;
E.视觉结构拥有所有视觉块的特点。


5.根据权利要求4所述的一种基于视觉分块的网页LOGO提取方法,其特征在于:所述的位置信息以top、left、heigh和width作为坐标四元组,top和left分别定义节点显示区域矩形的左上角定点与页面下边沿的像素距离;heigh指矩形区域的高度,width指矩形区域的宽度;确定四元组进而确定VisualBlock的显示区域,所述的字体大小通过解析VisualBlock包含的DOM树结点获得,对所有节点的字体大小进行统计;所述的图片个数对包含的DOM树节点解析,获取到<image>标签,统计个数并且保存链接生成DOM树,最终利用CSSBOX类库模型对视觉块进行提取。


6.根据权利要求5所述的一种基于视觉分块的网页LOGO提取方法,其特征在于:根据步骤二中所述的分隔符探测模块,一个分隔符由一个二元组代表Ps,Pe,其中Ps代表着起始坐标,Pe代表着结束坐标,分隔符宽度由这两个值计算,分隔符探测算法步骤如下:
步骤二一,首先初始化分隔符列表,列表最开始只包含一个以面板为界限的分隔符对于在面板上的每个视觉块,每个视觉块之间的分隔符按如下规则别评估,首先移除初始面板周围的4个分隔符,如果分隔符中包含一个块,则分隔这个分隔符;如果块穿过一个分隔符,则重新调整分隔符参数;如果一个分隔符被block覆盖,则移除这个分隔符;移除初始面板周围的4个分隔符;
步骤二二,分隔符被用来辨别不同语义块,因此分隔符的权重可以根据相邻块的不同分配,接下来的规则被用来为每一个分隔符设置权重,分隔符宽度越宽则权值越大,如果分隔符与某些标签重叠则权值越高,如果分隔符分隔开的两个视觉块背景颜色不同则权值提高;
步骤二三,对于水平分隔符,如果分隔符两侧的字体属性差异较大,则权值会增加,此外,如果分隔符上方的块的字体大小小于分隔符下方的块的字体大小,则权值会增加,对于水平分隔器,当分隔器两侧的块的结构非常相似时,分隔器的权值将减小。


7.根据权利要求6所述的一种基于视觉分块的网页LOGO提取方法,其特征在于:步骤三中所述的页面布局重构模块,构建过程从权值最小的的分隔符开始,然后将这些分隔符旁边视觉块合并以形成新的视觉块;合并过程将反复进行,直到满足最大权值的分隔符为止,并根据块区域中分隔符的最大权重设置每个视觉块文件的DOC,其中预先定义文件为PDOC,则DOC的要求是DOC>PDO...

【专利技术属性】
技术研发人员:余翔湛史建焘刘立坤叶麟李精卫张元禛杨宸王璞刘睿李康
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1