一种快速生成网页视觉结构图形的方法及装置制造方法及图纸

技术编号:19903522 阅读:59 留言:0更新日期:2018-12-26 02:56
本发明专利技术涉及一种快速生成网页视觉结构图形的方法及装置。该方法包括:提取网页中的文本域的视觉结构图形;提取网页中的图像域的视觉结构图形;将文本域的视觉结构图形与图像域的视觉结构图形去重与合并,得到网页的视觉结构图形。该装置包括文本域视觉结构图形提取模块、图像域视觉结构图形提取模块、去重与合并模块。本发明专利技术抛弃了传统分析方法中网页DOM结构的累赘,仅由网页截图应用图形学方法处理图片,大大降低了算法耗时;本发明专利技术采用数学形态学变换,能够快速、准确地分别提取网页中文本域与图像域的视觉结构图形。

【技术实现步骤摘要】
一种快速生成网页视觉结构图形的方法及装置
本专利技术属于信息
,具体涉及一种快速生成网页视觉结构图形的方法及装置。
技术介绍
网页视觉结构指的是在排除网页具体内容(包括文字图片)的干扰后,剩下的能够识别网页布局的块状特征,一般由文本域块与图片域块构成。不同的网页通常有着不同的视觉结构,同一个网站中的同一类型网页视觉结构通常类似。由于网页视觉结构排除了具体内容的干扰,可以纯粹地反映出网页元素的分布,因此在信息抽取、恶意网页识别、网页分类中,经常会使用网页视觉结构作为分类器的特征之一。要在大规模的网页分析中应用网页视觉结构特征,首要任务是根据需求提取出特定网页的视觉结构进行分析。传统的视觉结构特征提取方法主要是基于DOM结构的网页视觉块提取方法,通过对DOM树各个节点的tag语义、字体、背景颜色等属性进行分析,得出各个DOM节点所在层级与视觉块,对视觉块进行合并与过滤之后,最终得到网页的视觉结构。最常用的方法是DengCai、ShipengYu等人提出的VIPS算法。虽然上述方法在生成网页视觉结构的同时,还能得到网页视觉块的层级结构,但由于需要遍历并处理DOM结构,时间复杂度相当高本文档来自技高网...

【技术保护点】
1.一种快速生成网页视觉结构图形的方法,其特征在于,包括以下步骤:提取网页中的文本域的视觉结构图形;提取网页中的图像域的视觉结构图形;将文本域的视觉结构图形与图像域的视觉结构图形去重与合并,得到网页的视觉结构图形。

【技术特征摘要】
1.一种快速生成网页视觉结构图形的方法,其特征在于,包括以下步骤:提取网页中的文本域的视觉结构图形;提取网页中的图像域的视觉结构图形;将文本域的视觉结构图形与图像域的视觉结构图形去重与合并,得到网页的视觉结构图形。2.根据权利要求1所述的方法,其特征在于,所述提取网页中的文本域的视觉结构图形,包括:1)对灰度处理后的网页图像应用核为1的Sobel算子进行变换,提取出边缘特征;2)对边缘特征进行二值化处理,将背景色设定为黑色,边缘特征设定为白色;3)对二值化处理后的边缘特征图像进行数学形态学变换,得到文本域的大致分布范围;4)对得到的文本域大致分布范围进行边缘提取,得到各个文本域的边缘分布信息;5)对得到的文本域的边缘分布信息分别计算能覆盖各个边缘的最小矩形,将各个矩形区域合并后即可得到最终的文本域视觉结构图形。3.根据权利要求2所述的方法,其特征在于,步骤3)所述数学形态学变换包括:a)对二值化处理后的边缘特征图像进行数学形态学变换,使用一定大小的方形核对边缘特征进行一次膨胀,使得边缘特征变得更为显著;b)对膨胀后的边缘特征进行数学形态学变换,使用比上一步中尺寸更大的方形核对膨胀后的边缘特征进行一次腐蚀,消除分割线、图像残余、表格线,得到文本域腐蚀图;c)对文本域腐蚀图再次应用与步骤a)中相同的数学形态学变换,重复若干次,将腐蚀后的文本域进行强化,直到获得的文本域范围大致不变,由此得到文本域的大致分布范围。4.根据权利要求1所述的方法,其特征在于,所述提取网页中的图像域的视觉结构图形,包括:1)对灰度处理后的网页图像直接进行数学形态学变换,使用较小尺寸的方形核对灰度图进行多次膨胀;2)对步骤1)得到的灰度图像进行二值化处理,得到图像域大致分布;3)对步骤2)得到的黑白图像进行数学形态学处理,进行闭开变换,去除噪点,得到图像域分布范围;4)对步骤3)得到的图像域分布范围分别计算能覆盖各个图像轮廓的最小矩形,并按照面积进行过滤,将各个矩形区域合并后即可得到最终的图像域视觉特征结构。5.根据权利要求1所述的方法,其特征在于,所述将文本域的视觉结构图形与图像域的视觉结构图形去重与合并,包括:通过碰撞算法,找出相互重合的图像域与文本域,将这些图像域去除,仅留下对应的文本域;将剩余的图像域与文本域进行合并,即得到网页的视觉结构图形。6.一种快速生成网页视觉结构图形的装置,其特...

【专利技术属性】
技术研发人员:柳厅文李彦增舒晓波刘曲时金桥李全刚张水利亚静
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1