The present disclosure relates to a web page structure change detection method and system. Including: the HTML code and access to web analysis, get web data; according to the web data, extract the web page structure wherein each label, a DOM tree; matching tree structure of DOM tree and the pre stored data \DOM tree structure; determine the web page structure change according to the matching result. The invention realizes rapid checking of changes in webpage structure and accurate positioning of change.
【技术实现步骤摘要】
一种网页结构变更检测方法及系统
本公开涉及网页检测
,尤其涉及一种网页结构变更检测方法及系统。
技术介绍
网页结构即网页内容的布局,创建网页结构实际上就是对网页内容的布局进行规划。网页结构的创建是页面优化的重要环节之一,会直接影响页面的用户体验及相关性,而且还在一定程度上影响网站的整体结构及页面被收录的数量。从页面结构的角度上看,网页主要由导航栏、栏目、及正文内容这三大要素组成。网页结构的创建、网页内容布局的规划实际也是围绕这三大组成要素展开的。网页结构实际就是对导航栏、栏目、及正文内容这三大页面基本组成元素进行组织布局。根据页面内容侧重点的不同,可以把网页分为导航型、内容型及导航内容结合型三种。网页栏目结构一般来说,一个企业网站的一级栏目不应超过8个,而栏目层次以三层以内比较合适。网站栏目设置是一个网站结构的基础,也是网站导航系统的基础,应做到设置合理、层次分明。对网站栏目结构的研究室网络营销导向网站建设的基础。网页的布局,传统的基于HTML的网站设计中,网页结构定位通常有表格定位和框架结构,现在主流是采用表格定位;基于XHTML语言的网站设计中,典型的定 ...
【技术保护点】
一种网页结构变更检测方法,其特征在于,包括:获取网页HTML代码并解析,得到网页数据;根据所述网页数据,提取出其中各标签的网页结构,建立DOM树;将DOM树的树形结构与预先存储的网页数据DOM树型结构匹配;根据匹配结果确定网页结构的变更位置。
【技术特征摘要】
1.一种网页结构变更检测方法,其特征在于,包括:获取网页HTML代码并解析,得到网页数据;根据所述网页数据,提取出其中各标签的网页结构,建立DOM树;将DOM树的树形结构与预先存储的网页数据DOM树型结构匹配;根据匹配结果确定网页结构的变更位置。2.根据权利要求1所述的方法,其特征在于,所述获取网页HTML代码并解析,包括:登入网页服务器,请求所述网页对应的HTML代码;将所述网页对应的HTML代码根据预设的格式进行存储。3.根据权利要求1所述的方法,其特征在于,所述根据所述网页数据,提取出其中各标签的网页结构,建立DOM树,包括:获取所述网页数据中各个HTML标签;根据所述HTML标签获取对应的网页结构;根据所述网页结构,清洗去除其中各HTML标签的属性值和文本内容节点,获得结构数据;根据所述结构数据建立DOM树。4.根据权利要求1所述的方法,其特征在于,所述将DOM树的树形结构与预先存储的网页数据DOM树型结构匹配,包括:将不同时间点获取的DOM树的树形结构相匹配。5.根据权利要求1所述的方法,其特征在于,将DOM树的树形结构与预先存储的网页数据DOM树型结构匹配,包括:根据树形结构匹配算法进行匹配;具体树形结构匹配算法包括:匹配两个DOM树的MD5值;当确认所述两个DOM树的MD5值不一致时,从所述两个DOM树的父节点到子节点,子节点到叶子节点,逐一进行递归式MD5值对比校验;将MD5值不一致的所述节点,存储到结构变更集合中。6.根据权利要求1所述的方法...
【专利技术属性】
技术研发人员:范晓忻,朱志伟,
申请(专利权)人:金电联行北京信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。