【技术实现步骤摘要】
—种基于内容相似的网页分割方法
本专利技术属于自适应web呈现与web信息提取
,具体来讲,涉及。
技术介绍
自适应web呈现技术是自适应技术的一个应用领域,它描述了一类新“智能组件/智能结构”,这些智能组件在工作条件改变的时候具有一个主动适应和目标优化调节的机械特性。这种主动的组件满足了改善系统机械特性、效率、性能及其他特性的要求。Web信息抽取技术是从Web网页所包含的无结构、半结构或者结构化的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式(XML、关系数据等),是信息提取的一个应用领域。早在20世纪90年代,人们便开始研究自适应web呈现与web信息提取技术,解决如何将针对PC端设计的网页在移动终端正常问题。30年历程,出现了各种解决方案。解决方法主要有三种:重构网页、转码、网页分割。重构网页即建立一个与PC网页对等的适合不同移动终端显示的移动网页,Web服务器判断是移动终端用户,则选择重构网页作为响应信息,该方法需要消耗大量的人力、物力、财力。转码即采用转码技术将HTML、JSP、ASP、PHP等不适合移动终端显示的代码转换成对等的WML (适合移动终端显示)的代码,由于一个网页含有大量的信息,如果将网页内容全部显示在小屏幕的移动终端中,需要花费大量时间滑动滚动条寻找需要的信息,用户体验极差;网页分割即将网页分割成语义完整的语义块,用户每次看到的仅仅是一个语义块形成的子页,该方法是目前热点研究话题,可分为以下几类:基于标签的网页分割方法、基于DOM的网页分割方法、基于位置关系的网页分割方法、基于模板的网页分割方法 ...
【技术保护点】
一种基于内容相似的网页分割方法,其特征在于,包括以下步骤:步骤1:自动获取移动终端软硬件配置信息并存储;步骤2:依据用户请求获取Web服务器中的Web网页;步骤3:对步骤2得到的Web页面,进行HTML规范处理与CSS预处理,实现HTML规范化和样式信息与数据的绑定;步骤4:根据内容块检测算法获取经步骤3处理后的Web网页中所有内容块;步骤5:对于步骤4得到的内容块,依据人类视觉特征得出六维度内容视觉向量空间,并定义内容视觉空间里两点相似度计算公式;步骤6:构建加权无向连通图,依据移动终端软硬件配置信息,采用Kruskal算法对加权无向连通图进行分割,得到所述的加权无向连通图的子图;步骤7:关联所有子图,建立子图关系,选取第一个子图作为主页面推送给用户。
【技术特征摘要】
1.一种基于内容相似的网页分割方法,其特征在于,包括以下步骤: 步骤1:自动获取移动终端软硬件配置信息并存储; 步骤2:依据用户请求获取Web服务器中的Web网页; 步骤3:对步骤2得到的Web页面,进行HTML规范处理与CSS预处理,实现HTML规范化和样式信息与数据的绑定; 步骤4:根据内容块检测算法获取经步骤3处理后的Web网页中所有内容块; 步骤5:对于步骤4得到的内容块,依据人类视觉特征得出六维度内容视觉向量空间,并定义内容视觉空间里两点相似度计算公式; 步骤6:构建加权无向连通图,依据移动终端软硬件配置信息,采用Kruskal算法对加权无向连通图进行分割,得到所述的加权无向连通图的子图; 步骤7:关联所有子图,建立子图关系,选取第一个子图作为主页面推送给用户。2.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤I中所述的终端软硬件配置信息包括移动终端品牌,移动终端型号,移动终端系统类型及版本,移动终端分辨率,移动终端浏览器类型、版本、内核信息,并设定所述的移动终端品牌、移动终端型号、移动终端系统类型及版本移动终端浏览器类型、版本、内核信息为主键。3.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤3所述的对步骤2得到的Web页面进行HTML规范化,其具体采用HTMLClear Jar包实现。4.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤3所述的对步骤2得到的Web页面进行C`SS预处理,其具体实现包括以下子步骤: 步骤3.1:获取所述的Web页面的进行HTML规范化后的样式信息; 步骤3.2:关联样式信息和标签; 步骤3.3:输出HTML和PerfectNode关联类列表。5.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤3.2所述的关联样式信息和标签,其具体实现包括以下子步骤: 步骤3.2.1:查找所述的关联样式信息的对应标签; 步骤3.2.2:定义“样式信息一标签”关联类; 步骤3.2.3:样式冲突检测与处理。6.根据权利要求1所述的基于内容相似的网页...
【专利技术属性】
技术研发人员:童名文,彭红超,郝秋红,牛琳,栗欢,杨蕾,张小娟,
申请(专利权)人:华中师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。