当前位置: 首页 > 专利查询>刘秀萍专利>正文

基于非模式化Web数据模型的网页分块方法技术

技术编号:31495007 阅读:79 留言:0更新日期:2021-12-18 12:34
针对海量Web数据管理问题,本申请提出一种无模式的Web数据管理模型NIM,成功实现了Web数据到NIM对象结构的自动转换,将Web页面分割成多个语义块,分析各语义块的内部结构,确定语义块在NIM中所属的属性类型。针对Web页面分块,设计两种网页分块算法,针对索引型页面,设计一种基于树定量匹配的网页分块算法;针对主题型页面,提出一种新的基于PoP树的网页分块算法,将Web页面作为由视觉块和分隔条组成,通过两次分割完成Web页面分块。其次,分析各语义块的内部结构,确定各语义块在NIM中所属的属性类型,实现Web数据到NIM对象结构的自动转换。实验表明,两种网页分块算法和语义块内部结构解析算法都具有较好的效果,实现了高效网页分块。高效网页分块。高效网页分块。

【技术实现步骤摘要】
基于非模式化Web数据模型的网页分块方法


[0001]本申请涉及一种Web数据网页分块方法,特别涉及一种基于非模式化Web数据模型的网页分块方法,属于网页分块方法


技术介绍

[0002]Web在给人们提供信息资源的同时,也使人们面临了一个新的问题,即如何从海量的Web信息中获取对用户有用的信息。为了解决这个问题,现有技术构建了以Web搜索引擎为主的检索服务,但对于用户给定的查询,这些搜索引擎服务返回的结果往往并不能够满足用户的需求,这个问题的产生主要是因为目前大部分的Web页面采用了半结构化的HTML语言编写,从而使得Web数据的语义信息表达不够清晰。因此,如何将Web上大量的半结构化数据转换成结构化数据成为信息检索领域的重要问题,即Web信息抽取。Web信息抽取的主要任务是把Web页面上的半结构化数据提取出来,以更为结构化、语义化的方式表示,从而为Web应用提供有效的数据支持。
[0003]完成Web数据的抽取工作后,对这些Web数据建立相应的模式,以一种结构化的形式存储在数据库中。然而,利用Web信息抽取技术和数据库管理W本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于非模式化Web数据模型的网页分块方法,其特征在于,提出一种无模式的Web数据管理模型NIM,NIM中每个Web页面被视为一个对象,页面上的数据构成对象的属性值,NIM采用一种树结构表示对象的内部结构,对象和对象之间通过Web超链接关联在一起,形成一种图结构;本申请实现Web数据到NIM对象结构的自动转换,利用NIM对Web数据进行表示时,首先将Web页面分割成多个语义块,其次分析各语义块的内部结构,确定语义块在NIM中所属的属性类型,包括两个方面:基于NIM的网页分块以及语义块内部结构解析;首先,针对Web页面分块,设计两种网页分块算法,针对索引型页面,设计一种基于树定量匹配的网页分块算法,采用树的编辑距离来衡量DOM树中子树之间的相近度,挖掘出网页中的数据区域,完成网页分块;针对主题型页面,提出一种基于PoP树的网页分块算法,将Web页面作为由视觉块和分隔条组成,采用一种新的结构PoP树表示页面,结合网页的DOM树结构和布局结构,通过两次分割完成Web页面分块;完成网页分块后,分析各语义块的内部结构,确定各语义块在NIM中所属的属性类型,实现Web数据到NIM对象结构的自动转换;索引型页面分块利用索引型页面DOM树结构的特征,即DOM树结构中存在大量结构相近的子树,并利用树的编辑距离来度量子树之间的相近度,最后基于树的编辑距离,挖掘出网页中的数据区域,从而将页面划分成多个语义块,具体包括:索引型页面结构解析、网页标签树架构、树定量匹配法、网页分块RNQC方法;主题型页面分块采用基于PoP树的网页分块方法PRQC,将网页分块划分为两个阶段:第一阶段,基于DOM树架构的分析,结合HTML标签特征,将网页划分为几个大的分块;第二阶段,利用网页的几何布局架构,结合各分块的视觉信息、位置信息,基于递归的XY

Cut方法对各分块进行二次分割,具体包括:PoP树模型、一级分块、二级分块、PRQC驱动网页分块。2.根据权利要求1所述的基于非模式化Web数据模型的网页分块方法,其特征在于,非模式化Web数据模型NIM:设计四种扩展性强的数据类型,分别为:文本类、对象引用类、属性

值对类、列表类,NIM将每个Web页面作为一个对象,页面中的数据构成对象的属性值,Web页面存在大量的其它Web页面的链接,每个链接指向另一个页面及对象,即对象与对象之间的关系;NIM数据既设置有层次的树形结构,对象与对象之间又形成关联的网络结构,每个NIM对象都为一个层次树结构,包含四种类型结点,对应四种属性值类型,即文本申请结点、对象引用结点、属性

值对结点以及列表结点;基于NIM对象中与其它对象的关联关系,抽象出对象与对象之间的边,形成一个对象关联的图结构,NIM的查询有遍历对象内部的树查询,也有搜索对象与对象间关联的图查询,同时也有树查询与图查询融合的混合查询;一方面将数据密集型Web页面中所有的信息都抽取下来,利用NIM进行表示和整合,在数据抽取的过程中,减少自然语言处理和语义分析处理,对于一个信息抽取系统来说,其中的Web数据抽取过程的任务难度得以降低;另一方面,对这些以NIM表示和整合的数据,采用相应的无模式的查询语言,在查询的过程中对数据进行筛选,能够获取用户的目标结果。3.根据权利要求1所述的基于非模式化Web数据模型的网页分块方法,其特征在于,基于NIM的Web数据表达:在对Web数据进行表示时,NIM采用“[类名]对象名<对象的URI>{属性值}”的结构表示每个Web页面,其中对象属性值包含四种类型具体定义及表示形式为:第一类,文本类:表示纯文本,直接利用文本内容进行表示;
第二类,对象引用类:表示超文本,采用<a,b>的表示形式,其中a为超文本的文本信息,b为超文本的超链接;第三类,属性

值对类:表示带有标题的语义块,采用c:d的表示形式,其中c为属性名,d为属性值,属性名表示语义块内的标题,属性值表示标题下的内容,表示成文本类、对象引用类、列表类或递归的表示成属性

值对类;第四类,列表类:表示含有多个属性的语义块,采用{属性1,属性2,...,属性n}的表示形式;一个Web页面按照多个不同粒度的分块,直接转化成NIM对象,在对象所属类已知的情况下,为每个NIM对象划分所属类;通过Web页面间的超链接,Web页面间的跳转被表示成NIM对象间的关系,其中通过URI唯一标识每一个NIM对象。4.根据权利要求1所述的基于非模式化Web数据模型的网页分块方法,其特征在于,基于NIM的Web数据查询:NIM的查询语言包括查询部分和结果架构部分两部分,查询部分通过变量保存查询的信息,结果架构部分指定相应的变量输出结果;查询语句的形式为:queryB1,...,EnconstructS,其中B1,...,Bn表示查询表达式部分,S表示结果架构部分,NIM的查询包含树查询、图查询及树查询与图查询的混合形式,树查询基于NIM的树结构,在对象内部进行的查询,图查询基于NIM的图结构,在对象与对象之间进行的查询;1)对象内部的树查询:NIM对象的属性

值对类型属性在树结构中被拆分成多个结点,其中属性名构成属性结点,属性值构成属性结点的子结点,树的根结点是一个列表结点,其子结点包含属性结点、列表结点和文本申请结点,列表结点的值为空,属性结点的值为属性

值对类型属性的属性名,它的子结点是属性

值对类型属性的属性值形成的结点;文本申请结点的值为文本类型属性的值,并且不含任何子结点;文本申请点为叶子结点;对于对象引用结点,它的值为对象引用类型属性的值,也不含任何子结点,在树结构中以叶子结点的形式存在;2)对象之间的图查询:NIM的图是有向图,图中的每个结点表示一个对象,边上的信息表示对象之间的关系,基于对象的内部结构,NIM将一个对象到另一个对象的路径抽象成这两个对象之间的边,对象之间的边表示对象与对象之间的语义关系,在边的构建过程中不考虑列表结点,如果两个对象的边不含有任何语义信息,则将这条边标注为“null”,当把所有Web页面数据按照NIM的对象结构存储管理时,形成一个信息量丰富的图模型,对象与对象之间的语义关系能够很好的在这个图模型中体现,最后将这个图模型应用于语义搜索或数据挖掘;3)树查询与图查询的融合形式:在树查询表达式和图查询表达式中,NIM采用相近的层次结构,树查询表达式和图查询表达式并不完全分离,通过对象引用结点,将二者融合在一起,从一个对象内部进行查询时,可能会查找到一个对象引用结点,通过这个对象引用结点,可以查找到它指向的对象,从而完成一个对象到另一个对象的查询,即图查询,在树查询表达式和图查询表达式中,对于一个对象,综合使用这两种形式进行查询。5.根据权利要求1所述的基于非模式化Web数据模型的网页分块方法,其特征在于,索引型页面结构解析:索引型页面存在的大量相近结构的信息为数据记录,语义相关的数据记录组织在一起形成数据区域,结合索引型页面的DOM树结构,数据区域具有三个特征:(1)结构相近的数据记录固定在页面内的同一个区域,并且采用相近的结构进行组织,
形成数据区域;(2)数据区域内部的数据记录具有连续性;(3)将网页的HTML文档转换成DOM树结构时,网页面内的数据区域由具有相同父结点的多棵相邻子树组成,并且这些子树具有相近的HTML标签结构;本申请采用树定量匹配网页分块方法,挖掘数据区域,完成对索引型网页的分块。6.根据权利要求1所述的基于非模式化Web数据模型的网页分块方法,其特征在于,树定量匹配法:为挖掘出页面中的数据区域,对同一父结点下的不同子树的相近度进行计算,树的编辑距离是一种度量两棵树之间异构程度的定量法,采用编辑距离计算字符串之间相近度的方法,并对其定义如下:定义一:给定两个字符串C和R,编辑距离Dis(C,R)定义为使C和R成为相同字符串需要的最少编辑操作次数,其中第一种操作是把某个字符zw1变为zw2,第二种操作是插入某个字符,第三种操作是删除某个字符;树的编辑距离定义:树R1到树R2的编辑距离Dis(R1,R2)定义为利用编辑操作将树R1转化为树R2所需的最小代价,编辑操作包括:一是结点删除操作delete(v),即从一棵子树中删除一个结点v;二是结点插入操作insert(x,v),即插入一个结点v到一棵子树x中;三是结点替换操作replace(v,u),即将一棵子树上的结点v替换成结点u,同时对每种编辑操作,赋予相应的代价,分别记作del_cost,ins_cost,rep_cost,树的编辑距离等价为寻找树R1和树R2之间的最小编辑代价的映射关系,定义五和定义六分别给出这种映射关系的具体内容以及树编辑距离的具体计算式;定义二:假定R是一棵树,R[i]表示树先序遍历过程中的第i个结点,则树R1和树R2之间的映射集合N(i,j)对任意的(i1,j1),(i2,j2)∈N满足以下条件:1)i1=i2当且仅当j1=j2;2...

【专利技术属性】
技术研发人员:刘秀萍王彬
申请(专利权)人:刘秀萍
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1