【技术实现步骤摘要】
本专利技术涉及用于提取网页中内聚区域的方法和装置。该方法和装置能够根据内容和功能把网页分割为信息块,并且把网页处理的粒度从整个页面扩展为页面内的信息块,从而可以使网页更容易由机器处理。
技术介绍
最近,出于商业目的,网页的内容和结构变得越来越复杂,以方便访问且对用户友好。网页通常是不同主题和功能的集合,它们被松散地结合起来形成一个整体。人们可以容易地识别出网页中具有不同含义和功能的信息区,但对于自动处理系统这非常困难,原因在于HTML的设计初衷是用于显示,而不是用于内容描述。现在,多数现有的网络IR(信息检索)、IE(信息提取)和DM(数据挖掘)系统把网页当作基本单元,而没有对网页内的信息块给予应有的考虑,从而在机器处理过程中出现许多问题。由于上面提到的问题,人们开始考虑如何根据内容和功能来分割网页。下面是现有的相关研究。Xiaoli Li,Bing Liu,Tong-Heng phang,Minqing Hu,2002.UsingMicro Information Units for Internet Search.CIKM’02,November4-9,2 ...
【技术保护点】
一种信息块提取方法,用于将网页分割为具有内聚内容的多个信息块,该方法包括以下步骤:结构信息块提取步骤,生成网页的结构信息块树;以及语义信息块提取步骤,对结构信息块进行分类归并和合并,并对结果块的语义进行标记。
【技术特征摘要】
CN 2003-9-18 03157365.71.一种信息块提取方法,用于将网页分割为具有内聚内容的多个信息块,该方法包括以下步骤结构信息块提取步骤,生成网页的结构信息块树;以及语义信息块提取步骤,对结构信息块进行分类归并和合并,并对结果块的语义进行标记。2.根据权利要求1所述的信息块提取方法,其中,所述的结构信息块提取步骤包括将网页表达为HTML DOM树和HTML标记token流;自动地归纳网页中的重复模式,过滤出不合适的重复模式,且生成候选模式和相应实例的集合;将重复模式与网页中的相应区域匹配;根据检测到的页面区域构建RST树;识别各个信息块中的全部信息项;以及根据RST树和信息项的划分而构建最终的结构信息块树。3.根据权利要求1所述的信息块提取方法,其中,所述的语义信息块提取步骤包括从结构信息块树中以适当的粒度获取基本信息块;把基本信息块分类归并和合并为语义信息块;以及对网页的语义块中的主文本信息块和相关链接块进行标记。4.一种信息块提取装置,用于将网页分割为具有内聚...
【专利技术属性】
技术研发人员:王俊,王继成,武港山,津田宏,
申请(专利权)人:富士通株式会社,南京大学,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。