一种基于网页分类信息的对象分类方法和系统技术方案

技术编号:7700390 阅读:188 留言:0更新日期:2012-08-23 05:27
本申请提供一种基于网页分类信息的对象分类方法,包括以下步骤:将每个单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树;从每个所述XML树中抽取对象的标识符;从每个所述XML树中抽取单层次链;将来自不同单网页的多个单层次链集成为一棵有向树;以及根据单网页的对象标识符和单层次链,从所述有向树得到此对象的分类信息。本申请采用综合因素来抽取网页中的具有层次的分类信息,这些因素有:节点序列模式匹配和节点位置等的计算方法,这些能够从单网页中得到更精确和有用的分类信息。

【技术实现步骤摘要】

本申请一般涉及与信息处理和信息抽取相关的技术,更具体地,涉及利用基于因特网上的网页分类信息的对象分类方法和系统。
技术介绍
在现有技术中,存在如下一些相关的技术 I、从网站中抽取层次(Hierarchy extraction from the websites,G06F001700,20091231,NEC(CHINA)CO.,LTD.)现有的从网站中抽取层次的技术中提供了一种构建对象层次的方法和系统,该方法包括从一个网站中获取一系列网页,对这些网页进行inter-page (页面间)分析来抽取这些网页的层次;进行intra-page (页面内)分析来标识网页内的语义区块,并且得到所有网页的语义区块层次;然后根据网页的层次,来融合这些语义块的层次,以便于生成相应的分层。分析首先,该技术将一个网页映射成一个对象(inter-);因为网页的树结构而使对象具有层次结构;然后使用相似的网页(intra-)来改善此对象的层次;该方法基于全页面映射来得到对象的分类信息,与本申请的方法有根本的不同。2、TaxaMiner : — 个自动分类自举的实验框架(An ExperimentationFrameworkfor Automated Taxonomy Bootstrapping,V Kashyap, . . . ClinicalInformation R&D,Partners HealthCare System)该现有技术的思路包括(a)文档簇层次的生成;(b)从这些簇层次中抽取主题分层;(C)对主题层次中的节点进行标注。他们采纳了一系列聚类和自然语言处理相关的技术,以及从实验框架中得到的标识参数;同时提供一种度量来测试主题簇的质量,并且评估不同的参数对质量矩阵带来的影响。分析该方法是从纯文本中得到分类信息,方法和数据源与本申请都明显不同。3、一个基于分类的从数据密集型网站中自动抽取数据的爬虫(ATaxonomyBased Crawler for Automated Data Extraction from Data-IntensiveWebsites,H. Davulcu, ...Department of Computer Science and Engineering, Arizona stateUniv.)这种现有技术采用启发式规则来发现如下结构中的结构化规律分类块、产品列表以及单产品页面;这些规律被用于将在线目录转换成分类产品数据库,这种转换不需要人为参与以及额外的封装维护负担。上述现有技术从一个大型的网站首页获取分类信息入口,这些分类信息是一个很大的集合但并不具备精细的层次信息;同时,该文档使用的方式本身也与本申请有明显的不同。如我们对上述每篇参考文献的分析,我们在权利说明中提到的技术与它们有明显的区别。此外,本申请采用综合因素来抽取网页中的具有层次的分类信息,这些因素有 节点序列模式匹配和节点位置等的计算方法,这些能够从单网页中得到更精确和有用的分类信息。基于图的方法来集成多个从不同网页而来的分类信息,并且得到单对象的确切分类信息,用于构建对象库;对异构的网页来说,更具合理性。现有许多包括分类信息的网页,如产品声明等,这些分类信息是按人类知识来组织的,因此对词典、本体以及对象数据库的构建非常有用。当前的分类信息都是人(专家)来搜集并整理的,这样非常耗时耗力。正因为现有的网页分类信息包含了人的知识,因此提供了精确发现对象之间关系的可能的途径,如产品之间的关系。但是网页包含了许多噪声,以及不同网页是异构的,即 使是对同一种对象来说,不同网站的表现形式也是多样的。如何抽取这些分类信息并集成它们是本专利技术的目的。
技术实现思路
本专利技术的另外方面和优点部分将在后面的描述中阐述,还有部分可从描述中明显地看出,或者可以在本专利技术的实践中得到。本专利技术的应用领域通常包括构建对象库,并根据分类信息来分类和索引文档。本专利技术提供了一种新的通过层次链和对象标识符来自动对网页中对象进行分类的方法。现在这些分类信息被用来分类对象,更进一步,来为对象库构建分类树。为了达到以上目的,我们采用了一种具有6个步骤的创新的方法来从网页中获取分类信息。本申请提供一种基于网页分类信息的对象分类方法,包括以下步骤将每个单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树;从每个所述XML树中抽取对象的标识符;从每个所述XML树中抽取单层次链;将来自不同单网页的多个单层次链集成为一棵有向树;以及根据单网页的对象标识符和单层次链,从所述有向树得到此对象的分类信息。本申请还提供一种基于网页分类信息的对象分类系统,包括预处理模块,用于通过转换处理将单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树;对象标识符抽取模块,用于每个从所述XML树中抽取对象的标识符;单层次链抽取模块,用于从每个所述XML树中抽取单层次链;多链集成模块,用于将来自不同网页的多个单层次链集成为一棵有向树;和对象分类模块,用于根据单网页的对象标识符和单层次链,从所述有向树得到此对象的分类信息。附图说明通过结合附图对本专利技术的优选实施例进行详细描述,本专利技术的上述和其他目的、特性和优点将会变得更加清楚,其中相同的标号指定相同结构的单元,并且在其中图I示出了对象的一个示例。图2列举了一个有关对象分类信息以及相对应的网页内容的例子。图3是根据本专利技术实施例的对象分类系统的框图。图4是根据本专利技术实施例的对象分类系统的示例性PC系统环境的构架示意图。图5示出了根据本专利技术实施例的对象分类方法的流程图。图6示出了节点结构的一个示例。图7示出了图5的预处理步骤SlOl的具体实施。 图8示出了图5的抽取对象标识符步骤S102的流程图。图9示出了根据本专利技术实施例的图3的系统中的对象标识抽取模块102的示意性实现方框图。图10示出了图5的抽取单层次链步骤S103的流程图。图11是根据本专利技术实施例的节点过滤示意图。图12表达了根据本专利技术实施例的模式匹配的过程。图13示出了根据本专利技术实施例的图3的系统中的单层次链抽取模块103的示意性实现方框图。图14示出了根据本专利技术实施例的节点结构。图15示出了根据本专利技术实施例的合并新来的单层次链的过程的流程图。图16示出了根据本专利技术实施例的树的形成的示意图。图17示出了根据本专利技术实施例的图3的系统中的多链集成模块104的示意性实现方框图。图18示出了根据本专利技术实施例查找对象的示例。图19示出了根据本专利技术实施例的图3的系统中的对象分类模块105的示意性实现方框图。具体实施例方式下面将参照示出本专利技术实施例的附图充分描述本专利技术。然而,本专利技术可以以许多不同的形式实现,而不应当认为限于这里所述的实施例。相反,提供这些实施例以便使本公开透彻且完整,并且将向本领域技术人员充分表达本专利技术的范围。在附图中,为了清楚起见放大了组件。除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本专利技术所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。这里参照本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网页分类信息的对象分类方法,包括以下步骤 a)将每个单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树; b)从每个所述XML树中抽取对象的标识符; c)从每个所述XML树中抽取单层次链; d)将来自不同单网页的多个单层次链集成为一棵有向树;以及 e)根据单网页的对象标识符和单层次链,从所述有向树得到此对象的分类信息。2.根据权利要求I所述的方法,进一步包括f):基于所述有向树从更多的网页中得到分类信息,并将之加入到有向树中。3.根据权利要求I所述的方法,其中步骤a)进一步包括 从DOM树中移除与第一列表中枚举的节点相同的节点; 删除DOM树中的其他节点属性,只将超链接HREF属性保留到输出的XML树中; 如果一个节点没有值,而且只有一个拥有文本值的孩子节点,那么,所述孩子节点的文本值会被看成该节点的值,同时从XML树中移除所述孩子节点;以及 通过渲染得到XML树中节点的可视信息,并将节点的可视信息作为节点的属性保留在输出XML树中。4.根据权利要求I所述的方法,其中步骤b)进一步包括 根据第一规则过滤掉不可能的节点; 根据可视信息计算每个节点的可视化分值,根据特定的正规表达式与标题相似度计算每个节点的值分值,并且根据标签因素计算每个节点的标签分值; 合并可视化分值、值分值、和标签分值,并得到排名前η的节点作为候选节点; 计算每个候选节点的频率分值,并选择频率分值排在前3的节点作为标识符候选节点;和 移除与第二列表中列举的值相同的节点值,得到分值排名第一的节点作为对象标识符。5.根据权利要求4所述的方法,其中第一规则包括 节点的值长度大于第一阈值并小于第二阈值,否则过滤掉该节点,所述第一阈值和第二阈值为经验设置值; 节点的名字如果在停用标签集合中,则过滤掉该节点。6.根据权利要求4所述的方法,其中可视化分值的计算进一步包括 通过二维高斯方法计算节点的位置分值; 根据字体信息计算节点的字体分值; 通过合并位置分值和字体分值得到节点的可视化分值。7.根据权利要求I所述的方法,其中步骤c)进一步包括 根据节点的自底而上深度、节点的孩子数目以及停用词列表来过滤掉不可能的节点; 根据分类规则将所有剩下的候选节点分成I、II、II和IV四大类; 将每个候选节点的所有孩子看成一个节点序列,并基于节点序列类型进行模式匹配并得到每个候选节点的模式分值; 根据节点字体和绝对位置信息来计算每个候选节点的可视化分值;对上述步骤得到的模式分值和可视化分值进行合并,并根据结果进行排序,取分值高的和它的孩子为层次链的候选者;以及 根据第三列表移除不必要的层次,并且如果层次链最低层不是对象标识符则将步骤b)得到的对象标识符添加到最低层,从而得到最终的层次链。8.根据权利要求7所述的方法,分类规则包括 该节点有值,且节点名为“A”时,将节点分为第I类; 该节点有值,且节点名为“TEXT”时,将节点分为第II类; 该节点有值,且节点名不是上述两种情况时,将节点分为第III类;以及 该节点没有值时,将节点分为第IV类。9.根据权利要求7所述的方法,其中所述模式匹配进一步包括 根据节点类型将每个候选节点的孩子节点序列分成头部、中部和尾部三部分,以便中部是一个节点类型不断重复且重复最小单位是两个节点的序列; 根据有头尾部长度、中部长度以及节点类型重复次数,对每个候选节点的孩子节点序列计算模式分值; 根据每个候选节点的孩子的数目计算节点的附加分值,并将该附加分值与上述模式分值合并,得到最终模式分值;以及 过滤掉其最终模式分值小于第三阈值的候选节点。10.根据权利要求7所述的方法,其中可视化分值的计算进一步包括 通过二维高斯方法来计算候选节点的位置分值; 如果候选节点的所有孩子的同一维位置值相同,那么该节点的可视化分值为位置分值;如果都不相同,那么该节点的可视化分值为O ; 如果候选节点的孩子序可视位置是递增的,那么该节点的可视化分值为位置分值;如果孩子序的可视位置不是递增的,那么该节点的可视化分值为O ; 如果候选节点的所有孩子的字体相同,那么该节点的可视化分值为位置分值;如果不同,那么该节点的可视化分值为O。11.根据权利要求I所述的方法,其中步骤d)进一步包括 dl)建立一颗只存在一个根节点的树; d2)检查步骤c)抽取得到的每个单层次链中的每个新来节点是否在树中已经存在,如果已存在,则合并该新来节点到树中对应的节点,并增加该节点的计数,同时将该新来节点的后代视为其下层节点; d3)如果不存在,则检查树中是否存在与新来节点有关系的节点,如果存在有关系的节点,则根据所述关系将新来节点添加为有关系的节点的上层或下层节点;d4)如果不存在有关系的节点,则将此链合并至根节点之下;d5)所有层次链合并完成之后得到一个有向图;以及 d6)根据有向图中所有上层节点的计数来确定计数最大的一个为正式父节点,并删除符合预定条件的关系边,从而得到最终的有向树。12.根据权利要求I所述的方法,其中步骤e)进一步包括 接收一个对象标识符;以及 从有向树查找该对象标识符,如果存在,则相应节点的祖先节点为此对象的分类信息。13.根据权利要求4、6-7或9的任何一个所述的方法,其中,所述合并包括对所述分值求加权和、或对所述分值直接相乘。14.一种基于网页分类信息的对象分类系统,包括 预处理模块,用于通过转换处理将单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树; 对象标识符抽取模块,用于每个从所述XML树中抽取对象的标识符; 单层...

【专利技术属性】
技术研发人员:谢宣松姜珊珊孙军郑继川赵利军
申请(专利权)人:株式会社理光
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1