一种基于网页分类信息的对象分类方法和系统技术方案

技术编号：7700390 阅读：188 留言：0更新日期：2012-08-23 05:27

本申请提供一种基于网页分类信息的对象分类方法，包括以下步骤：将每个单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树；从每个所述XML树中抽取对象的标识符；从每个所述XML树中抽取单层次链；将来自不同单网页的多个单层次链集成为一棵有向树；以及根据单网页的对象标识符和单层次链，从所述有向树得到此对象的分类信息。本申请采用综合因素来抽取网页中的具有层次的分类信息，这些因素有：节点序列模式匹配和节点位置等的计算方法，这些能够从单网页中得到更精确和有用的分类信息。

全部详细技术资料下载

【技术实现步骤摘要】

本申请一般涉及与信息处理和信息抽取相关的技术，更具体地，涉及利用基于因特网上的网页分类信息的对象分类方法和系统。
技术介绍
在现有技术中，存在如下一些相关的技术 I、从网站中抽取层次(Hierarchy extraction from the websites,G06F001700,20091231，NEC(CHINA)CO.，LTD.)现有的从网站中抽取层次的技术中提供了一种构建对象层次的方法和系统，该方法包括从一个网站中获取一系列网页，对这些网页进行inter-page (页面间)分析来抽取这些网页的层次；进行intra-page (页面内)分析来标识网页内的语义区块，并且得到所有网页的语义区块层次；然后根据网页的层次，来融合这些语义块的层次，以便于生成相应的分层。分析首先，该技术将一个网页映射成一个对象(inter-);因为网页的树结构而使对象具有层次结构；然后使用相似的网页(intra-)来改善此对象的层次；该方法基于全页面映射来得到对象的分类信息，与本申请的方法有根本的不同。2、TaxaMiner : — 个自动分类自举的实验框架(An ExperimentationFrameworkfor Automated Taxonomy Bootstrapping，V Kashyap, . . . ClinicalInformation R&D，Partners HealthCare System)该现有技术的思路包括(a)文档簇层次的生成；(b)从这些簇层次中抽取主题分层；(C)对主题层次中的节点进行标注。他们采纳了一系列聚类和自然语言处理...

【技术保护点】

【技术特征摘要】
1.一种基于网页分类信息的对象分类方法，包括以下步骤 a)将每个单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树； b)从每个所述XML树中抽取对象的标识符； c)从每个所述XML树中抽取单层次链； d)将来自不同单网页的多个单层次链集成为一棵有向树；以及 e)根据单网页的对象标识符和单层次链，从所述有向树得到此对象的分类信息。2.根据权利要求I所述的方法，进一步包括f):基于所述有向树从更多的网页中得到分类信息，并将之加入到有向树中。3.根据权利要求I所述的方法，其中步骤a)进一步包括从DOM树中移除与第一列表中枚举的节点相同的节点；删除DOM树中的其他节点属性，只将超链接HREF属性保留到输出的XML树中；如果一个节点没有值，而且只有一个拥有文本值的孩子节点，那么，所述孩子节点的文本值会被看成该节点的值，同时从XML树中移除所述孩子节点；以及通过渲染得到XML树中节点的可视信息，并将节点的可视信息作为节点的属性保留在输出XML树中。4.根据权利要求I所述的方法，其中步骤b)进一步包括根据第一规则过滤掉不可能的节点；根据可视信息计算每个节点的可视化分值，根据特定的正规表达式与标题相似度计算每个节点的值分值，并且根据标签因素计算每个节点的标签分值；合并可视化分值、值分值、和标签分值，并得到排名前η的节点作为候选节点；计算每个候选节点的频率分值，并选择频率分值排在前3的节点作为标识符候选节点；和移除与第二列表中列举的值相同的节点值，得到分值排名第一的节点作为对象标识符。5.根据权利要求4所述的方法，其中第一规则包括节点的值长度大于第一阈值并小于第二阈值，否则过滤掉该节点，所述第一阈值和第二阈值为经验设置值；节点的名字如果在停用标签集合中，则过滤掉该节点。6.根据权利要求4所述的方法，其中可视化分值的计算进一步包括通过二维高斯方法计算节点的位置分值；根据字体信息计算节点的字体分值；通过合并位置分值和字体分值得到节点的可视化分值。7.根据权利要求I所述的方法，其中步骤c)进一步包括根据节点的自底而上深度、节点的孩子数目以及停用词列表来过滤掉不可能的节点；根据分类规则将所有剩下的候选节点分成I、II、II和IV四大类；将每个候选节点的所有孩子看成一个节点序列，并基于节点序列类型进行模式匹配并得到每个候选节点的模式分值；根据节点字体和绝对位置信息来计算每个候选节点的可视化分值；对上述步骤得到的模式分值和可视化分值进行合并，并根据结果进行排序，取分值高的和它的孩子为层次链的候选者；以及根据第三列表移除不必要的层次，并且如果层次链最低层不是对象标识符则将步骤b)得到的对象标识符添加到最低层，从而得到最终的层次链。8.根据权利要求7所述的方法，分类规则包括该节点有值，且节点名为“A”时，将节点分为第I类；该节点有值，且节点名为“TEXT”时，将节点分为第II类；该节点有值，且节点名不是上述两种情况时，将节点分为第III类；以及该节点没有值时，将节点分为第IV类。9.根据权利要求7所述的方法，其中所述模式匹配进一步包括根据节点类型将每个候选节点的孩子节点序列分成头部、中部和尾部三部分，以便中部是一个节点类型不断重复且重复最小单位是两个节点的序列；根据有头尾部长度、中部长度以及节点类型重复次数，对每个候选节点的孩子节点序列计算模式分值；根据每个候选节点的孩子的数目计算节点的附加分值，并将该附加分值与上述模式分值合并，得到最终模式分值；以及过滤掉其最终模式分值小于第三阈值的候选节点。10.根据权利要求7所述的方法，其中可视化分值的计算进一步包括通过二维高斯方法来计算候选节点的位置分值；如果候选节点的所有孩子的同一维位置值相同，那么该节点的可视化分值为位置分值；如果都不相同，那么该节点的可视化分值为O ; 如果候选节点的孩子序可视位置是递增的，那么该节点的可视化分值为位置分值；如果孩子序的可视位置不是递增的，那么该节点的可视化分值为O ; 如果候选节点的所有孩子的字体相同，那么该节点的可视化分值为位置分值；如果不同，那么该节点的可视化分值为O。11.根据权利要求I所述的方法，其中步骤d)进一步包括 dl)建立一颗只存在一个根节点的树； d2)检查步骤c)抽取得到的每个单层次链中的每个新来节点是否在树中已经存在，如果已存在，则合并该新来节点到树中对应的节点，并增加该节点的计数，同时将该新来节点的后代视为其下层节点； d3)如果不存在，则检查树中是否存在与新来节点有关系的节点，如果存在有关系的节点，则根据所述关系将新来节点添加为有关系的节点的上层或下层节点；d4)如果不存在有关系的节点，则将此链合并至根节点之下；d5)所有层次链合并完成之后得到一个有向图；以及 d6)根据有向图中所有上层节点的计数来确定计数最大的一个为正式父节点，并删除符合预定条件的关系边，从而得到最终的有向树。12.根据权利要求I所述的方法，其中步骤e)进一步包括接收一个对象标识符；以及从有向树查找该对象标识符，如果存在，则相应节点的祖先节点为此对象的分类信息。13.根据权利要求4、6-7或9的任何一个所述的方法，其中，所述合并包括对所述分值求加权和、或对所述分值直接相乘。14.一种基于网页分类信息的对象分类系统，包括预处理模块，用于通过转换处理将单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树；对象标识符抽取模块，用于每个从所述XML树中抽取对象的标识符；单层...

【专利技术属性】
技术研发人员：谢宣松，姜珊珊，孙军，郑继川，赵利军，
申请(专利权)人：株式会社理光，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人