一种获取网页分块的标注规则的方法及装置制造方法及图纸

技术编号:10259953 阅读:124 留言:0更新日期:2014-07-25 18:23
本发明专利技术提供了一种获取网页分块的标注规则的方法及装置,其中所述方法包括:A.获取一个以上的网页集合中节点的多页面信息,其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况;B.从所述一个以上的网页集合中获取分块样本集;C.利用预设的种子标注规则对所述分块样本集进行标注,以得到训练样本集;D.确定所述训练样本集的分类特征,其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征;E.根据确定的分类特征,对所述训练样本集进行机器学习,以得到机器标注规则。通过上述方式,本发明专利技术能够提高对网页分块进行标注的准确性。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种获取网页分块的标注规则的方法及装置,其中所述方法包括:A.获取一个以上的网页集合中节点的多页面信息,其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况;B.从所述一个以上的网页集合中获取分块样本集;C.利用预设的种子标注规则对所述分块样本集进行标注,以得到训练样本集;D.确定所述训练样本集的分类特征,其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征;E.根据确定的分类特征,对所述训练样本集进行机器学习,以得到机器标注规则。通过上述方式,本专利技术能够提高对网页分块进行标注的准确性。【专利说明】一种获取网页分块的标注规则的方法及装置【
】本专利技术涉及网页处理技术,特别涉及一种获取网页分块的标注规则的方法及装置。【
技术介绍
】对网页分块进行标注,能够更好地对网页进行分析,从而有助于搜索引擎获取更为准确的搜索结果。对网页分块进行标注依赖于标注规则,传统的方法是采用人工规则进行标注,但这难以适应大规模标注的需要。在中国专利技术专利申请号为CN201110035729.9的专利技术中,公开了一种获取网页分块的标注规则的方法,该方法能够适应大规模标注的需要,也能够实现较高的准确性。但是,采用中国专利技术专利申请号为CN201110035729.9的方法,在某些情况下对网页分块标注的结果仍不够理想,例如对网页中的相关链接块和推荐链接块的标注,现有技术难以很好地将两者区分开来,标注的准确性较差。【
技术实现思路
】本专利技术所要解决的技术问题是提供一种获取网页分块的标注规则的方法及装置,以提高对网页分块进行标注的准确性。本专利技术为解决技术问题而采用的技术方案是提供一种获取网页分块的标注规则的方法,包括:A.获取一个以上的网页集合中节点的多页面信息,其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况从所述一个以上的网页集合中获取分块样本集;C.利用预设的种子标注规则对所述分块样本集进行标注,以得到训练样本集;D.确定所述训练样本集的分类特征,其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征;E.根据确定的分类特征,对所述训练样本集进行机器学习,以得到机器标注规则。根据本专利技术之一优选实施例,一个节点的多页面信息包括该节点的重复度及该节点的唯一重复度中的至少一种,其中一个节点的重复度等于在该节点所属的网页集合中,以该节点的路径出现的节点总数与该节点所属网页集合包含的网页总数之间的比值,一个节点的唯一重复度等于在该节点所属的网页集合中,以该节点的路径在所属网页中唯一出现的节点总数与该节点所属网页集合包含的网页总数之间的比值。根据本专利技术之一优选实施例,所述步骤C包括:采用特征选择算法对所述训练样本集的单页面特征进行选取,以得到重要的单页面特征,其中一个训练样本的单页面特征是指仅由该训练样本自身信息决定的特征;利用所述训练样本集中训练样本所包含节点的多页面信息得到训练样本集的多页面特征;将所述重要的单页面特征及所述多页面特征组合为分类特征。 根据本专利技术之一优选实施例,一个训练样本的单页面特征至少包括以下特征中的一种:视觉特征、内容特征、文本结构特征或网页结构特征。根据本专利技术之一优选实施例,所述步骤E进一步包括:在满足终止条件前,将机器标注规则作为种子标注规则,以循环执行所述步骤C至所述步骤E。根据本专利技术之一优选实施例,所述终止条件为当次循环得到的机器标注规则与上次循环得到的机器标注规则之间的差值小于预设值。本专利技术还提供了一种获取网页分块的标注规则的装置,包括:挖掘单元,用于获取一个以上的网页集合中节点的多页面信息,其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况;样本获取单元,用于从所述一个以上的网页集合中获取分块样本集;标注单元,用于利用预设的种子标注规则对分块样本集进行标注,以得到训练样本集;确定单元,用于确定所述训练样本集的分类特征,其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征;学习单元,用于根据确定的分类特征,对训练样本集进行机器学习,以得到机器标注规则。根据本专利技术之一优选实施例,一个节点的多页面信息包括该节点的重复度及该节点的唯一重复度中的至少一种,其中一个节点的重复度等于在该节点所属的网页集合中,以该节点的路径出现的节点总数与该节点所属网页集合包含的网页总数之间的比值,一个节点的唯一重复度等于在该节点所属的网页集合中,以该节点的路径在所属网页中唯一出现的节点总数与该节点所属网页集合包含的网页总数之间的比值。根据本专利技术之一优选实施例,所述确定单元包括:单页面特征选取单元,用于采用特征选择算法对所述训练样本集的单页面特征进行选取,以得到重要的单页面特征,其中一个训练样本的单页面特征 是指仅由该训练样本自身信息决定的特征;多页面特征计算单元,用于利用所述训练样本集中训练样本所包含节点的多页面信息得到训练样本集的多页面特征;分类特征生成单元,用于将所述重要的单页面特征及所述多页面特征组合为分类特征。根据本专利技术之一优选实施例,一个训练样本的单页面特征至少包括以下特征中的一种:视觉特征、内容特征、文本结构特征或网页结构特征。根据本专利技术之一优选实施例,所述学习单元进一步用于,在满足终止条件前,将所述机器标注规则作为种子标注规则,以触发所述标注单元至所述学习单元循环执行。根据本专利技术之一优选实施例,所述终止条件为当次循环得到的机器标注规则与上次循环得到的机器标注规则之间的差值小于预设值。由以上技术方案可以看出,本专利技术首先利用网页集合,获取到网页节点的多页面信息,然后再利用节点的多页面信息得到训练样本的多页面特征。本专利技术与现有技术相比,对训练样本的分类特征进行了改进,这使得最终得到的机器标注规则能够产生更为准确的标注效果,从而可以提高对网页分块进行标注的准确性。【【专利附图】【附图说明】】图1为本专利技术中获取网页分块的标注规则的方法的实施例一的流程示意图;图2为本专利技术中网页DOM树的实施例一的示意图;图3为本专利技术中网页DOM树的实施例二的示意图;图4为本专利技术中网页DOM树的实施例三的示意图;图5为本专利技术中分块样本的实施例的示意图;图6为本专利技术中训练样本的实施例的示意图;图7为本专利技术中获取网页分块的标注规则的方法的实施例二的流程示意图;图8为本专利技术中相关链接块和推荐链接块的实施例的示意图;图9为本专利技术中获取网页分块的标注规则的装置的实施例的结构示意框图。【【具体实施方式】】 为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。本专利技术是对中国专利技术申请号为CN201110035729.9的专利技术进行的改进,以获取到比现有技术效果更优的网页分块标注规则。请参考图1,图1为本专利技术中获取网页分块的标注规则的方法的实施例的流程示意图。下面对图1所示的实施例中的各个步骤进行具体介绍。步骤SI中,作为网页集合的一种实施方式,可以将互联网中归属于相同站点的网页作为一个网页集合,也可以将互联网中的网页按照URL的相似度进行聚类,每类网页作为一个网页集合。本实施例预先在步骤SI中,将网页按照网页集合划分,并借由划分的网页集合,计算集合中节点的多页本文档来自技高网...

【技术保护点】
一种获取网页分块的标注规则的方法,包括:A.获取一个以上的网页集合中节点的多页面信息,其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况;B.从所述一个以上的网页集合中获取分块样本集;C.利用预设的种子标注规则对所述分块样本集进行标注,以得到训练样本集;D.确定所述训练样本集的分类特征,其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征;E.根据确定的分类特征,对所述训练样本集进行机器学习,以得到机器标注规则。

【技术特征摘要】

【专利技术属性】
技术研发人员:田振雷吴一璞刘秋水黄金刚牛正雨
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1