当前位置: 首页 > 专利查询>北京大学专利>正文

一种从网页中抽取信息的方法及装置制造方法及图纸

技术编号:4895175 阅读:175 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种从网页中抽取信息的方法及装置,用以解决现有技术中不能从非结构化格式的网页中获取准确的信息问题。该方法包括:查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集,根据保存的信息属性间的位置关系与布局关系概率的对应关系,查找至少两种信息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概率对应的位置关系,从所述至少两种信息属性对应的信息属性候选集中,抽取满足所述位置关系的信息属性组合。

【技术实现步骤摘要】

本专利技术涉及信息检索和数据集成
,特别涉及一种从网页中抽取信息的方 法及装置。
技术介绍
Web自上世纪90年代初诞生以来便以惊人的速度发展,到目前Web已经成为了世 界上最大的信息仓库,覆盖了现实世界的各个领域,成为了人类工作生活获取信息主要途 径。Web信息的发布主要是以网页的形式实现,据最新的估计,Web中网页的数量已经超过 7 550 个 billion,也就是 5500 亿。可见,网页虽然是信息非常重要的数据来源,但由于Web中网站数量众多,而且这 些信息所在的网页通常会包还大量无用的噪音信息,严重影响对信息处理的效率和检索的 质量。因此,手工方式的访问已经无法满足用户信息获取的需要,为了让用户更有效地访问 和利用Web中海量的信息,目前,出现了各种Web信息搜索和集成相关的应用,例如垂直搜 索引擎、舆情分析等。上述这些应用的一个必要步骤就是将所需的信息从网页中准确地抽取出来。但由 于绝大部分网页都是以HTML语言编写,文档结构化程度很低,而且缺乏语义的连续性,网 页的非结构化主要表现为1、信息的表现格式不一致,即表示相同类型语义的信息格式、表现形式多样性化, 没有统一的标准,例如在网页中使用的字体以及在页面中位置繁杂不一,日期地址表达格 式多样化等。2、缺乏统一的布局标准,即没有一种对同一类体裁的信息统一的布局标准。以新 闻为例,不同新闻网站之间新闻的各部分属性信息在网页的布局并不完全一致,比如新闻 的发布日期可能出现在标题的上方,也可能出现在标题的下方甚至是正文的下方。因此,目前从非结构化格式的网页中抽取信息的方法还有以下局限性抽取信息不完整,例如,对新闻信息的抽取目前只提出了新闻正文和标题的抽取 方法,但新闻其它的相关信息在很多应用中也起着非常重要的作用,发布时间在新闻搜索 引擎中是搜索结果排序的一个关键因素,但还没有包括发布时间的抽取方法;抽取信息粒度过高,例如对新闻信息的抽取目前的方法主要是在网页层次的抽 取,但由于新闻网页通常包含大量无用的噪音信息,严重影响信息处理的质量;抽取准确性不高且不稳定,例如目前,新闻抽取的方法依赖于新闻网页的模板, 但新闻网站之间的网页模板存在着较大的差异,因此,抽取的准确性一般在80%左右,而且 不同网页之间准确性波动较。
技术实现思路
本专利技术实施例提供一种从网页中抽取信息的方法及装置,用以解决现有技术中不 能从非结构化格式的网页中获取准确的信息问题。本专利技术实施例提供一种从网页中抽取信息的方法,包括查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集;根据保存的信息属性间的位置关系与布局关系概率的对应关系,查找至少两种信 息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概率对应的位置关 系;从所述至少两种信息属性对应的信息属性候选集中,抽取满足所述位置关系的信 息属性组合。本专利技术实施例提供一种从网页中抽取信息的装置,包括获取单元,用于查找网页中的每种信息属性,获取每种信息属性对应的信息属性 候选集确定单元,用于根据保存的信息属性间的位置关系与布局关系概率的对应关系, 查找至少两种信息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概 率对应的位置关系;抽取单元,用于从所述至少两种信息属性分别对应的信息属性候选集中,抽取满 足所述位置关系的信息属性组合。本专利技术实施例提供的从网页中抽取信息的方法,首先查找网页中的每种信息属 性,获取每种信息属性对应的信息属性候选集,然后根据保存的信息属性间的位置关系与 布局关系概率的对应关系,查找至少两种信息属性间的至少一个最大布局关系概率,并确 定查找到的最大布局关系概率对应的位置关系,并从所述至少两种信息属性对应的信息属 性候选集中,抽取满足所述位置关系的信息属性组合,这样,根据信息属性间的位置关系, 形成高相关性的聚类,从而可以从网页中快速、准确地抽取出所需的信息。附图说明图1为本专利技术实施例从网页中抽取信息的流程图;图2为本专利技术第一实施例中获取新闻属性候选集的流程图;图3为本专利技术第二实施例中从网页中抽取信息的流程图;图4为本专利技术第二实施例中标题和作者的位置示意图;图5为本专利技术第二实施例中标题、作者和评论链接的位置示意图;图6为专利技术实施例从网页中抽取信息的装置结构图。具体实施例方式本专利技术实施例中,从网页中查找网页中包含的每种信息属性,获取每种信息属性 对应的信息属性候选集,然后根据保存的信息属性之间的位置关系与布局关系概率的对应 关系,确定至少两种信息属性间的至少一个最大布局关系概率对应的位置关系,从至少两 种信息属性对应的属性候选集中,抽取满足每种信息属性位置关系的信息属性组合。其中, 信息属性包括标题、发布时间、作者、评论链接、来源、正文、主题、相关信息或图片等,则每 种信息属性对应的信息属性候选集分别为标题候选集、发布时间候选集、作者候选集、评 论链接候选集、来源候选集、正文候选集、主题候选集、相关信息候选集、以及图片候选集。 参见图1,从网页中抽取信息的具体过程包括步骤101 查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集。这里,信息属性可以包括标题、发布时间、作者、评论链接、来源、正文、主题、相关 信息、图片等中两种,或多种。存储单元中存储了每种信息属性对应的抽取条件,当在网页 中的查找到的信息属性满足对应的抽取条件,就将查找到的信息属性放入对应的信息属性 候选集中。步骤102 根据保存的信息属性间的位置关系与布局关系概率的对应关系,确定 至少两种信息属性间的至少一个最大布局关系概率对应的位置关系。这里,首先在保存的 对应关系中,查找至少两种信息属性间的至少一个最大布局关系概率,然后确定查找到的 最大布局关系概率对应的位置关系。保存的信息属性间的位置关系与布局关系概率的对应关系可以表示为{(ai,aj), Rs, ρ}形式,其中(ai, aj)为信息属性组合,用于表示两种信息属性ai和aj ;Rs为位置类 型,用于表示两种信息属性之间的位置关系类型,取值为1、2或3,1表示上下关系,2表示左 右关系,3表示相邻关系;ρ为布局关系概率值(0-1),用于表示两种信息属性符合某种位置 关系的概率。根据上述保存的对应关系,确定两种信息属性ai,aj之间ρ的最大值对应的Rs。 例如保存的{(ai,aj),Rs,p}包括{(标题,发布时间),Rs = 1,P = 97. 6% },以及{(标 题,发布时间),Rs = 3,P = 100% },则P = 100%为最大值,其对应的Rs = 3,则可以确定 信息属性位置关系为标题和发布时间为相邻关系。这里,网页中只有两种信息属性时,则只需确定这两种信息属性的位置关系。网页 中包括两种以上信息属性时,则需要确定至少一个最大布局关系概率对应的两种信息属性 的位置关系。步骤103 从至少两种信息属性对应的信息属性候选集中,抽取满足所述位置关 系的信息属性组合。在本专利技术实施例步骤101中,每种信息属性都可以包括一些子属性,例如标题包 括的子属性可以为字体、标签、位置以及文本;作者包括的子属性可以为字体、位置以及 文本。这样,对于信息属性的每种子属性设定一定的条件,或者对信息属性的一种或多种 子属性设定一定的条件。本文档来自技高网
...

【技术保护点】
一种从网页中抽取信息的方法,其特征在于,包括:查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集;根据保存的信息属性间的位置关系与布局关系概率的对应关系,查找至少两种信息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概率对应的位置关系;从所述至少两种信息属性对应的信息属性候选集中,抽取满足所述位置关系的信息属性组合。

【技术特征摘要】
一种从网页中抽取信息的方法,其特征在于,包括查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集;根据保存的信息属性间的位置关系与布局关系概率的对应关系,查找至少两种信息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概率对应的位置关系;从所述至少两种信息属性对应的信息属性候选集中,抽取满足所述位置关系的信息属性组合。2.如权利要求1所述的方法,其特征在于,所述信息属性包括标题、发布时间、作者、 评论链接、来源、正文、主题、相关信息或图片。3.如权利要求1所述的方法,其特征在于,所述信息属性间的位置关系包括上下关 系,左右关系或相邻关系。4.如权利要求1所述的方法,其特征在于,所述查找网页中包含的每种信息属性,获取 每种信息属性对应的信息属性候选集包括将所述网页转换为文档对象模型DOM树结构;遍历所述DOM树结构的各个节点,将满足设定条件的节点对应的信息属性,放入该信 息属性对应的信息属性候选集中。5.如权利要求1所述的方法,其特征在于,所述确定查找到的最大布局关系概率对应 的位置关系包括确定第一信息属性和第二信息属性的第一最大布局关系概率对应的第一位置关系;确定所述第一信息属性和第三信息属性的第二最大布局关系概率对应的第二位置关系。6.如权利要求5所述的方法,其特征在于,所述抽取满足所述位置关系的信息属性组 合包括从所述第一信息属性对应的第一信息属性候选集,以及所述第二信息属性对应的第二 信息属性候选集组成的合集中,抽取满足所述第一位置关系的信息属性组合放入当前的候 选组合集中;从所述当前的候选组合集,以及所述第三信息属性对应的第三信息属性候选集组成的 合集中,抽取满足所述第二位置关系的信息属性组合,并用抽取的信息属性组合更新当前 的候选组合集;将更新后的当前的候选组合集中信息属性组合作为抽取的信息输出。7.如权利要求5所述的方法,其特征在于,所述抽取满足所述位置关系的信息属性组 合包括从所述第一信息属性对应的第一信息属性候选集,以及所述第二信息属性对应的第二 信息属性候选集组成的合集中,抽取满足所述第一位置关系的信息属性组合放入当前的候 选组合集中;从所述第一信息属性对应的第一信息属性候选集,以及所述第三信息属性对应的第三 信息属性候选集组成的合集...

【专利技术属性】
技术研发人员:刘伟万小军杨建武肖建国
申请(专利权)人:北京大学北大方正集团有限公司北京方正电子政务信息科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1