当前位置: 首页 > 专利查询>北京大学专利>正文

一种网页信息抽取方法技术

技术编号:7429386 阅读:192 留言:0更新日期:2012-06-14 03:15
本发明专利技术公布了一种网页信息抽取方法,具体涉及一种从网络百科数据源提取概念属性并对其进行处理的方法。包括:构建实例列表,从多源异构数据源中提取列表中实例的候选属性;对提取到的属性进行同义归纳,将同义属性放在同一个集合中;对归纳后的属性进行细分类;分析分类后的属性所对应的属性值类型;将属性及其对应的属性值类型信息推荐给用户或者将其保存到结构化数据库中。利用本发明专利技术的方案,可以从网页中抽取出高质量的概念属性信息,可以用来更好地进行知识库的构建以及其他的自然语言处理任务,例如属性值的提取、文本分类以及搜索引擎中查询日志的分类等。

【技术实现步骤摘要】

本专利技术提供,具体涉及一种从网络百科数据源提取概念属性并对其进行处理的方法。
技术介绍
在互联网文本呈现爆炸式增长的今天,如何合理有效地组织信息和表示知识,建立良好的知识库以便于人们能从海量的网页中迅速快捷地获得自己想要的知识,是一项很重要的研究工作。在知识库的构建中,概念和属性是知识表示的核心要素。概念是反映客观事物及其特有属性的对象,而属性是对概念所具有的特征的刻画,从属性信息能够更全面地了解一个概念的特性。因此,在知识库的自动构建中,找出一种良好的概念属性的自动提取方法是非常重要的。当前国内外的研究学者提出了很多的方法用来从结构化的或者非结构化的文本中提取概念属性。谷歌公司的Pasca等人以web搜索引擎查询日志为语料,利用手工指定的模板去抽取指定概念的属性列表,还有一些人用web上存在的结构化的数据,例如HTML 标签表格,以及维基百科特有的信息框去获得概念属性。但是当前的这些方法都存在一个问题,即仅仅只是提取出了一些候选属性,并没有对提取出的属性进行后期的处理,导致提取出的候选属性粒度比较粗糙,准确度不高,出现很多一义多词的表达,质量比较差,得经过人工的挑选才能加入到知识库中。并且这些方法没有对属性进行评价,因为有些属性会和目标概念联系得比较紧,有些联系得则比较弱, 将联系较紧的属性挑选出来能够有利于进行概念的分类。比如搜索引擎公司有项任务是查询日志的分类,当获取了和相关概念联系比较紧的属性后,就可以通过判断查询日志中是否包含了这些属性来更好地进行分类任务。
技术实现思路
本专利技术的目的是提供,能够从百科类网站中提取概念属性,提取出的属性能直接用来进行知识库的建设以及其他的自然语言处理任务。本专利技术提供的技术方案如下,包括如下步骤A.构建实例列表,从多源异构数据源中提取列表中实例的候选属性;B.对提取到的属性进行同义归纳,将同义属性放在同一个集合中;C.对归纳后的属性进行细分类;D.分析分类后的属性所对应的属性值类型;E.将属性及其对应的属性值类型信息推荐给用户或者将其保存到结构化数据库中。步骤A所述数据源为百科类网页数据。所述百科类网站包括百度百科、维基百科、互动百科等。所述步骤A的实现方法如下第一步构建实例列表,获取百科网页数据根据实例列表中的每一个实例,到百科数据源中获得该实例词条对应的网页;第二步对网页数据进行分析对获取到的网页内容进行字符串处理,抽取出指定的结构化数据;第三步挑选候选属性对于每一种数据源,先单独统计该数据源中出现的属性, 给每个属性一个权重,所述属性的权重为该属性出现在该数据源中的频率;然后再对不同数据源中的属性进行融合,将每个属性在不同的数据源中的置信度值累加起来作为其最后的权重;最后将属性按照权重大小排序,只选择出前N个属性作为候选属性,所述N为人工指定的常数。所述步骤B的实现方法如下Bi.抽取属性对应的属性值;B2.计算属性之间的相似性;B3.用启发式过滤规则对相似性属性对进行挑选;B4.合并相似属性对,将同义属性放在同一个集合中。所述步骤B2的实现方法如下对于任意两个不同的属性attl和att2,计算其相似性值,将属性attl和att2表示为 attl = KVpConf1), (V2,Conf2),…,(VN,ConfN)}和 att2 = {(V' "Conf' ;),(y' 2, Conf' 2),…,(Ψ N,Conf' N)},其中 Vk 和 V' k 是第 k 个属性值,Confk 和 Conf ‘ k 是属性值在该属性中的权重,定义下面的公式来计算两个属性的相似性权利要求1.,包括如下步骤A.构建实例列表,从多源异构数据源中提取列表中实例的候选属性;B.对提取到的属性进行同义归纳,将同义属性放在同一个集合中;C.对归纳后的属性进行细分类;D.分析分类后的属性所对应的属性值类型;E.将属性及其对应的属性值类型信息推荐给用户或者将其保存到结构化数据库中。2.如权利要求1所述的网页信息抽取方法,其特征是,步骤A所述数据源为百科类网页数据。3.如权利要求2所述的网页信息抽取方法,其特征是,所述百科类网站包括百度百科、维基百科、互动百科。4.如权利要求1所述的网页信息抽取方法,其特征是,所述步骤A的实现方法如下 第一步构建实例列表,获取百科网页数据根据实例列表中的每一个实例,到百科数据源中获得该实例词条对应的网页;第二步对网页数据进行分析对获取到的网页内容进行字符串处理,抽取出指定的结构化数据;第三步挑选候选属性对于每一种数据源,先单独统计该数据源中出现的属性,给每个属性一个权重,所述属性的权重为该属性出现在该数据源中的频率;然后再对不同数据源中的属性进行融合,将每个属性在不同的数据源中的置信度值累加起来作为其最后的权重;最后将属性按照权重大小排序,只选择出前N个属性作为候选属性,所述N为人工指定的常数。5.如权利要求4所述的网页信息抽取方法,其特征是,所述步骤B的实现方法如下 Bi.抽取属性对应的属性值;B2.计算属性之间的相似性;B3.用启发式过滤规则对相似性属性对进行挑选;B4.合并相似属性对,将同义属性放在同一个集合中。6.如权利要求5所述的网页信息抽取方法,其特征是,所述步骤B2的实现方法如下 对于任意两个不同的属性attl和att2,计算其相似性值,将属性attl和att2表示为attl = ((V1, Conf1), (V2, Conf2),…,(VN, ConfN)}和 att2 = {(V' Conf'》,(V' 2, Conf' 2),…,(Ψ N,Conf' N)},其中 Vk 和 V' k 是第 k 个属性值,Confk 和 Conf ‘ k 是属性值在该属性中的权重,定义下面的公式来计算两个属性的相似性7.如权利要求6所述的网页信息抽取方法,其特征是,所述步骤B3的实现方法如下 1)在提取属性所对应的属性值的时候,同时也记录拥有该属性和属性值的实例列表,在进行相似度计算的时候,若是发现两个属性有相同的属性值,则要对比拥有该属性和属性值的实例列表,若是有m个实例都相同,则给这两个属性的相似性值增加m*0. 5 ;2)将在同一个信息框中出现的所有属性抽取出来放在一个单独的集合中,则同一个集合中的属性互斥,每一个这样的集合称为一条互斥规则,对于上一步提取出的结果,若两个候选的相似属性对出现在某一条互斥规则中,则将其从候选相似对中去掉;3)对方法2)中的每条规则,开始时令其中的每个属性都属于一个单独的不同的类,对于一个类中的属性,若是有其他的属性和它满足前后缀关系,就将这些属性都加入到这个类中,在执行这条规则的时候,只有不同类中的属性对才看作互斥的属性对,将其从候选相似对列表中去掉。8.如权利要求1所述的网页信息抽取方法,其特征是,所述步骤C,把属性分为一般属性和特殊属性两类,用特异性值来区分所述两类属性,当属性的特异性值大于指定阈值时, 认为该属性是特殊属性,否则为一般属性。9.如权利要求8所述的网页信息抽取方法,其特征是,所述特异性值的计算方法为对于属性a,首先在百科词条中搜索该属性a,取出和该属性a相关的前M个词条,然后将这M 个词条在目标实例列表中查找,看所述前M个词条中有多少个出现在该列表中,将个数记作Na,则属性a的特本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:穗志方李文杰
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术