基于语义共现模型的概念关系标签抽取方法技术

技术编号:7917683 阅读:182 留言:0更新日期:2012-10-25 02:37
本发明专利技术公开了一种基于语义共现模型的概念关系标签抽取方法,包括在基于语义共现模型的关系标签抽取过程中,通过带偏移量的倒排搜索获取概念关系对共现上下文语段;结合浅层句法分析和加权词窗过滤得到候选关系标签;经过语义相关性聚类后选取权重最大的类簇标签作为概念关系标签。采用本发明专利技术所提供的基于语义共现模型的概念关系标签抽取方法,提高了概念关系抽取的准确率和召回率,并且实现了在海量概念间稀疏语义关系概念关系标签的自动化抽取,提高了概念标签抽取质量。

【技术实现步骤摘要】

本专利技术涉及一种概念关系标签抽取方法,尤其涉及一种,属于语义网络

技术介绍
在当前信息社会中,互联网无疑是数据的最大载体,以超链接关联的超文本信息日益增长,构成了信息网络世界,已经彻底改变了现代人类的工作和生活的方式。随着计算技术、信息技术和互联网的发展,人们对文本信息处理有了更高的要求,从自然语言描述的文本中挖掘和发现概念实体(比如,机构,人物,时间,地点等),以及概念之间的关系(比如“人物”在“机构”中任职,“人物”毕业于“地点”等),就是相关研究的重要内容之一。信息 提取主要是从文本中获取所需要的信息,目前已经受到越来越多研究者的关注。在自然语言世界中,概念是对客观实体的抽象描述,是客观实体属性特征的集合。由于客观实体的相互作用,概念之间亦产生千丝万缕的关联,我们称之为概念关系。概念及概念关系共同构成了自然语言世界的基础,如果说自然语言世界是一个语义网络,那么概念就是语义的载体,而概念关系就是语义载体间的纽带。通过研究概念关系可以反射得出客观世界中实体关联的内容与性质,进而为人类的工作和生活服务。为适应语义推理和智能化服务的需求,语义Web为代表的下一代信息互联网络试图在任何微小数据间构建连接,而概念关系正是构建语义网络的基础。因此,概念关系抽取技术是人类信息第二次变革的基础。概念关系抽取在自然语言处理、人工智能、数据挖掘等领域都有着广泛应用。本体知识库WordNet、HowNet等均包含丰富的概念关系,已广泛应用于信息检索、自动问答和机器翻译技术的研究与系统实现。概念关系标签的抽取依赖于已经发现的概念关系对,在具有语义关系的概念对共现上下文中一定存在着词语模式可以作为此概念关系的标签。开放百科包含的概念数目超过300万,而语义关系相对稀疏,如何保证概念关系发现的准确性和快速有效性是现有技术中存在的难点。但由于中文句法结构和语用习惯复杂多变,概念关系标签的自动化抽取仍然是目前尚待解决的问题之一。
技术实现思路
针对现有技术所存在的不足,本专利技术所要解决的技术问题在于提供一种。该概念关系标签抽取方法实现了概念关系自动化,提闻了概念关系标签抽取的有效性。为实现上述的专利技术目的,本专利技术采用下述的技术方案一种,包括通过带偏移量的倒排搜索获取共现语段;结合浅层句法分析和加权词窗得到候选关系标签;经过语义相关性聚类后选取概念关系标签。更进一步地,所述通过带偏移量的倒排搜索获取共现语段的步骤包括使用开源搜索引擎对元数据描述信息及百科全文进行倒排索引预处理,对概念共现语段的快速定位;设定概念之间的偏移量,获取有效的局部语段。更进一步地,所述开源搜索引擎是全文检索引擎。更进一步地,所述结合浅层句法分析和加权词窗得到候选关系标签的步骤包括对语料段落进行分词和词性标注,过滤除名词、动词、标点之外的其他词语;设置主干序列;以词语之间距离设定词窗,得到候选关系标签。 更进一步地,所述词语之间距离通过下式计算dis (t:, t2) = num (tv_between (tp t2))+num (tn_between (t” t2))+num(pi_between (t17 t2))其中,名词记为tn,动词记为tv,标点符号记为pi, dis (t1; t2)表示词语tl和词语t 2之间的距离;num函数表示词语个数,ImjDetween(I^t2)表示t1; t2之间的名词,tv_between(t1; t2)表示t1; t2之间的动词,pi_between(t1; t2)表示t1; t2之间的标点符号。更进一步地,动词到名词对的距离通过下式计算f2 - dis{tnx,tn2) if (dis(tv, tnx) + dis(tv, tn2) > dis{tnx, tn2))\ sim(tv12, tv34)其中,sim(t1, t2)表示词语t1; t2的语义相似度,GUn1, tn2, tv12)表示候选概念关系三元组,sim表示概念对之间的语义相似度,G12表示候选三元组G (trii,tn。,tv 12),G34 ~.yLi^IeL G (trig,tn*,tv34),s im (G^,G34)表候选二兀组和二兀组G34的语义相似度。更进一步地,所述语义相似度通过下式计算sim = Max其中,sim(t1, t3)表示词语t1; t3的语义相似度,sim(t2, t4)表示词语t2, t4的语义相似度,sim(t1, t4)表示词语t1; t4的语义相似度,sim(t2, t3)表示词语t2, t3的语义相似度。本专利技术所提供的通过带偏移量的倒排搜索获取共现语段,结合浅层句法分析和加权词窗过滤得到候选关系标签,最后经过语义相关性聚类后选取权重最大的类族标签作为概念关系标签,有效提闻了概念关系抽取的准确率和召回率,并实现了在海量概念间稀疏语义关系概念关系标签的自动化抽取。附图说明 下面结合附图和具体实施方式对本专利技术作进一步的详细说明。图I是三元组语义关系聚类示意图;图2是基于规则的关系标签质量人工抽样判断结果示意图;图3是概念关系准确率对比示意图;图4是概念关系三元组召回率对比示意图;图5是概念关系三元组F值对比示意图。具体实施例方式概念共现是指在文档段落中,经常共同出现的概念之间以较大概率存在某种关系。在自然语言的使用习惯中,主动宾结构常常用来表述概念之间的关系,例如“大白兔喜欢吃胡萝卜”,“老师培育学生”等等。因此,能够表述共现概念之间关系的特征动词常常也会同关联概念共现。通过对概念共现的语段进行词性分析,可以挖掘伴随概念共现的动词性特征,形成概念关系的共现三元组,由此得到的动词性特征很大程度上可以表示共现概念之间的关系。类属关系是概念关系中非常重要的一种。它构成了概念的层次类别,为概念的展示提供了很大便利。类属关系可以使用统一的关系标签描述,例如“属于”、“是一种”等等。由于类属关系类型同一,便于描述,是概念关系标签的重要来源之一。在部分在线百科全书如百度百科的部分词条页面,具有“属性”信息。例如,“李开复”词条中的“属性”信息如表I所示权利要求1.一种,其特征在于包括如下步骤 (1)通过带偏移量的倒排搜索获取共现语段使用开源搜索引擎对元数据描述信息及百科全文进行倒排索引预处理,实现对概念共现语段的快速定位; (2)结合浅层句法分析和加权词窗得到候选关系标签; (3)经过语义相关性聚类后选取概念关系标签。2.如权利要求I所述的概念关系标签抽取方法,其特征在于 所述步骤(I)中,所述开源搜索引擎是全文检索引擎。3.如权利要求I所述的概念关系标签抽取方法,其特征在于 所述步骤(2)中,结合浅层句法分析和加权词窗得到候选关系标签的步骤包括 对语料段落进行分词和词性标注,过滤除名词、动词、标点之外的其他词语; 设置主干序列; 以词语之间距离设定词窗,得到候选关系标签。4.如权利要求3所述的概念关系标签抽取方法,其特征在于 所述词语之间距离通过下式计算dis (t:, t2) = num (tv_between (t:, t2)) +num (tn_between (t:, t2))+num(pi_between (t17 t2)) 其中,名词记为tn,动词记为tv,本文档来自技高网
...

【技术保护点】
一种基于语义共现模型的概念关系标签抽取方法,其特征在于包括如下步骤:(1)通过带偏移量的倒排搜索获取共现语段:使用开源搜索引擎对元数据描述信息及百科全文进行倒排索引预处理,实现对概念共现语段的快速定位;(2)结合浅层句法分析和加权词窗得到候选关系标签;(3)经过语义相关性聚类后选取概念关系标签。

【技术特征摘要】

【专利技术属性】
技术研发人员:张辉赵元浩胡红萍马永星
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1