对短文本进行常识性因果推理的方法技术

技术编号:14337300 阅读:1040 留言:0更新日期:2017-01-04 10:33
本发明专利技术提供了一种对短文本进行常识性因果推理的方法,包括如下步骤:步骤1:构建因果知识网络;步骤2:基于因果推理算法对短文本进行因果分析,得到文本间所蕴含常识性因果关系强度的排序机制,该技术方法可应用到现有问答系统中,改善其对因果问题(为什么‑问题)的回答结果。本发明专利技术中的方法采用因果模式来分析短文本的因果关系,并通过设定滑动窗口大小来保证覆盖面,相较于传统的在互联网文本语料库提取因果关系的方法更加准确;并且利用充分性因果和必要性因果结合的方式解决了有效度量词项间因果关系强度的问题。

【技术实现步骤摘要】

本专利技术涉及计算机
的自然语言处理
,具体地,涉及一种对短文本进行常识性因果推理的方法
技术介绍
常识性因果推理体现了实现人工智能最本质的挑战,但近年来相关工作进展缓慢。现有知识库中的因果知识都是由人工编撰,数量规模极为有限。人们亟需大规模的常识性因果知识库来帮助实现在常识性因果推理问题上的研究突破。因果关系的识别和抽取可以看作是进行因果推理的预处理步骤。存在一些人工编撰的常识性因果知识(参见Liu,H.,andSingh,P.Commonsensereasoninginandovernaturallanguage,Springer2004)。但这些知识库大小有限,非常耗时耗力,人们更多的转向研究自动化因果知识提取系统。在过去的研究中,自动化因果识别及提取任务通常被归结为一个判别因果/非因果的二分类问题。R.Girju(参见R.Girju.Automaticdetectionofcausalrelationsforquestionanswering,ACLworkshop2003)提取名词间存在的因果关系,Chang,D.(参见Chang,D.,andChoi,K.Causalrelationextractionusingcuephraseandlexicalpairprobabilities,IJCNLP2004)提出了一种非监督方法,利用词汇和因果线索作为特征来识别文本中的因果关系。然而这种方法忽略了因果线索的上下文对语义造成的影响。因果关系提取方法利用了这些上下文信息,构建出更大更有效的因果关系网络。进行常识性因果推理不仅需要大量因果关系知识,还要求系统能够对这些因果关系进行度量。很多现存的因果知识库并没有提供这种可靠的度量方法(参见Gordon,J.;VanDurme,B.;andSchubert,L.K.Learningfromtheweb:Extractinggeneralworldknowledgefromnoisytext,Collaboratively-BuiltKnowledgeSourcesandAI2010.)。直至近来,基于点互信息的因果度量方法在因果推理任务重取得了一定成效。我们提出的因果度量方法,对因果关系强度的构成进行了更加细致精确的建模,更有效的完成了因果推理任务。本专利技术提出的技术方案可用于改善现存问题系统对因果问题(通常为Why-Questions,即为什么-问题)的回答结果。例如,Whydobirdssing?(鸟儿为什么唱歌?)回答这类问题与回答传统问答系统的factoidquestions不同,需要用到因果知识。传统的问答系统能较好的回答factoidquestions,一个factoidquestion的例子是:WhereistheLouvrelocated?(罗浮宫位于哪里?)要回答上述问题需要从语料中抽取实体间的二元关系“Located-in”(位于),如factoria:LouvreislocatedinFrench.(卢浮宫位于法国。)中,Louvre(卢浮宫)和French(法国)都是实体,且它们之间存在“Located-in”(位于)的关系,则问答系统可以根据这条factoria知识,回答上述factoidquestion。而因果问题所涉及的因果关系相对于这种存在于factorias中的实体关系往往复杂的多。首先,在自然语言中因果关系并没有像实体关系“Located-in”这样相对简单明确的二元关系文本表示,人们描述因果关系的方式多种多样;其次,因果关系并非存在于实体之间而是存在于事件之间,因而我们并不能像抽取实体关系那样通过识别实体来抽取因果知识;这给因果知识的抽取增加了难度。由于上述因果关系的复杂性,目前并没有有效可靠的因果知识库来帮助问答系统回答因果问题。本专利技术从互联网获取海量文本语料,提出了一种有效抽取因果知识的方法,自动构建具有一定规模的因果网络知识库,并设计了一套算法利用该因果网络对短文本进行因果分析,从而帮助问答系统更好的回答因果问题。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种对短文本进行常识性因果推理的方法。根据本专利技术提供的对短文本进行常识性因果推理的方法,其特征在于,包括如下步骤:步骤1:构建因果知识网络;步骤2:基于因果推理算法对短文本进行因果分析,得到文本间所蕴含常识性因果关系强度的排序机制,该技术方法可应用于到现有问答系统中,改善其对因果问题(为什么-问题)的回答结果。优选地,所述步骤1包括:步骤1.1:建立因果模式,所述因果模式包括:句中因果模式、句间因果模式,分别用于提取蕴含在句子中和句子段落间的因果关系获得因果知识;并根据句子中和句子段落间的因果关系标示出蕴含原因、结果对应词汇所在的位置;步骤1.2:利用步骤1.1中建立的因果模式来抽取因果对,因果对包括原因(cause)和结果(effect)两部分,即<原因,结果>词项对,这种因果知识的表示形式便于建立因果知识网络;步骤1.3:通过因果模式从文本语料库中抽取的因果知识构建因果知识网络,因果知识网络的结点为词项,边为有向带权边,权重为相应因果对在文本语料中所有因果模式下的共现次数总和。优选地,所述步骤2中的因果推理算法包括:正向和反向两种因果推理,正向推理即给定前提作为原因返回给定的一系列结果的排名,反向推理即给定前提作为结果返回给定的一系列原因的排名。优选地,所述步骤1.1中通过设置固定窗口大小,提取在匹配到因果模式原因和结果的文本段中的词项,两两配对形成提取的因果对。优选地,所述步骤2中的因果推理算法如下:从因果关系主要表现为充分性因果和必要性因果相结合的角度出发,分别对充分性因果关系和必要性因果关系强度进行建模;其中,充分性因果强度的计算公式如下:CSsuf(ic,je)=p(je|ic)pα(je)=p(ic,je)p(ic)pα(je)]]>必要性因果强度的计算公式如下:CSnec(ic,je)=p(ic|je)pα(ic)=p(ic,je)pα(ic)p(je)]]>式中:i和j皆为词项,(ic,je)为因果关系对,其中ic表示词项i作为原因,je表示词项j作为结果。CSsuf(ic,je)为因果关系对(ic,je)所蕴含的充分性因果关系强度;CSnec(ic,je)为因果关系对(ic,je)所蕴含的必要性因果关系的强度;其中,p(ic)表示词项i作为原因的先验概率,p(je)表示词项j作为结果的先验概率,p(ic,je)表示因果关系对(ic,je)出现的先验概率;p(je|ic)表示已知词项i作为原因其结果为词项j的条件概率;α为指数惩罚常数,用于惩罚语料中的高频词汇。基于词项的因果度量CS(ic,je),用于表示因果词项对(ic,je)蕴含的因果关系强度,将该因果关系对(ic,je)蕴含的充分性因果强度和必要性因果强度有机结合在一起。定义公式如下:CS(ic,je)=CSnec(ic,je)λCSsuf(ic,je)1-λ将词项间因果强度的度量方法扩展到短文本间,需要考虑短文中包含的有效词汇,原因中的有效词和结果中的有效词形成因果对,将所有因果对蕴含本文档来自技高网
...
对短文本进行常识性因果推理的方法

【技术保护点】
一种对短文本进行常识性因果推理的方法,其特征在于,包括如下步骤:步骤1:构建因果知识网络;步骤2:基于因果推理算法对短文本进行因果分析,得到文本间所蕴含常识性因果关系强度的排序机制。

【技术特征摘要】
1.一种对短文本进行常识性因果推理的方法,其特征在于,包括如下步骤:步骤1:构建因果知识网络;步骤2:基于因果推理算法对短文本进行因果分析,得到文本间所蕴含常识性因果关系强度的排序机制。2.根据权利要求1所述的对短文本进行常识性因果推理的方法,其特征在于,所述步骤1包括:步骤1.1:建立因果模式,所述因果模式包括:句中因果模式、句间因果模式,所述句中因果模式、句间因果模式分别用于提取蕴含在句子中、句子段落间的因果关系,从而获得因果知识,并根据句子中和句子段落间的因果关系标示出蕴含原因、结果对应词汇所在的位置;步骤1.2:利用步骤1.1中建立的因果模式来抽取因果对,因果对包括原因和结果两部分,又称为词项对<原因,结果>;步骤1.3:通过因果模式从文本语料库中抽取的因果知识构建因果知识网络,因果知识网络的结点为词项,边为有向带权边,权重为相应因果对在文本语料中所有因果模式下的共现次数总和。3.根据权利要求1所述的对短文本进行常识性因果推理的方法,其特征在于,所述步骤2中的因果推理算法包括:正向和反向两种因果推理,正向推理即给定前提作为原因返回给定的一系列结果的排名,反向推理即给定前提作为结果返回给定的一系列原因的排名。4.根据权利要求2所述的对短文本进行常识性因果推理的方法,其特征在于,所述步骤1.1中通过设置固定窗口大小,提取在匹配到因果模式原因和结果的文本段中的词项,两两配对形成提取的因果对。5.根据权利要求3所述的对短文本进行常识性因果推理的方法,其特征在于,所述步骤2中的因果推理算法如下:从因果关系主要表现为充分性因果和必要性因果相结合的角度出发,分别对充分性因果关系和必要性因果关系强度进行建模;其中,充分性因果强度的计算公式如下:CSsuf(ic,je)=p(je|ic)pα(je)=p(ic,je)p(ic)pα(je)]]>必要性因果强度的计算公式如下:C...

【专利技术属性】
技术研发人员:朱其立罗志一沙雨辰
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1