当前位置: 首页 > 专利查询>苏州大学专利>正文

一种隐式篇章关系的分析方法及系统技术方案

技术编号:10515576 阅读:129 留言:0更新日期:2014-10-08 15:08
本申请公开了一种隐式篇章关系的分析方法及系统,其中方法包括:接收输入的包括前置论元和后置论元的待测隐式论元实例,在语料库中筛选与其具有语义平行性且包含预设连接线索词的显式论元实例,计算每个显式论元实例与待测隐式论元实例的语义平行度,按照第一预设规则筛选出若干个显式论元实例,确定为平行显式论元实例集合,计算每个平行显式论元实例的篇章关系的置信度,至少利用每个平行显式论元实例的语义平行度、篇章关系置信度及第二预设规则,计算平行显式论元实例集合中每一类篇章关系与待测隐式论元实例的篇章关系的平行概率,将平行概率最大的一类篇章关系确定为待测隐式论元实例的篇章关系。实现了对于隐式篇章关系的识别的目的。

【技术实现步骤摘要】

本申请涉及自然语言处理
,更具体地说,涉及一种隐式篇章关系的分析方法及系统
技术介绍
在篇章研究领域,篇章是论元经过语义关联和结构化组织形成的自然语言文体。篇章关系是同一篇章内部,相邻论元或跨度在一定范围内的论元间的语义关联性质,如对比关系、扩展关系等。其中,论元是篇章中具有独立语义的文字片段,是形成篇章关系的基本表现单元。篇章关系分析是解释论元间的语义关系。根据论元间是否存在显式连接词(如“所以”等),篇章关系可以划分为显式关系和隐式关系两类。显式关系因具有连接词等指向特定篇章关系的直观线索而易于检测。但是,隐式篇章关系由于缺乏连接词,其检测难度非常大,目前还没有一种有效的方案,能够针对隐式篇章关系进行分析。
技术实现思路
有鉴于此,本申请提供了一种隐式篇章关系的分析方法及系统,用于解决现有技术缺乏对隐式篇章关系进行分析的有效方案。为了实现上述目的,现提出的方案如下:一种隐式篇章关系的分析方法,包括:接收用户输入的包括前置论元和后置论元的待测隐式论元实例;在语料库中筛选与所述待测隐式论元实例具有语义平行性且包含预设连接线索词的显式论元实例;计算每个所述显式论元实例与所述待测隐式论元实例的语义平行度;按照第一预设规则,筛选出若干个所述显式论元实例并确定为平行显式论元实例集合;计算每一个平行显式论元实例的篇章关系的置信度;至少利用每一个平行显式论元实例的语义平行度、篇章关系置信度及第二预设规则,计算平行显式论元实例集合中每一类篇章关系与待测隐式论元实例的篇章关系的平行概率;将平行概率最大的一类篇章关系确定为所述待测隐式论元实例的篇章关系。优选地,所述在语料库中筛选出与所述待测隐式论元实例具有语义平行性且包含预设连接线索词的显式论元实例为:分别抽取所述待测隐式论元实例的前置论元、后置论元的二元文法,得到若干个前置文法和若干个后置文法;将每一个所述前置文法分别与各个所述后置文法进行组合,并将每一个组合确定为一个查询条件;利用每一个所述查询条件在所述语料库中查找包含预设连接线索词的显式论元实例。优选地,所述计算每个所述显式论元实例与所述待测隐式论元实例的语义平行度为:利用Jaccard算法,计算每个所述显式论元实例的前置论元与所述待测隐式论元实例的前置论元的平行度,确定为第一平行度;利用Jaccard算法,计算每个所述显式论元实例的后置论元与所述待测隐式论元实例的后置论元的平行度,确定为第二平行度;求取所述第一平行度与所述第二平行度的平均值,并确定为所述待测隐式论元实例的语义平行度。优选地,所述第一预设规则为:选取顺序排列的若干个显式论元实例中预设比例的前n个显式论元实例,确定为平行显式论元实例集合;或者,选取满足预设语义平行度参考值的显式论元实例,确定为平行显式论元实例集合。优选地,所述计算每一个平行显式论元实例的篇章关系的置信度为:Hi=-Σj∈sencesGj·log(Gj)]]>Gj=|gj-gnorm(j)|其中,j代表篇章关系,gj表示篇章关系j在平行显式论元实例集合中的概率分布,gnorm(j)表示篇章关系J在所述语料库中的概率分布,Gj表示篇章关系J的分布概率差异,j∈sences,sences为篇章关系集合。优选地,所述至少利用每一个平行显式论元实例的语义平行度、篇章关系置信度及第二预设规则,计算平行显式论元实例集合中每一类篇章关系与待测隐式论元实例的篇章关系的平行概率为:将每一个所述平行显式论元实例的语义平行度与篇章关系置信度相乘,相乘结果确定为平行概率Pc:Pc=Σi∈usimi*Hi]]>其中,u为具有篇章关系c的所有平行显式论元实例的集合,simi为第i个平行显式论元实例与待测隐式论元实例的语义平行度,Hi为第i个平行显式论元实例的篇章关系的置信度。优选地,在所述计算每一个平行显式论元实例的篇章关系的置信度之后,还包括:计算每一个平行显式论元实例与待测隐式论元实例的同指焦点一致性概率,过程如下:利用下述公式分别计算待测隐式论元实例中的每个论元特征作为论元焦点的概率,以及计算各个平行显式论元实例中的每个论元特征作为论元焦点的概率:P(f|t)=log2(Πj∈nkΠwi∈tref(wi,kj))]]>rel(wi,kj)=PMI(wi,kj)·P(Key|kj)其中,P(f|t)表示当前论元实例t中的论元特征f作为论元焦点的概率,wi为论元特征,kj表示当前论元实例所属的篇章中TFIDF权重最高的nk个关键词中的第j个,当前论元实例t为待测隐式论元实例或者任意一个平行显式论元实例;其中,rel(wi,kj)表示论元特征wi与篇章中某个关键词kj的相关性,PMI(wi,kj)表示wi与kj的互信息,P(Key|kj)表示关键词kj在篇章中的关键程度,由关键词kj在篇章中的分散分布频率除以关键词频率计算得出;在以论元特征为x轴,论元特征作为论元焦点的概率为y轴的二维坐标系中,将表征待测隐式论元实例中各个论元特征作为论元焦点的概率的点进行拟合,得到待测隐式论元实例的焦点概率曲线,将表征每个平行显式论元实例中各个论元特征作为论元焦点的概率点进行拟合,得到每一个平行显式论元实例的焦点概率曲线;计算每一个平行显式论元实例与待测隐式论元实例的同指焦点一致性概率Di;Di=∫1h|fi(x)-fj(x)|dx]]>其中,h为平行显示论元实例和待测隐式论元实例中所有不同的论元特征的个数,fi(x)和fj(x)分别表示待测隐式论元实例和平行显式论元实例的焦点概率曲线。优选地,所述至少利用每一个平行显式论元实例的语义平行度、篇章关系置信度及第二预设规则,计算平行显式论元实例集合中每一类篇章关系与待测隐式论元实例的篇章关系的平行概率为:将每一个所述平行显式论元实例的语义平行度、篇章关系置信度和同指焦点一致性概率相乘,相乘结果确定为平行概率Pc:Pc=Σi∈usimi*Hi*Di]]>其中,u为具有篇章关系c的所有平行显式论元实例的集合,simi为第i个平行显式论元实例与待测隐式论元实例的语义平行度,Hi为第i个平行显式论元实例的篇章关系的置信度,Di为第i个平行显式论元实例本文档来自技高网...
一种隐式篇章关系的分析方法及系统

【技术保护点】
一种隐式篇章关系的分析方法,其特征在于,包括:接收用户输入的包括前置论元和后置论元的待测隐式论元实例;在语料库中筛选与所述待测隐式论元实例具有语义平行性且包含预设连接线索词的显式论元实例;计算每个所述显式论元实例与所述待测隐式论元实例的语义平行度;按照第一预设规则,筛选出若干个所述显式论元实例并确定为平行显式论元实例集合;计算每一个平行显式论元实例的篇章关系的置信度;至少利用每一个平行显式论元实例的语义平行度、篇章关系置信度及第二预设规则,计算平行显式论元实例集合中每一类篇章关系与待测隐式论元实例的篇章关系的平行概率;将平行概率最大的一类篇章关系确定为所述待测隐式论元实例的篇章关系。

【技术特征摘要】
1.一种隐式篇章关系的分析方法,其特征在于,包括:
接收用户输入的包括前置论元和后置论元的待测隐式论元实例;
在语料库中筛选与所述待测隐式论元实例具有语义平行性且包含预设连
接线索词的显式论元实例;
计算每个所述显式论元实例与所述待测隐式论元实例的语义平行度;
按照第一预设规则,筛选出若干个所述显式论元实例并确定为平行显式
论元实例集合;
计算每一个平行显式论元实例的篇章关系的置信度;
至少利用每一个平行显式论元实例的语义平行度、篇章关系置信度及第
二预设规则,计算平行显式论元实例集合中每一类篇章关系与待测隐式论元
实例的篇章关系的平行概率;
将平行概率最大的一类篇章关系确定为所述待测隐式论元实例的篇章关
系。
2.根据权利要求1所述的分析方法,其特征在于,所述在语料库中筛选
出与所述待测隐式论元实例具有语义平行性且包含预设连接线索词的显式论
元实例为:
分别抽取所述待测隐式论元实例的前置论元、后置论元的二元文法,得
到若干个前置文法和若干个后置文法;
将每一个所述前置文法分别与各个所述后置文法进行组合,并将每一个
组合确定为一个查询条件;
利用每一个所述查询条件在所述语料库中查找包含预设连接线索词的显
式论元实例。
3.根据权利要求2所述的分析方法,其特征在于,所述计算每个所述显
式论元实例与所述待测隐式论元实例的语义平行度为:
利用Jaccard算法,计算每个所述显式论元实例的前置论元与所述待测隐
式论元实例的前置论元的平行度,确定为第一平行度;
利用Jaccard算法,计算每个所述显式论元实例的后置论元与所述待测隐
式论元实例的后置论元的平行度,确定为第二平行度;
求取所述第一平行度与所述第二平行度的平均值,并确定为所述待测隐
式论元实例的语义平行度。
4.根据权利要求3所述的分析方法,其特征在于,所述第一预设规则为:
选取顺序排列的若干个显式论元实例中预设比例的前n个显式论元实例,
确定为平行显式论元实例集合;或者,
选取满足预设语义平行度参考值的显式论元实例,确定为平行显式论元
实例集合。
5.根据权利要求4所述的分析方法,其特征在于,所述计算每一个平行
显式论元实例的篇章关系的置信度为:
Hi=-Σj∈sencesGj·log(Gj)]]>Gj=|gj-gnorm(j)|
其中,j代表篇章关系,gj表示篇章关系j在平行显式论元实例集合中的
概率分布,gnorm(j)表示篇章关系J在所述语料库中的概率分布,Gj表示篇章关
系J的分布概率差异,j∈sences,sences为篇章关系集合。
6.根据权利要求5所述的分析方法,其特征在于,所述至少利用每一个
平行显式论元实例的语义平行度、篇章关系置信度及第二预设规则,计算平
行显式论元实例集合中每一类篇章关系与待测隐式论元实例的篇章关系的平
行概率为:
将每一个所述平行显式论元实例的语义平行度与篇章关系置信度相乘,
相乘结果确定为平行概率Pc:
Pc=Σi∈usimi*Hi]]>其中,u为具有篇章关系c的所有平行显式论元实例的集合,simi为第i
个平行显式论元实例与待测隐式论元实例的语义平行度,Hi为第i个平行显
式论元实例的篇章关系的置信度。
7.根据权利要求5所述的分析方法,其特征在于,在所述计算每一个平
行显式论元实例的篇章关系的置信度之后,还包括:
计算每一个平行显式论元实例与待测隐式论元实例的同指焦点一致性概
率,过程如下:
利用下述公式分别计算待测隐式论元实例中的每个论元特征作为论元焦
点的概率,以及计算各个平行显式论元实例中的每个...

【专利技术属性】
技术研发人员:洪宇车婷婷姚建民
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1