当前位置: 首页 > 专利查询>万齐智专利>正文

一种中文结构化事件抽取方法技术

技术编号:26971303 阅读:18 留言:0更新日期:2021-01-06 00:02
本发明专利技术涉及一种中文结构化事件抽取方法,属于信息抽取技术领域;一种中文结构化事件抽取方法,利用句法依存分析工具对非结构化文本语句进行句法依存结构分析,获得句法依存分析树;分析中文语言学和句法依存分析树的特征,构建核心动词链,识别语句中存在的所有事件;借助语义依存分析工具为句法依存分析树添加语义依存关系,构建句法语义依存分析树;调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,构建句法语义依存分析事件图;本发明专利技术不需要人工标注数据,能够较好地抽取结构化事件,且抽取的精确率、召回率较高。

【技术实现步骤摘要】
一种中文结构化事件抽取方法
本专利技术属于信息抽取
,具体属于事件抽取
,涉及一种中文结构化事件抽取方法。
技术介绍
随着网络的迅速发展,每天都会产生大量的非结构化文本数据,如何根据具体应用需求从非结构化文本数据中抽取有价值、有意义的结构化信息,具有重大意义。事件抽取作为信息抽取的子任务,具有较大的应用前景。以财经领域为例,投资者及上市公司对股票市场趋势比较感兴趣,趋势预测可以为市场分析、决策提供较为有力的支撑,抽取的事件可为预测提供帮助。事件抽取主要是从本文中抽取包含的所有事件。财经领域比较关注事件的行为动作以及作用的对象,事件抽取的内容对股市趋势预测效果至关重要,而上述内容主要包含于语句的主谓宾中,因此结构化事件抽取目标主要是抽取包含主谓宾的事件。在过去的十多年中,国内外已有较多有关事件抽取的研究,根据抽取目标及应用价值不同分为传统事件抽取和基于应用需求驱动的事件抽取。传统事件抽取一般分为4个子任务,触发词识别和分类、论元识别和分类,前者称为事件探测。传统事件抽取重点研究采用何种方法或模型提高事件触发词或论元所属类别的正确率,即分类效果,且大部分聚焦于标准事件类型的事件抽取。此系列的事件抽取主要采取经典的卷积神经网络、循环神经网络以及各种先进的、变形的神经网络等深度学习模型来解决分类问题,但这需要大量人工标注数据作为训练支撑,在目前中文标注数据匮乏情况下,一定程度限制了传统事件抽取的分类效果。基于应用需求驱动的事件抽取旨在结合具体应用需求,定义事件类型及需要抽取的内容,采取先进的方法完成所需事件的抽取。Ding等人提出使用结构化事件来预测股票价格波动,但该研究在事件内容抽取上存在较大的局限性。在抽取谓语和论元时添加了句法和词汇限制,约束条件过于严苛,使得大量事件被过滤掉了。另外,该技术针对于英文语料,而中文属于意合性语言,多短句、惯用动词表达,使得语句包含的谓语较多,增加了哪些动词充当事件谓语的判断难度,该研究采用的信息开放抽取技术不太适用。Yang等人自定义了财经领域事件类型,采用Bi-LSTM-CRF方法抽取文档级事件,但该技术存在三个问题:一是需要基于存在的事件知识库,二是只能抽取指定类型的事件,对于无类型的开放模式事件抽取存在局限性,三是一个文档只能抽取一个结构化事件。开放领域结构化事件抽取主要采用贝叶斯图形模型方法,且取得了一定的进展。但是这些方法假设一个文档中所有词都是来自于一个单独事件,这对短文本可能成立,但针对长文本则不太合适。为了解决这个问题,Wang等人提出了对抗-神经事件模型,但这些方法均需要较多的标注语料作为训练,才能取得较好的效果。由于上述方法存在着较多严重的缺陷,需要一种简单的、无需任何知识基础和人工标注数据的中文结构化事件抽取方法,以提高事件抽取的效果。
技术实现思路
为了克服目前对于中文结构化事件抽取模型的不足,本专利技术基于句法和语义依存分析提出了一种中文结构化事件抽取方法。本专利技术通过以下技术方案实现:一种中文结构化事件抽取方法,所述的结构化事件记为:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语,包含以下步骤:A、首先利用句法依存分析工具对非结构化文本语句进行句法依存分析,获得句法依存分析树;B、根据中文语言学和句法依存分析树的特征,建立核心动词链,识别语句中包含的所有事件谓语Pred;C、借助语义依存分析工具,获得语义依存分析树,在获得的句法依存分析树上添加语义依存关系,构建句法语义依存分析树;D、根据语义依存关系,调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,构建句法语义依存分析事件图;E、基于构建的句法语义依存分析事件图,通过得到的事件核心动词,分别获取事件的主语Sub和宾语Obj;F、添加事件核心动词间语义依存关系;G、添加事件非核心动词间语义依存关系;。优选的,所述步骤A中句法依存分析采用LTP工具,句法依存分析树记为:DP=(V,E),其中V表示经LTP分词后的词语集合,E表示词语的句法依存集合。进一步地,所述中文语言学包括以下特征:特征1、事件由动词触发,谓语一般由动词充当;特征2、语句中具有并列关系的谓语在句法结构上应该拥有相同的地位或性质,即形成的句法结构在语法角度上应通过某个约定的并列符号进行关联;所述句法依存分析树包含以下特征:特征3、一条语句只给出一个核心词,事件间谓语为父子结点,且保持连续;特征4、事件谓语之间父子结点的边为COO句法依存关系,且依存路径上不能出现其他句法依存关系。进一步地,通过对依存于语句核心词的所有具有连续COO的动词结点进行识别,建立核心动词链,记为CVC=(V),其中每个动词对应一个事件,称为核心动词,V表示语句核心动词集合,建立规则包括:规则1、如果LTP给出的语句核心词是动词,则默认属于核心动词链中,否则考虑其满足COO关系的孩子结点,直到找到动词为止;规则2、加入的结点是与核心动词链中结点构成COO关系的动词结点,且确保添加的动词从语句核心词开始一直保持COO关系的连续性,一旦中断则不再考虑后续动词;规则3、如果LTP给出的语句核心词是非动词,且其孩子中没有满足COO关系的动词结点,则该语句不生成核心动词链。进一步地,所述步骤C中语义依存分析采用SDP工具,语义依存分析树记为:SDP=(V,E),其中V表示经LTP分词后的词语集合,E表示词语的语义依存关系集合。进一步地,所述步骤F中向句法依存分析树中添加语义依存关系具体步骤包括:步骤1、对DP树进行剪枝,只保留主语、核心动词和宾语等主干成分,减少DP树中的结点数量;步骤2、对剪枝后的DP树进行语义依存分析,获取核心动词间语义关联;步骤3、将获取的语义关联添加至原始DP树中。其中,核心动词代表事件,事件间的语义依存关系采用eXX(如eCoo)表示,对于核心动词间非eXX关系的情况,在依赖的孩子结点中查询获取,并作为核心动词间语义关联;所述步骤G中向句法依存分析树中添加事件非核心动词间语义依存关系具体步骤包括:步骤4、对于DP树与SDP树中依存结构相同的结点,将其语义依存关系直接添加至DP树中;步骤5、对于DP树与SDP树中依存结构不相同的结点,其语义依存关系添加为“NULL”。进一步地,添加了语义依存关系的句法依存分析树称为句法语义依存分析树,记为:SSDP=(V,E),E=EdpUsdp,其中V表示词语集合,E=EdpUsdp表示词语的句法依存关系和语义依存关系集合。进一步地,所述步骤D中的调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,具体包括:调整1、将除直接依存于根结点的事件核心动词外的所有事件核心动词调整为根结点的直接孩子结点;调整2、将依存于介词的主语或宾语调整为直接依存于所属事件核心动词,调整规则包括:<本文档来自技高网
...

【技术保护点】
1.一种中文结构化事件抽取方法,其特征在于:所述的结构化事件记为:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语,包含以下步骤:/nA、首先利用句法依存分析工具对非结构化文本语句进行句法依存分析,获得句法依存分析树;/nB、根据中文语言学和句法依存分析树的特征,建立核心动词链,识别语句中包含的所有事件谓语Pred;/nC、借助语义依存分析工具,获得语义依存分析树,在获得的句法依存分析树上添加语义依存关系,构建句法语义依存分析树;/nD、根据语义依存关系,调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,构建句法语义依存分析事件图;/nE、基于构建的句法语义依存分析事件图,通过得到的事件核心动词,分别获取事件的主语Sub和宾语Obj;/nF、添加事件核心动词间语义依存关系;/nG、添加事件非核心动词间语义依存关系;。/n

【技术特征摘要】
1.一种中文结构化事件抽取方法,其特征在于:所述的结构化事件记为:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语,包含以下步骤:
A、首先利用句法依存分析工具对非结构化文本语句进行句法依存分析,获得句法依存分析树;
B、根据中文语言学和句法依存分析树的特征,建立核心动词链,识别语句中包含的所有事件谓语Pred;
C、借助语义依存分析工具,获得语义依存分析树,在获得的句法依存分析树上添加语义依存关系,构建句法语义依存分析树;
D、根据语义依存关系,调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,构建句法语义依存分析事件图;
E、基于构建的句法语义依存分析事件图,通过得到的事件核心动词,分别获取事件的主语Sub和宾语Obj;
F、添加事件核心动词间语义依存关系;
G、添加事件非核心动词间语义依存关系;。


2.根据权利要求1所述的一种中文结构化事件抽取方法,其特征在于:所述步骤A中句法依存分析采用LTP工具,句法依存分析树记为:DP=(V,E),其中V表示经LTP分词后的词语集合,E表示词语的句法依存集合。


3.根据权利要求1或2所述的一种中文结构化事件抽取方法,其特征在于:所述中文语言学包括以下特征:
特征1、事件由动词触发,谓语一般由动词充当;
特征2、语句中具有并列关系的谓语在句法结构上应该拥有相同的地位或性质,即形成的句法结构在语法角度上应通过某个约定的并列符号进行关联;
所述句法依存分析树包含以下特征:
特征3、一条语句只给出一个核心词,事件间谓语为父子结点,且保持连续;
特征4、事件谓语之间父子结点的边为COO句法依存关系,且依存路径上不能出现其他句法依存关系。


4.根据权利要求2或3所述的一种中文结构化事件抽取方法,其特征在于:通过对依存于语句核心词的所有具有连续COO的动词结点进行识别,建立核心动词链,记为CVC=(V),其中每个动词对应一个事件,称为核心动词,V表示语句核心动词集合,建立规则包括:
规则1、如果LTP给出的语句核心词是动词,则默认属于核心动词链中,否则考虑其满足COO关系的孩子结点,直到找到动词为止;
规则2、加入的结点是与核心动词链中结点构成COO关系的动词结点,且确保添加的动词从语句核心词开始一直保持COO关系的连续性,一旦中断则不再考虑后续动词;
规则3、如果LTP给出的语句核心词是非动词,且其孩子中没有满足COO关系的动词结点,则该语句不生成核心动词链。


5.根据权利要求1所述的一种中文结构化事件抽取方法,其特征在于:所述步骤C中语义依存分析采用SDP工具,语义依存分析树记为:SDP=(V,E),其中V表示经LTP分词后的词语集合,E表示词语的语义依存关系集合。


6.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:万齐智万常选胡蓉刘德喜
申请(专利权)人:万齐智万常选胡蓉刘德喜
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1