基于实体关系和依存Tree-LSTM的联合事件抽取的方法技术

技术编号:24708773 阅读:50 留言:0更新日期:2020-07-01 00:04
本发明专利技术公开了一种基于实体关系和依存Tree‑LSTM的联合事件抽取的方法。本发明专利技术步骤:1、对原始文本以及文本标注信息进行编码。2、将步骤1的结果输入双向LSTM。获取具有时序的前向和向后隐含状态向量。3、首先将输入句子解析成依存树形结构,然后将步骤1结果输入构建的依存Tree‑LSTM,获取树根节点隐含状态向量和每个时刻的隐含状态向量。4、获取保存实体关系句子信息特征向量。同时连接双向LSTM t的前向、向后隐含状态向量以及依存Tree‑LSTM t时刻的隐含状态向量

【技术实现步骤摘要】
基于实体关系和依存Tree-LSTM的联合事件抽取的方法
本专利技术设计事件抽取方法,具体来讲是一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法,属于自然语言处理领域。
技术介绍
事件抽取(EventExtraction,EE)是信息抽取任务(InformationExtraction,IE)的重要组成。事件抽取主要包括触发词识别和分类(EventDetection,ED)和事件论元识别和分类(ArgumentIdentification,AI)两个子任务,ED任务主要是从文本中找出引发事件的触发词,并正确判断触发词的事件类型。而后者这是在确定句子是事件句(包含触发词),然后判断句子中出现的实体提及是否为该事件论元。并为每个实体提及分配正确的事件论元角色。随着海量文本信息的出现以及深度学习技术的深度发展,事件抽取也成为人们研究的热点问题。此外,事件抽取技术已应用于新闻消息归类、社会舆情管理等。
技术实现思路
本专利技术主要针对于事件触发词和事件论元的依赖路径过长和模型输出特征缺乏实体关系的问题提出的一种基于实体关本文档来自技高网...

【技术保护点】
1.基于实体关系和依存Tree-LSTM的联合事件抽取的方法,其特征在于包括如下步骤:/n步骤1、对原始文本以及文本标注信息进行编码;/n步骤2、将步骤1的结果输入双向LSTM;获取具有时序的前向隐含状态向量

【技术特征摘要】
1.基于实体关系和依存Tree-LSTM的联合事件抽取的方法,其特征在于包括如下步骤:
步骤1、对原始文本以及文本标注信息进行编码;
步骤2、将步骤1的结果输入双向LSTM;获取具有时序的前向隐含状态向量和后向隐含状态向量
步骤3、首先利用StanfordCoreNLP工具将输入句子解析成依存树形结构,然后将步骤1的编码结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量和t个时刻的隐含状态向量
步骤4、将实体关系向量Rk编码连接树根节点隐含状态向量获取保存实体关系句子向量同时连接双向LSTMt时刻的前向隐含状态向量和后向隐含状态向量以及依存Tree-LSTMt时刻的隐含状态向量求得新隐含状态向量从而既保存子结点的信息也获取具有一定时序的局部下上文信息;
步骤5、连接步骤4中t时刻隐含状态向量Ht与句子向量F,进行触发词识别和分类;
步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量Ht、第i个事件论元候选词(第i个实体提及)隐含状态向量包含实体关系的句子向量F以及第i个事件论元候选词在实体关系向量Rk中的实体关系论元角色连接,进行事件论元的识别和分类。


2.根据权利要求1所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤1具体实现如下:
1-1.从源文件中获取未处理原始文本以及文本标注信息,标注信息包含实体提及、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色,其中,一共7种实体类型,39种事件触发词类型、20种实体关系类型和16种实体关系论元角色;然后利用StanfordCoreNLP对原始文本进行分句、分词;获取词性和句子的依存树形结构,其中,每个词作为树性结构的一个结点;并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表,其中每一种向量表都有类型“其他”对应的初始化向量;
1-2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量wi,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量we;
获取每个词表示xi={wi,wpos,we},因此句子向量矩阵表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度。


3.根据权利要求1或2所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤2具体实现如下:
将句子的向量矩阵W={x1,x2,...,xn-1,xn}输入双向LSTM中,分别获取该句子的前向隐含状态矩阵和后向隐含状态矩阵其中和分别表示t时刻的前向隐含状态向量和后向隐含状态,t∈[1,n],双向LSTM是一种时间序列敏感的模型,因此,和分别保存具有一定时序信息的上文和下文信息。


4.根据权利要求3所述的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤3具体实现如下:
通过StanfordCoreNLP工具将每个句子解析成树形结构,句中每个...

【专利技术属性】
技术研发人员:张旻曹祥彪汤景凡姜明李鹏飞
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1