基于实体关系级别注意力机制的事件检测方法技术

技术编号：29402795 阅读：44 留言：0更新日期：2021-07-23 22:40

本发明专利技术公开了一种基于实体关系级别注意力机制的事件检测方法。本发明专利技术步骤：首先利用依存Tree‑LSTM获取实体关系级别表示和双向LSTM获取词汇级别表示，然后利用实体关系级别注意力和词汇级别注意力捕获对于当前候选触发词有重要影响的实体关系信息和句子语义信息。再针对候选触发词，对语义信息、实体关系信息、根节点词汇级别表示以及候选触发词的词汇级别表示进行拼接，然后进行触发词识别和分类。本发明专利技术不仅可以捕获较重要的句子语义信息，而且可以减少无关的实体关系特征对当前触发词的影响，从而提高了事件检测模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于实体关系级别注意力机制的事件检测方法
本专利技术设计事件检测方法，具体来讲是一种基于实体关系级别注意力机制的事件检测方法，属于自然语言处理领域。
技术介绍
随着海量文本信息的出现以及深度学习技术的快速发展，如何快速、准确的获取用户感兴趣的事件信息，逐渐成为信息抽取领域的最具挑战的难题，而事件检测是信息抽取任务的重要环节，主要是为了从文本中找出引发事件的触发词，并为其分配正确的事件类型。此外，事件检测技术已应用于新闻消息归类、社会舆情分析等。
技术实现思路
本专利技术主要针对于在触发词识别过程中，不能同时捕获重要的实体关系特征和词汇特征的问题提出的一种基于实体关系级别注意力机制的事件检测方法。基于实体关系级别注意力机制的事件检测方法，按照如下步骤进行：步骤1、对原始文本中的单词和实体关系进行编码，分别获取词汇级别向量序列和实体关系级别向量序列；步骤2、将步骤1的词汇级别向量序列输入依存Tree-LSTM，获取句子的词汇级别表示；步骤3、将步骤1的实体关系级别向量序列输入双向LSTM，获取实体关系级别表示；步骤4、利用词汇级别注意力机制获取句中第i个单词对第t个候选触发词的影响权重将句中的词汇级别表示加权平均，获取句子完整的语义信息步骤5、利用实体关系级别注意力机制获取句中第j个实体关系对第t个候选触发词的影响权重将句中每个实体关系级别表示加权平均，获取句中完整的实体关系信息步骤6、针对第t个候选触发词，对语义信息实体关系信息根节点词汇级别表...

【技术保护点】
1.基于实体关系级别注意力机制的事件检测方法，其特征在于包括如下步骤：/n步骤1、对原始文本中的单词和实体关系进行编码，分别获取词汇级别向量序列和实体关系级别向量序列；/n步骤2、将步骤1的词汇级别向量序列输入依存Tree-LSTM，获取句子的词汇级别表示；/n步骤3、将步骤1的实体关系级别向量序列输入双向LSTM，获取实体关系级别表示；/n步骤4、利用词汇级别注意力机制获取句中第i个单词对第t个候选触发词的影响权重

【技术特征摘要】
1.基于实体关系级别注意力机制的事件检测方法，其特征在于包括如下步骤：
步骤1、对原始文本中的单词和实体关系进行编码，分别获取词汇级别向量序列和实体关系级别向量序列；
步骤2、将步骤1的词汇级别向量序列输入依存Tree-LSTM，获取句子的词汇级别表示；
步骤3、将步骤1的实体关系级别向量序列输入双向LSTM，获取实体关系级别表示；
步骤4、利用词汇级别注意力机制获取句中第i个单词对第t个候选触发词的影响权重将句中的词汇级别表示加权平均，获取句子完整的语义信息
步骤5、利用实体关系级别注意力机制获取句中第j个实体关系对第t个选触发词的影响权重将句中每个实体关系级别表示加权平均，获取句中完整的实体关系信息
步骤6、针对第t个候选触发词，对语义信息实体关系信息根节点词汇级别表示以及候选触发词的词汇级别表示进行拼接，然后进行触发词识别和分类。

2.根据权利要求1所述的基于实体关系级别注意力机制的事件检测方法，其特征在于步骤1具体实现如下：
1-1.从KBP2017英文数据集标注文件中获取实体提及、实体类型、实体关系、事件触发词；利用StanfordCoreNLP工具对数据集中原始文本进行分句、分词以及获取单词的词性和每个句子的依存树结构；然后创建词性向量表、实体类型向量表、实体关系向量表以及触发词类型向量表，其中在每个向量表中定义”空”类型对应的向量；随机初始化这些向量，在训练的时候更新这些向量；
1-2.首先查询预训练的Glove词向量矩阵、词性向量表、实体类型向量表；分别获取句子中每个词的词向量wi、词性向量wpos、实体类型向量we；然后查询实体关系向量表，获取句子中出现的每个实体关系对应的向量r；
1-3.每个单词真值向量为xi＝{wi,wpos,we}，所以句子词汇级别向量序列W＝{x1,x2,...,xn-1,xn},实体关系级别向量序列R＝{r1,r2,...,rk-1,rk}；其中n是句子的长度、k为实体关系的个数。

3.根据权利要求2所述的基于实体关系级别注意力机制的事件检测方法，其特征在于步骤2具体实现如下：
2-1.为了获取句子中每个单词的词汇级别表示，利用StanfordCoreNLP工具解析每个句子生成依存树结构，其中，每个单词对应依存树结构中的一个节点；在依存树结构基础上构建依存Tree-LSTM，将W＝{x1,x2,...,xn-1,xn}作为依存Tree-LSTM的输入，获取每个单词的词汇级别表示，例如，第i个单词的词汇级别表示为以及包含整个句子信息的根节点的词汇级别表示为因此，句子的词汇级别表示序列其中i,root∈[1,n],n是句子的长度。

4.根据权利要求3所...

【专利技术属性】
技术研发人员：汤景凡，曹祥彪，张旻，姜明，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人