当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于序列生成模型的多事件检测方法技术

技术编号:27975620 阅读:26 留言:0更新日期:2021-04-06 14:09
本发明专利技术公开了一种基于序列生成模型的多事件检测方法。为了解决现有方法对触发词抽取的过度依赖和对事件共现关系、事件类别语义信息忽略的缺陷,本发明专利技术利用序列生成模型可以生成不定长序列的特性,实现了在无需进行触发词抽取的情况下也能进行多事件检测的效果,降低了对数据集的标注要求,增强了方法的可用性。在构建序列生成模型时,使用编码器‑解码器的架构,在解码预测输出的过程中使用上一时间步的输出作为输入,因此可以学习各事件类别间的共现关系。此外,本发明专利技术同时编码事件文本语义和事件类别名称的语义信息,使得在数据量较少的情况下也能加入更多先验信息得到良好的效果。

【技术实现步骤摘要】
一种基于序列生成模型的多事件检测方法
本专利技术涉及自然语言处理
,尤其涉及一种基于序列生成模型的事件检测方法。
技术介绍
随着互联网技术与应用的迅速发展,自然语言文本信息的交流和共享也日益频繁和广泛。这些文本信息通常以新闻资讯,机构公告,论坛评论等非结构化文本形式呈现,常常蕴含着许多拥有潜在价值的事件信息,挖掘这些事件信息具有很强的应用价值。例如,通过金融公告可以检测引起金融市场波动的事件,从而辅助投资者做出决策;通过实时检测社会突发事件,可以为应急处理争取时间。事件检测的目标就是从这些数量庞大、更新迅速、结构复杂的非结构化文本中检测是否有事件发生并得到发生事件的类型。目前,文本事件检测方法多数利用深度学习方法构建序列标注模型对事件文本进行事件触发词抽取,若文本包含触发词则视为有事件发生,然后通过对触发词的分类得到事件的分类。然而,现有的方法有以下缺点:1.现有方法过度依赖触发词的抽取和分类来进行事件监测。然而在实际场景中,文本中往往没有明确的触发词或者含有多个触发词。特别地,中文文本中某些触发词的边界难以判断。这些都对本文档来自技高网...

【技术保护点】
1.一种基于序列生成模型的多事件检测方法,其特征在于包括以下步骤:/nS1:获取事件文本语料后,对文本进行预处理,然后使用序列化文本标注方法对事件文本中的事件类别进行标注;/nS2:构建基于序列生成框架的多事件检测模型;/nS3:对模型进行训练和评估,并选择训练效果最好的模型作为最优模型;/nS4:利用训练好的最优模型,使用集束搜索的方法进行预测,从而得到生成序列,解析生成序列得到完整的多事件检测结果。/n

【技术特征摘要】
1.一种基于序列生成模型的多事件检测方法,其特征在于包括以下步骤:
S1:获取事件文本语料后,对文本进行预处理,然后使用序列化文本标注方法对事件文本中的事件类别进行标注;
S2:构建基于序列生成框架的多事件检测模型;
S3:对模型进行训练和评估,并选择训练效果最好的模型作为最优模型;
S4:利用训练好的最优模型,使用集束搜索的方法进行预测,从而得到生成序列,解析生成序列得到完整的多事件检测结果。


2.根据权利要求1所述的一种基于序列生成模型的多事件检测方法,其特征在于获取事件文本语料后,对文本进行预处理,然后使用序列化文本标注方法对事件文本中的事件类别进行标注的步骤如下:
S11:获取事件文本语料后,对语料进行清洗;然后使用分词工具对语料进行分词;
S12:对每一条事件文本语料中包含的事件类型进行序列化标注,标注格式为直接将事件类型名称连成序列,中间用特定的分隔符隔开;若该文本不包含任何事件,则标注为“NONE”;然后将标注得到的序列首部添加自定义开始符“<sos>”,尾部添加自定义结束符“<eos>”。


3.根据权利要求1所述的一种基于序列生成模型的多事件检测方法,其特征在于构建基于序列生成框架的多事件检测模型的步骤如下:
S21:将事件文本输入模型的输入层,将词转化为向量形式,并编码实体及词性特征,具体如S211~S213所示:
S211:使用词嵌入模块将输入文本的每个词转化为向量形式;
S212:对文本中每个词对应的实体和词性类别进行编码,生成实体词性特征向量;
S213:将S211中得到的词向量和S212中词对应的实体词性特征向量拼接起来,共同组成维度为k的组合向量;将一条文本中所有词的组合向量全部拼接得到的文本特征向量表示为x1:n=[x1,x2,...,xn],其中n表示文本中词的个数,xi表示文本中的第i个词,i∈[1,n];
S22:使用包含双向LSTM神经网络模型的编码器进行编码,具体如S221~S222所示:
S221:将S21得到的文本特征向量作为输入数据,传入编码器;
S222:编码器中的双向LSTM深度神经网络对输入数据进行编码,编码后整个句子得到的编码器隐藏状态表示为h1:n=(h1,h2,...,hn),其中每个hi由前向LSTM和后向LSTM的输出拼接而成;
S23:使用注意力计算器计算每一个解码时间步输入文本的注意力特征,得到文本注意力特征向量和记忆向量,具体如S231~S235所示:
S231:设解码器每个时间步的隐藏状态为st,并用S222中编码器最后一步得到的隐藏状态hn作为解码器隐藏状态的初始值s0;随机初始化一个长度等于输入文本长度的记忆向量rt,后续用于累计所有时间步下每个输入词的注意力权重叠加,从而在后续计算注意力权重时提供先前的注意力决策,以避免对原文中某些词的重复关注而生成重复的序列;
S232:在解码的每个时间步t,计算输入文本中每个位置i与该时间步t的关联向量et,i:
et,i=vTtanh(Whhi+Wsst+Wrrt,i+be)
其中v,Wh,Ws,Wr,be是可以训练的参数;该时间步t的输出位置与每个输入文本位置的关联向量组合表示为向量et=[et,1,et,2,...,et,n];
S233:根据S232得到的关联向量et计算当前时间步t下输入文本每个词的注意力特征权重at=[at,1,at,2,...,at,n]:
at=softmax(et)
S234:累计当前时间步t之前的所有时间步下每个输入文本位置的注意力权重at,用于更新当前时间步下的记忆向量rt,计算公式如下:

<...

【专利技术属性】
技术研发人员:庄越挺邵健吕梦瑶宗畅
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1