一种长文本事件抽取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:30447515 阅读:30 留言:0更新日期:2021-10-24 18:40
本发明专利技术公开了一种长文本事件抽取方法、装置、计算机设备及存储介质,该方法包括:获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;利用深度学习模型分类预测所述截断文本对应的多个事件类型;结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出。本发明专利技术通过对长文本进行事件分类、事件角色抽取以及事件组合,提高了对于长文本的事件抽取效率和抽取精度。对于长文本的事件抽取效率和抽取精度。对于长文本的事件抽取效率和抽取精度。

【技术实现步骤摘要】
一种长文本事件抽取方法、装置、计算机设备及存储介质


[0001]本专利技术涉及计算机
,特别涉及一种长文本事件抽取方法、装置、计算机设备及存储介质。

技术介绍

[0002]当前,各大新闻媒体、公众号、推文博主等每天都会产生大量的资讯信息,包括但不限于新闻报道,评论预测,分析解读等。这些文本往往篇幅很长,同时内容复杂,观点不一,而服务公司往往需要监控这些文本信息以及时获得行业动态和事件信息等。传统的事件抽取方法主要需要通过领域专家的规范制定以及大量的人工筛选校验,这种方法工作量大,效率和准确性都较低,因此本专利技术基于深度学习技术,能够实现全自动化的事件抽取,大幅提升效率,并且在准确性上超过人工校验。
[0003]目前已有的长文本的事件抽取方法对于事件的定义一般较为简单。如一些金融类的舆情分析平台主要针对金融文本进行主要事件角色抽取,通过关键词等形式进行展示,同时会对整篇文本的情感倾向进行评估,这一类平台主要应用了简单的事件分类及NER(Named Entity Recognition,即命名实体识别技术)对长文本进行事件抽取。事件本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种长文本事件抽取方法,其特征在于,包括:获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;利用深度学习模型分类预测所述截断文本对应的多个事件类型;结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出。2.根据权利要求1所述的长文本事件抽取方法,其特征在于,所述获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本,包括:通过触发词词典在长文本中选取触发词,并利用触发词对长文本进行预截断;基于预截断的长文本,统计不同触发词之间的句子数量和总字数;根据不同触发词之间的总字数构建离散区间,并基于所述离散区间选取分布占比最多的字数区间;在所述字数区间中选取众数作为字数阈值,并利用所述字数阈值对长文本进行文本截断。3.根据权利要求1所述的长文本事件抽取方法,其特征在于,所述利用深度学习模型分类预测所述截断文本对应的多个事件类型,包括:获取包含截断训练文本和事件类型的训练集,并对训练集中的截断训练文本按照事件标签拼接;通过增加卷积核的深度学习模型对拼接后的截断训练文本进行卷积处理;采用focal

loss损失函数对改进的深度学习模型进行优化更新;利用更新后的深度学习模型对截断文本进行事件分类预测。4.根据权利要求1所述的长文本事件抽取方法,其特征在于,所述结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息,包括:采用问答式架构在所述截断文本的每一事件类型后拼接问句;通过指针网络模型,根据拼接问句构建标签列表,并利用所述标签列表预测所述问句在所述截断文本中的起始位置概率值和终止位置概率值;选取概率值最大的起始位置和终止位置,并将所述起始位置和终止位置之间的文本内容作为对应事件类型下属的事件角色信息。5.根据权利要求1所述的长文本事件抽取方法,其特征在于,...

【专利技术属性】
技术研发人员:谢翀罗伟杰陈永红黄开梅
申请(专利权)人:深圳前海环融联易信息科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1