事件抽取模型训练方法、事件抽取方法以及相关设备技术

技术编号：36127333 阅读：9 留言：0更新日期：2022-12-28 14:35

本发明专利技术提供了事件抽取模型训练方法、事件抽取方法以及相关设备，事件抽取模型训练方法，包括：基于指导信息、专家案例以及通信字典生成知识图谱；对所述知识图谱进行编码获得知识图谱编码；将事件案例进行编码，获得文本编码；将所述知识图谱编码以及所述文本编码进行融合，获得融合编码；将所述融合编码输入第一抽取模型，获得所述事件案例的伪数据标签；基于所述事件案例以及所述伪数据标签训练第二抽取模型。本发明专利技术在样本数据小的情况下，提高事件抽取模型的泛化能力以及抽取准确性。事件抽取模型的泛化能力以及抽取准确性。事件抽取模型的泛化能力以及抽取准确性。

全部详细技术资料下载

【技术实现步骤摘要】
事件抽取模型训练方法、事件抽取方法以及相关设备

[0001]本专利技术涉及自然语言处理领域，具体地说，涉及事件抽取模型训练方法、事件抽取方法以及相关设备。

技术介绍

[0002]在通信等特定领域，面对各种各样的问题，领域专家或者战略规划专家需要做出各种各样的决策。决策之前需要做调查研究——也就是获取关于问题的情报。通过事件抽取可以自动的获得事件信息，通过自动化的抽取方式，在信息爆炸的时代，大大减少信息筛选时间。
[0003]然而，现有的事件抽取方法一般分为多个子任务，先检测触发词，然后识别事件类别，之后检测论元，最后识别论元角色。第一步的前提需要标注的触发词，若无则无法进行后续。有监督的事件抽取方法，依赖人工标注数据，同时需要训练模型逐个完成子任务，模型串联导致错误传递，后一个模型效果极大依赖前序模型。除此之外，模型缺少先验信息，对数据的依赖比较明显，在样本数据少的情况下，学习难度增加，效果较差。
[0004]由此，如何在样本数据小的情况下，提高事件抽取模型的泛化能力以及抽取准确性，是本领域技术人员亟待解决的技术问题。
[0005]需要说明的是，上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]针对现有技术中的问题，本专利技术的目的在于提供事件抽取模型训练方法、装置、设备及存储介质，克服了现有技术的困难，在样本数据小的情况下，提高事件抽取模型的泛化能力以及抽取准确性。
[...

【技术保护点】

【技术特征摘要】
1.一种事件抽取模型训练方法，其特征在于，包括：基于指导信息、专家案例以及通信字典生成知识图谱；对所述知识图谱进行编码获得知识图谱编码；将事件案例进行编码，获得文本编码；将所述知识图谱编码以及所述文本编码进行融合，获得融合编码；将所述融合编码输入第一抽取模型，获得所述事件案例的伪数据标签；基于所述事件案例以及所述伪数据标签训练第二抽取模型。2.根据权利要求1所述的事件抽取模型训练方法，其特征在于，所述基于指导信息、专家案例以及通信字典生成知识图谱包括：对所述指导信息进行格式转换，以获得知识块；基于所述文本数据生成知识块树形结构，所述知识块树形结构的根节点为文件名，所述知识块树形结构的叶子节点为知识块，所述知识块树形结构除了根节点和叶子节点之外的节点为多级标题。3.根据权利要求1所述的事件抽取模型训练方法，其特征在于，所述对所述知识图谱进行编码获得知识图谱编码包括：抽取所述专家案例的第一实体；基于所述第一实体自所述知识图谱中搜索关联的实体以及实体关系；对所述实体以及实体关系进行编码。4.根据权利要求3所述的事件抽取模型训练方法，其特征在于，所述对所述实体以及实体关系进行编码包括：利用图神经网络或者TransE算法对所述实体以及实体关系进行编码。5.根据权利要求1所述的事件抽取模型训练方法，其特征在于，所述将所述知识图谱编码以及所述文本编码进行融合，获得融合编码包括：对所述知识图谱编码以及所述文本编码进行拼接、相乘、相加或者加权求和，获得融合编码。6.根据权利要求1所述的事件抽取模型训练方法，其特征在于，所述第一抽取模型为基于DMCNN的事件抽取模型，或者为ALBERT、BiLSTM、CRF...

【专利技术属性】
技术研发人员：刘珮，钱兵，谢汉垒，薛艳茹，马冲，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人