一种中文领域事件抽取方法技术

技术编号：37359321 阅读：17 留言：0更新日期：2023-04-27 07:08

本发明专利技术公开了一种中文领域事件抽取方法，包括从领域数据库中选择原始领域语料，构造领域数据集和专业词表，训练militaryBERT模型；对事件抽取数据集的输入语料采用militaryBERT模型、依存句法分析工具DDParser和词性分析工具Jieba进行数据预处理，得到最终的原始特征表示。本中文领域事件抽取方法采用militaryBERT模型、句法依存分析和词性分析对事件抽取数据集的输入语料进行数据预处理，得到原始特征表示，增强了事件抽取模型上下文语义表示能力；本中文领域事件抽取方法通过构建包括第一特征提取网络和第二特征提取网络的事件抽取模型，并通过对各特征提取网络提取后的特征进行融合，有效提高事件抽取的准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文领域事件抽取方法

[0001]本专利技术属于自然语言处理和知识图谱领域，具体涉及一种中文领域事件抽取方法。

技术介绍

[0002]事件抽取任务主要包括事件类型识别、触发词识别、论元和论元角色识别4类，本专利技术提到的领域事件抽取方法主要适用于事件类型识别和事件触发词检测任务。
[0003]事件抽取方法主要包括三类：基于规则的方法依赖领域专家制定事件抽取规则，在特定领域具有较高的准确性，但是耗费的人力较大且可移植性较差。基于机器学习的方法将事件抽取任务建模为多分类问题，通过大量的语料训练多个不同的模型，存在数据集获取困难和误差传递的问题。基于深度学习的方法大多将事件抽取建模为端到端的模型，使用包含丰富特征的词向量作为输入，利用模型自动提取任务需要的深度特征，有效避免了复杂的人工工作。
[0004]现有的基于深度学习的事件抽取方法默认训练集和验证集上的标签是正确的，且大多在英文数据集上取得较好的效果，部分原因是英文是以单词为最小表意单元，且不同单词之间以空格隔开，将上述模型迁移到中文场景时，首先需要对输入的中文文本进行分词，分词的效果直接影响后续模型事件抽取的精度。使用的神经网络模型包括卷积神经网络、循环神经网络等。但在实际场景下，数据集会存在标注误差，而现有的技术并没有考虑此点，所使用的方法和技术有待完善。

技术实现思路

[0005]本专利技术的目的在于针对解决
技术介绍
中提出的问题，提出一种中文领域事件抽取方法。
[0006]为实现上述目的，本专利技术所采取的技术方案为：...

【技术保护点】

【技术特征摘要】
1.一种中文领域事件抽取方法，其特征在于：所述中文领域事件抽取方法，包括：从领域数据库中选择原始领域语料，构造领域数据集和专业词表，训练militaryBERT模型；对事件抽取数据集的输入语料采用militaryBERT模型、依存句法分析工具DDParser和词性分析工具Jieba进行数据预处理，得到最终的原始特征表示；构建包括两个不同的特征提取网络的事件抽取模型，将原始特征表示和输入语料依次输入至第一特征提取网络和第二特征提取网络，根据各事件类别数量调整对应的损失权重，利用梯度误差反向传播算法训练事件抽取模型；设置新的分类阈值，将输入语料输入至训练好的事件抽取模型中，并基于条件概率预测事件类型。2.如权利要求1所述的中文领域事件抽取方法，其特征在于：所述对事件抽取数据集的输入语料采用militaryBERT模型进行数据预处理，得到最终的原始特征表示，包括：利用militaryBERT模型对事件抽取数据集的输入语料进行实体识别，根据识别结果在输入语料对应实体的前后位置添加标志符号，且添加的标志符号和识别出的实体类型一一对应，利用militaryBERT模型对当前字符序列进行编码，得到字符级的字符编码向量；利用依存句法分析工具DDParser构造句法单位之间的依存句法分析树，将当前从属词的每一个字指向支配词的字符串序列id，对得到的依存标签信息进行编码，得到字符级的依存标签编码向量；利用词性分析工具Jieba对输入语料进行词性分析，将当前词的词性标签赋给构成当前词的每一个字符，对得到的词性标签信息进行编码，得到字符级的词性标签编码向量；将字符级的字符编码向量、字符级的依存标签编码向量和字符级的词性标签编码向量按照字符序列进行拼接得到最终的原始特征表示。3.如权利要求1所述的中文领域事件抽取方法，其特征在于：所述构建包括两个不同的特征提取网络的事件抽取模型，将原始特征表示和输入语料依次输入至第一特征提取网络和第二特征提取网络，包括：第一特征提取网络的设计如下：第一层为双向的LSTM层，将原始特征表示输入，捕获目标词上下文的时序信息；第二层为第一全连接层，用来整合提取到的文本深度特征，并将深度特征转换为规则矩阵；第三层为多层图神经网络，通过更新依存句法分析树中各字符之间的权重矩阵更新图神经网络的边，通过以下公式调整当前层使用的图神经网络的个数：其中，A表示邻接矩阵；A
ij
表示节点i到节点j之前有一条单向边，W
l
表示第l层图神经网络的权重矩阵，b
...

【专利技术属性】
技术研发人员：郎彬，雷达，瞿崇晓，张永晋，余华峰，金磊，范长军，陈久红，丁尧，胡天祥，余丽仙，杨志杰，
申请(专利权)人：中国电子科技集团公司第五十二研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人