一种中文领域事件抽取方法技术

技术编号:37359321 阅读:17 留言:0更新日期:2023-04-27 07:08
本发明专利技术公开了一种中文领域事件抽取方法,包括从领域数据库中选择原始领域语料,构造领域数据集和专业词表,训练militaryBERT模型;对事件抽取数据集的输入语料采用militaryBERT模型、依存句法分析工具DDParser和词性分析工具Jieba进行数据预处理,得到最终的原始特征表示。本中文领域事件抽取方法采用militaryBERT模型、句法依存分析和词性分析对事件抽取数据集的输入语料进行数据预处理,得到原始特征表示,增强了事件抽取模型上下文语义表示能力;本中文领域事件抽取方法通过构建包括第一特征提取网络和第二特征提取网络的事件抽取模型,并通过对各特征提取网络提取后的特征进行融合,有效提高事件抽取的准确性。性。性。

【技术实现步骤摘要】
一种中文领域事件抽取方法


[0001]本专利技术属于自然语言处理和知识图谱领域,具体涉及一种中文领域事件抽取方法。

技术介绍

[0002]事件抽取任务主要包括事件类型识别、触发词识别、论元和论元角色识别4类,本专利技术提到的领域事件抽取方法主要适用于事件类型识别和事件触发词检测任务。
[0003]事件抽取方法主要包括三类:基于规则的方法依赖领域专家制定事件抽取规则,在特定领域具有较高的准确性,但是耗费的人力较大且可移植性较差。基于机器学习的方法将事件抽取任务建模为多分类问题,通过大量的语料训练多个不同的模型,存在数据集获取困难和误差传递的问题。基于深度学习的方法大多将事件抽取建模为端到端的模型,使用包含丰富特征的词向量作为输入,利用模型自动提取任务需要的深度特征,有效避免了复杂的人工工作。
[0004]现有的基于深度学习的事件抽取方法默认训练集和验证集上的标签是正确的,且大多在英文数据集上取得较好的效果,部分原因是英文是以单词为最小表意单元,且不同单词之间以空格隔开,将上述模型迁移到中文场景时,首先需要对输入的中文文本进行分词,分词的效果直接影响后续模型事件抽取的精度。使用的神经网络模型包括卷积神经网络、循环神经网络等。但在实际场景下,数据集会存在标注误差,而现有的技术并没有考虑此点,所使用的方法和技术有待完善。

技术实现思路

[0005]本专利技术的目的在于针对解决
技术介绍
中提出的问题,提出一种中文领域事件抽取方法。
[0006]为实现上述目的,本专利技术所采取的技术方案为:
[0007]本专利技术提出的一种中文领域事件抽取方法,包括从领域数据库中选择原始领域语料,构造领域数据集和专业词表,训练militaryBERT模型。
[0008]对事件抽取数据集的输入语料采用militaryBERT模型、依存句法分析工具DDParser和词性分析工具Jieba进行数据预处理,得到最终的原始特征表示。
[0009]构建包括两个不同的特征提取网络的事件抽取模型,将原始特征表示和输入语料依次输入至第一特征提取网络和第二特征提取网络,根据各事件类别数量调整对应的损失权重,利用梯度误差反向传播算法训练事件抽取模型。
[0010]设置新的分类阈值,将输入语料输入至训练好的事件抽取模型中,并基于条件概率预测事件类型。
[0011]优选地,对事件抽取数据集的输入语料采用militaryBERT模型进行数据预处理,得到最终的原始特征表示,包括:
[0012]利用militaryBERT模型对事件抽取数据集的输入语料进行实体识别,根据识别结
果在输入语料对应实体的前后位置添加标志符号,且添加的标志符号和识别出的实体类型一一对应,利用militaryBERT模型对当前字符序列进行编码,得到字符级的字符编码向量。
[0013]利用依存句法分析工具DDParser构造句法单位之间的依存句法分析树,将当前从属词的每一个字指向支配词的字符串序列id,对得到的依存标签信息进行编码,得到字符级的依存标签编码向量。
[0014]利用词性分析工具Jieba对输入语料进行词性分析,将当前词的词性标签赋给构成当前词的每一个字符,对得到的词性标签信息进行编码,得到字符级的词性标签编码向量。
[0015]将字符级的字符编码向量、字符级的依存标签编码向量和字符级的词性标签编码向量按照字符序列进行拼接得到最终的原始特征表示。
[0016]优选地,构建包括两个不同的特征提取网络的事件抽取模型,将原始特征表示和输入语料依次输入至第一特征提取网络和第二特征提取网络,包括:
[0017]第一特征提取网络的设计如下:
[0018]第一层为双向的LSTM层,将原始特征表示输入,捕获目标词上下文的时序信息;
[0019]第二层为第一全连接层,用来整合提取到的文本深度特征,并将深度特征转换为规则矩阵;
[0020]第三层为多层图神经网络,通过更新依存句法分析树中各字符之间的权重矩阵更新图神经网络的边,通过以下公式调整当前层使用的图神经网络的个数:
[0021][0022]其中,A表示邻接矩阵;A
ij
表示节点i到节点j之前有一条单向边,W
l
表示第l层图神经网络的权重矩阵,b
l
表示第l层图神经网络的偏置矩阵,表示第(l

1)层图神经网络关于j节点的隐层状态,表示第l层图神经网络关于j节点的隐层状态,σ表示ReLU激活函数,pooling表示池化操作;
[0023]第四层为第二全连接层,用于将多层图神经网络的输出维度压缩为类型个数加一的大小。
[0024]第二特征提取网络的设计如下:
[0025]第一层为militaryBERT模型,将事件抽取数据集的输入语料输入,利用多头自注意力机制捕捉字级别的语义特征,并转换成高维动态字向量;
[0026]第二层为CRF层,学习标签间的关系,提高预测精度。
[0027]将第一特征提取网络的输出和第二特征提取网络的输出进行拼接。
[0028]且在训练利事件抽取模型时,利用梯度误差反向传播算法对第一特征提取网络和第二特征提取网络进行联合训练。
[0029]优选地,根据各事件类别数量调整对应的损失权重,包括:
[0030]事件抽取模型的总体损失函数为:
[0031]loss=αloss1+(1

α)loss2
[0032]其中,α表示超参数,loss1表示第一特征提取网络的损失,loss2表示第二特征提取网络的损失。
[0033]根据各事件类别数量预设损失权重:
[0034][0035]其中,W
p
表示当前第p类事件的损失权重,n
p
表示当前第p类事件的数量,m表示事件类别的个数。
[0036]且第一特征提取网络和第二特征提取网络的损失为:
[0037][0038]其中,W表示当前输入语料所属事件类别的损失权重,X
i
表示当前输入语料真实的事件标签,表示当前输入语料预测的事件标签,k表示当前输入语料的个数。
[0039]优选地,设置新的分类阈值,将输入语料输入至训练好的事件抽取模型中,并基于条件概率预测事件类型,包括:
[0040]利用Softmax层对事件抽取模型输出进行归一化处理:
[0041][0042]其中,z表示Softmax层的输入向量,z
i
表示输入向量第i位对应的值,z
q
表示输入向量第q位对应的值。
[0043]修改每个事件类别的分类阈值:
[0044][0045]其中,θ
p
表示当前第p类事件的分类阈值,p∈m+1。
[0046]根据得到的概率分布,判断预测概率最大的事件类型中,预测的概率是否大于当前类别事件的分类阈值,若大于,则事件抽取模型预测输出为当前类别事件,否本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文领域事件抽取方法,其特征在于:所述中文领域事件抽取方法,包括:从领域数据库中选择原始领域语料,构造领域数据集和专业词表,训练militaryBERT模型;对事件抽取数据集的输入语料采用militaryBERT模型、依存句法分析工具DDParser和词性分析工具Jieba进行数据预处理,得到最终的原始特征表示;构建包括两个不同的特征提取网络的事件抽取模型,将原始特征表示和输入语料依次输入至第一特征提取网络和第二特征提取网络,根据各事件类别数量调整对应的损失权重,利用梯度误差反向传播算法训练事件抽取模型;设置新的分类阈值,将输入语料输入至训练好的事件抽取模型中,并基于条件概率预测事件类型。2.如权利要求1所述的中文领域事件抽取方法,其特征在于:所述对事件抽取数据集的输入语料采用militaryBERT模型进行数据预处理,得到最终的原始特征表示,包括:利用militaryBERT模型对事件抽取数据集的输入语料进行实体识别,根据识别结果在输入语料对应实体的前后位置添加标志符号,且添加的标志符号和识别出的实体类型一一对应,利用militaryBERT模型对当前字符序列进行编码,得到字符级的字符编码向量;利用依存句法分析工具DDParser构造句法单位之间的依存句法分析树,将当前从属词的每一个字指向支配词的字符串序列id,对得到的依存标签信息进行编码,得到字符级的依存标签编码向量;利用词性分析工具Jieba对输入语料进行词性分析,将当前词的词性标签赋给构成当前词的每一个字符,对得到的词性标签信息进行编码,得到字符级的词性标签编码向量;将字符级的字符编码向量、字符级的依存标签编码向量和字符级的词性标签编码向量按照字符序列进行拼接得到最终的原始特征表示。3.如权利要求1所述的中文领域事件抽取方法,其特征在于:所述构建包括两个不同的特征提取网络的事件抽取模型,将原始特征表示和输入语料依次输入至第一特征提取网络和第二特征提取网络,包括:第一特征提取网络的设计如下:第一层为双向的LSTM层,将原始特征表示输入,捕获目标词上下文的时序信息;第二层为第一全连接层,用来整合提取到的文本深度特征,并将深度特征转换为规则矩阵;第三层为多层图神经网络,通过更新依存句法分析树中各字符之间的权重矩阵更新图神经网络的边,通过以下公式调整当前层使用的图神经网络的个数:其中,A表示邻接矩阵;A
ij
表示节点i到节点j之前有一条单向边,W
l
表示第l层图神经网络的权重矩阵,b
...

【专利技术属性】
技术研发人员:郎彬雷达瞿崇晓张永晋余华峰金磊范长军陈久红丁尧胡天祥余丽仙杨志杰
申请(专利权)人:中国电子科技集团公司第五十二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1