一种基于实体和关系联合学习的矿工违规行为知识抽取方法技术

技术编号:32832825 阅读:34 留言:0更新日期:2022-03-26 20:48
本发明专利技术公开了一种基于实体和关系联合学习的矿工违规行为知识抽取方法,包括:数据标注,识别输入句子中的实体以及实体之间的关系,从而得到三元组结果;预处理,在模型训练前对训练数据进行分词处理;投影,为丰富句子的语义信息,通过三种分布式模型,对输入语句进行编码;设计网络模型,学习输入语料的嵌套结构及与标签间的潜在依存关系;将文本与标签一同作为网络输入进行特征提取,分别使用CRF层与Softmax层对实体进行分类。本发明专利技术通过对实体识别和关系抽取两个任务进行共同学习,在不同任务的学习过程中共享学习参数与特征信息,优化知识抽取效果。优化知识抽取效果。优化知识抽取效果。

【技术实现步骤摘要】
一种基于实体和关系联合学习的矿工违规行为知识抽取方法


[0001]本专利技术涉及煤矿勘探开发
,具体涉及一种基于实体和关系联合学习的矿工违规行为知识抽取方法。

技术介绍

[0002]目前煤矿主要以文档等非结构化数据形式存储矿工违规行为知识,计算机无法理解这些知识,因此不能够被计算机用于矿工违规行为识别。手动整合这些专业性的资料与文献,工程量巨大。
[0003]命名实体识别是知识抽取任务的初始步骤。目前,对命名实体识别的研究已有很多,但与通用领域相比,矿工违规行为领域的资料由于包含煤矿地理信息以及大量专有名词,其信息抽取任务难点在于命名实体具有一词多义或多词同义的现象,并且不同的命名实体间存在一定语义关系,这些语义关系对实体识别有很大影响。矿工违规行为领域的命名实体识别任务,依然面临极大挑战。传统的基于规则与统计的方法需要人工提取特征,虽然相较于手动抽取实体的方式有所改进,但仍耗费大量的时间与人力,且特征的选择决定着模型的上限。随着深度网络模型在自然语言处理方面的巨大成功,促使大量命名实体识别开始使用不依赖专家构造特征的深度学习技术从非结构化的文本中自动识别出实体。但对矿工违规行为领域的强领域性文本来说,不同的模型的设计方式会对识别效果产生不同影响。
[0004]在知识抽取任务中,命名实体识别可提供文本中术语相关的信息,但提供的信息较为有限,而实体间关系蕴含着大量的知识以及丰富的语义信息,故关系抽取在知识抽取中常常承接在实体识别任务之后。目前深度学习已应用于关系抽取领域。卷积神经网络在时序特征的提取上略有欠缺。循环神经网络通过更改神经元之间的连接方式以及基于时间的反向传播算法解决了神经网络对时序特征提取上的不足,但无法并行化,传播相对卷积网络较为耗时。关于关系抽取的研究目前大部分停留在基于命名实体识别的结果之上,故命名实体识别的错误会传播至关系抽取任务中,实体间的关系信息会对实体的识别具有一定影响,而单纯的实体识别,忽略了两个子任务之间的交互信息。
[0005]目前,大多机器学习研究都针对于某一个特定的任务,构建特定的学习模型从而解决该特定任务。但许多任务并不是完全独立的,他们之间具有丰富的关联信息。以命名实体识别与关系抽取为例,大多数研究者将这两个任务视为两个独立的子任务分别进行特征提取与识别,忽略了二者间的共享信息,并易导致错误传播等问题。

技术实现思路

[0006]为了克服知识抽取任务中错误传播问题,本专利技术提供一种基于实体和关系联合学习的矿工违规行为知识抽取方法,联合学习通过一个模型,对实体识别和关系抽取两个任务进行共同学习,在不同任务的学习过程中共享学习参数与特征信息,优化知识抽取效果。为了实现上述技术目的,本专利技术采用如下技术方案:
[0007]一种基于实体和关系联合学习的矿工违规行为知识抽取方法,包括如下步骤:
[0008]S1:数据标注:标注输入句子中的实体以及实体之间的关系,从而得到三元组结果;
[0009]S2:预处理:在模型训练前对训练数据进行jieba分词处理;
[0010]S3:投影:为丰富句子的语义信息,通过三种分布式模型,对分词处理后的训练数据进行编码;
[0011]S4:设计网络模型,学习训练数据的嵌套结构及与标签间的潜在依存关系:提出增强模型,增强模型在原始模型的基础上将双向LSTM嵌入于自注意力机制中,以更好的提取文本与标签的时序特征,无需对样本与标签特征进行编码与解码的单独学习,而是使用深层网络学习文本特征,使用最大似然得到序列的标签;
[0012]S5:将文本与标签一同作为网络输入进行特征提取,为探究深度模型对依赖特征学习的性能,分别使用CRF层与Softmax层对实体进行分类。
[0013]优选地,步骤S3具体包括:
[0014]S31:使用Word to Vector对分词处理结果进行映射得到字向量与词向量并进行联合训练,为提升低频词表示的准确率,将更细粒度的字向量引入词表示中,与词向量一同使用改进的Continuous Bag

Of

Words模型联合训练出新的词表示模型;
[0015]S32:为学习词级的上下文信息及句子结构信息,使用Fasttext训练词向量;
[0016]S33:为学习词间共现信息,使用全局词向量对词进行分布式学习;
[0017]S34:提取相对位置信息:使用注意力机制对特征进行提取,而注意力机制本身无法区分不同的位置特征,因此加入每一个字的位置编码信息;
[0018]S35:将步骤S31、S32、S33得到的向量进行串联并加入步骤S34的位置编码信息,生成新的投影向量,为避免由于信息重复抽取导致的数据偏移,在拼接好的向量后加入全连接层,引入一个权重矩阵,对输入进行降维;在全连接层后加入dropout层,以一定概率临时扔掉一些神经元节点,从而使得每次都在训练不同结构的网络。
[0019]优选地,步骤S31中Continuous Bag

Of

Words模型改进公式如下:
[0020][0021]其中,x
j
为输出,w
j
为权重,N
j
为文本中的中文数量,c
k
为字编码,系数保证了字向量与词向量计算词语距离的一致性,为了简化模型,仅对上下文部分引入字向量信息,即最终的target信息是由字向量与词向量的组合信息预测得到。
[0022]优选地,步骤S4增强模型具体包括:
[0023]S41:基于双向LSTM的注意力层:双向LSTM是前向LSTM与反向LSTM结果的拼接,可有效利用文本序列的上下文信息,将注意力机制与双向LSTM进行结合,可有效解决注意力机制在时序特征提取方面的不足,基于LSTM的注意力层的计算公式如下:
[0024][0025]e
ki
=v tanh(Wh
k
+Uh
i
+b)
[0026][0027]h
k'
=H(Ch
k'
X')
[0028]其中,T为输入序列的长度;e
ki
为第i个节点对第k个节点的注意力得分;W和U为权重矩阵,v和b为系数,α
ki
为第i个节点对第k个节点的注意力权重;h
i
为前向隐层序列的第i个向量;H为转换矩阵,X'为输入,h
k
为反向隐层序列的第k个向量;C为语义编码;h
k'
为最终的特征向量;
[0029]S42:非线性映射层:该部分的前馈子层由ReLU连接的两个线性层组成,计算公式如下:
[0030]FFN(X)=ReLU(XW1)W2[0031]其中与是可训练的权重矩阵,d和h
f
表示矩阵行列数,X为前馈神经网络层输入矩阵;FFN(X)表示前馈神经网络映射结果;
[0032]S43:使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于实体和关系联合学习的矿工违规行为知识抽取方法,其特征在于,包括如下步骤:S1:数据标注:标注输入句子中的实体以及实体之间的关系,从而得到三元组结果;S2:预处理:在模型训练前对训练数据进行jieba分词处理;S3:投影:为丰富句子的语义信息,通过三种分布式模型,对分词处理后的训练数据进行编码;S4:设计网络模型,学习训练数据的嵌套结构及与标签间的潜在依存关系:提出增强模型,增强模型在原始模型的基础上将双向LSTM嵌入于自注意力机制中,以更好的提取文本与标签的时序特征,无需对样本与标签特征进行编码与解码的单独学习,而是使用深层网络学习文本特征,使用最大似然得到序列的标签;S5:将文本与标签一同作为网络输入进行特征提取,为探究深度模型对依赖特征学习的性能,分别使用CRF层与Softmax层对实体进行分类。2.根据权利要求1所述的基于实体和关系联合学习的矿工违规行为知识抽取方法,其特征在于,步骤S3具体包括:S31:使用Word to Vector对分词处理结果进行映射得到字向量与词向量并进行联合训练,为提升低频词表示的准确率,将更细粒度的字向量引入词表示中,与词向量一同使用改进的Continuous Bag

Of

Words模型联合训练出新的词表示模型;S32:为学习词级的上下文信息及句子结构信息,使用Fasttext训练词向量;S33:为学习词间共现信息,使用全局词向量对词进行分布式学习;S34:提取相对位置信息:使用注意力机制对特征进行提取,而注意力机制本身无法区分不同的位置特征,因此加入每一个字的位置编码信息;S35:将步骤S31、S32、S33得到的向量进行串联并加入步骤S34的位置编码信息,生成新的投影向量,为避免由于信息重复抽取导致的数据偏移,在拼接好的向量后加入全连接层,引入一个权重矩阵,对输入进行降维;在全连接层后加入dropout层,以一定概率临时扔掉一些神经元节点,从而使得每次都在训练不同结构的网络。3.根据权利要求2所述的基于实体和关系联合学习的矿工违规行为知识抽取方法,其特征在于,步骤S31中Continuous Bag

Of

Words模型改进公式如下:其中,x
j
为输出,w
j
为权重,N
j
为文本中的中文数量,c
k
为字编码,系数保证了字向量与词向量计算词语距离的一致性,为了简化模型,仅对上下文部分引入字向量信息,即最终的target信息是由字向量与词向量的组合信息预测得到。4.根据权利要求1所述的基于实体和关系联合学习的矿工违规行为知识抽取方法,其特征在于,步骤S4增强模型具体包括:S41:基于双向LSTM的注意力层:双向LSTM是前向LSTM与反向LSTM结果的拼接,可有效利用文本序列的上下文信息,将注意力机制与双向LSTM进行结合,可有效解决注意力机制在时序特征提取方面的不足,基于LSTM的注意力层的计算公式如下:
e
ki
...

【专利技术属性】
技术研发人员:史新国刘柯冯仕民刘业献翟勃谢亚波王卫龙
申请(专利权)人:徐州工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1