【技术实现步骤摘要】
一种基于实体和关系联合学习的矿工违规行为知识抽取方法
[0001]本专利技术涉及煤矿勘探开发
,具体涉及一种基于实体和关系联合学习的矿工违规行为知识抽取方法。
技术介绍
[0002]目前煤矿主要以文档等非结构化数据形式存储矿工违规行为知识,计算机无法理解这些知识,因此不能够被计算机用于矿工违规行为识别。手动整合这些专业性的资料与文献,工程量巨大。
[0003]命名实体识别是知识抽取任务的初始步骤。目前,对命名实体识别的研究已有很多,但与通用领域相比,矿工违规行为领域的资料由于包含煤矿地理信息以及大量专有名词,其信息抽取任务难点在于命名实体具有一词多义或多词同义的现象,并且不同的命名实体间存在一定语义关系,这些语义关系对实体识别有很大影响。矿工违规行为领域的命名实体识别任务,依然面临极大挑战。传统的基于规则与统计的方法需要人工提取特征,虽然相较于手动抽取实体的方式有所改进,但仍耗费大量的时间与人力,且特征的选择决定着模型的上限。随着深度网络模型在自然语言处理方面的巨大成功,促使大量命名实体识别开始使用不依赖专家构造特征的深度学习技术从非结构化的文本中自动识别出实体。但对矿工违规行为领域的强领域性文本来说,不同的模型的设计方式会对识别效果产生不同影响。
[0004]在知识抽取任务中,命名实体识别可提供文本中术语相关的信息,但提供的信息较为有限,而实体间关系蕴含着大量的知识以及丰富的语义信息,故关系抽取在知识抽取中常常承接在实体识别任务之后。目前深度学习已应用于关系抽取领域。卷积神经网络在时序特征的提 ...
【技术保护点】
【技术特征摘要】
1.一种基于实体和关系联合学习的矿工违规行为知识抽取方法,其特征在于,包括如下步骤:S1:数据标注:标注输入句子中的实体以及实体之间的关系,从而得到三元组结果;S2:预处理:在模型训练前对训练数据进行jieba分词处理;S3:投影:为丰富句子的语义信息,通过三种分布式模型,对分词处理后的训练数据进行编码;S4:设计网络模型,学习训练数据的嵌套结构及与标签间的潜在依存关系:提出增强模型,增强模型在原始模型的基础上将双向LSTM嵌入于自注意力机制中,以更好的提取文本与标签的时序特征,无需对样本与标签特征进行编码与解码的单独学习,而是使用深层网络学习文本特征,使用最大似然得到序列的标签;S5:将文本与标签一同作为网络输入进行特征提取,为探究深度模型对依赖特征学习的性能,分别使用CRF层与Softmax层对实体进行分类。2.根据权利要求1所述的基于实体和关系联合学习的矿工违规行为知识抽取方法,其特征在于,步骤S3具体包括:S31:使用Word to Vector对分词处理结果进行映射得到字向量与词向量并进行联合训练,为提升低频词表示的准确率,将更细粒度的字向量引入词表示中,与词向量一同使用改进的Continuous Bag
‑
Of
‑
Words模型联合训练出新的词表示模型;S32:为学习词级的上下文信息及句子结构信息,使用Fasttext训练词向量;S33:为学习词间共现信息,使用全局词向量对词进行分布式学习;S34:提取相对位置信息:使用注意力机制对特征进行提取,而注意力机制本身无法区分不同的位置特征,因此加入每一个字的位置编码信息;S35:将步骤S31、S32、S33得到的向量进行串联并加入步骤S34的位置编码信息,生成新的投影向量,为避免由于信息重复抽取导致的数据偏移,在拼接好的向量后加入全连接层,引入一个权重矩阵,对输入进行降维;在全连接层后加入dropout层,以一定概率临时扔掉一些神经元节点,从而使得每次都在训练不同结构的网络。3.根据权利要求2所述的基于实体和关系联合学习的矿工违规行为知识抽取方法,其特征在于,步骤S31中Continuous Bag
‑
Of
‑
Words模型改进公式如下:其中,x
j
为输出,w
j
为权重,N
j
为文本中的中文数量,c
k
为字编码,系数保证了字向量与词向量计算词语距离的一致性,为了简化模型,仅对上下文部分引入字向量信息,即最终的target信息是由字向量与词向量的组合信息预测得到。4.根据权利要求1所述的基于实体和关系联合学习的矿工违规行为知识抽取方法,其特征在于,步骤S4增强模型具体包括:S41:基于双向LSTM的注意力层:双向LSTM是前向LSTM与反向LSTM结果的拼接,可有效利用文本序列的上下文信息,将注意力机制与双向LSTM进行结合,可有效解决注意力机制在时序特征提取方面的不足,基于LSTM的注意力层的计算公式如下:
e
ki
...
【专利技术属性】
技术研发人员:史新国,刘柯,冯仕民,刘业献,翟勃,谢亚波,王卫龙,
申请(专利权)人:徐州工程学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。