基于毒品案件法律文书的实体及关系联合抽取方法技术

技术编号:23891818 阅读:60 留言:0更新日期:2020-04-22 06:46
本发明专利技术涉及一种实体及关系的联合抽取方法,一种基于毒品案件法律文书的实体及关系联合抽取方法,包括以下步骤:(1)建立数据集,(2)搭建联合抽取模型,(3)训练联合抽取模型,(4)测试联合抽取模型,(5)结果讨论,(6)封装联合抽取模型。本发明专利技术方法使用单个模型将实体与关系一起提取,可以有效地整合实体和关系的信息,并且避免了流水线方法存在的错误积累等问题,利用神经网络模型,减少了特征提取中的人工参与,利用注意力机制,关注了每个词对抽取结果的贡献,提高了抽取结果的准确性。

【技术实现步骤摘要】
基于毒品案件法律文书的实体及关系联合抽取方法
本专利技术涉及一种实体及关系的联合抽取方法,更具体地说,涉及一种基于毒品案件法律文书的实体及关系联合抽取方法。
技术介绍
现有的进行信息抽取的方法一般是采用流水线方法,即输入一个句子,首先进行命名实体识别,然后对识别出来的实体进行两两组合,再进行关系分类,最后把存在实体关系的三元组作为输出,但流水线方法还存在以下缺点:(1)错误积累,流水线方式的前后两步是密切相关的,如果第一步的命名实体识别产生了一定的错误,在关系分类时,这种错误的命名实体会被继续利用而导致错误进一步被积累、放大;(2)产生了过多的无用信息,因为第一步被识别出的命名实体都要被两两组合再进行关系分类,而在这些实体组合中,更多的是两实体之间没有关系或者两实体之间的关系并没有被预测正确,这就会带来很多的错误信息。
技术实现思路
为了克服现有技术中存在的不足,本专利技术目的是提供一种基于毒品案件法律文书的实体及关系联合抽取方法。与流水线方法不同,该联合抽取方法使用单个模型将实体与关系一起提取,可以有效地整本文档来自技高网...

【技术保护点】
1.一种基于毒品案件法律文书的实体及关系联合抽取方法,其特征在于包括以下步骤:/n步骤1、建立数据集,将获取的毒品案件数据进行标注处理,确定模型进行一次训练需要的毒品案件数据的数量,每次训练都随机挑选相应毒品案件数据作为模型的输入,具体包括以下子步骤:/n(a)、获取毒品案件数据,在已有的毒品案件数据中获得包含非法持有毒品、贩卖毒品和容留他人吸食毒品的刑事判决书,分析刑事判决书文法结构,抽取出刑事判决书中的案情描述作为数据集,获得有效毒品案件数据2098份;然后,按照7:3的比例划分训练集与测试集,训练集与测试集具有相同的数据格式,按照相同的过程完成预处理;/n(b)、进行标注,根据任务的特点...

【技术特征摘要】
1.一种基于毒品案件法律文书的实体及关系联合抽取方法,其特征在于包括以下步骤:
步骤1、建立数据集,将获取的毒品案件数据进行标注处理,确定模型进行一次训练需要的毒品案件数据的数量,每次训练都随机挑选相应毒品案件数据作为模型的输入,具体包括以下子步骤:
(a)、获取毒品案件数据,在已有的毒品案件数据中获得包含非法持有毒品、贩卖毒品和容留他人吸食毒品的刑事判决书,分析刑事判决书文法结构,抽取出刑事判决书中的案情描述作为数据集,获得有效毒品案件数据2098份;然后,按照7:3的比例划分训练集与测试集,训练集与测试集具有相同的数据格式,按照相同的过程完成预处理;
(b)、进行标注,根据任务的特点即需要同时标出毒品案件的实体及关系编写一个标注格式软件进行标注,该标注格式软件包含实体标签和关系标签,标注者在一次标注中,同时标出两个实体以及两个实体之间的关系,标注后的实体和关系信息存储在相应的xml文件中;
(c)、标注后进行处理,存储在xml文件中的已有实体标签仅包含实体信息,不包含关系信息,经过处理就是将关系信息融合到实体标签中,在每一个实体标签中加入位置信息与关系信息,处理成为新的标签,再将所有新的标签存储;
(d)、存储司法文本词汇表,为了将司法文本进行序列化,利用大语料库建立一个司法文本词汇表,再将训练集中的所有字词在司法文本词汇表中进行映射,每个词获得一个ID;
(e)、产生批量数据,运用神经网络进行模型训练时,由于所采用的参数优化方法为随机梯度下降,因此需要将批量毒品案件数据送入模型,为了减小局部毒品案件数据的其他因素影响,编写函数随机选择了相应数量的毒品案件数据作为模型的输入;
步骤2、搭建联合抽取模型,根据司法文本本身的特点并结合自然语言处理领域的经典框架,搭建合适的联合抽取模型结构,具体包括以下子步骤:
(a)、在词嵌入阶段,首先进行分词,再使用word2vec方法中的skip-ngram模型训练256维的词向量,同时,对词中的每一个字随机产生一个256维的向量作为字向量,然后对该字序列利用三层卷积神经网络进行训练获得50维的隐层状态输出,将输出的50维向量与原来的词向量拼接而成的新向量作为该词的词向量;
(b)、模型的框架是编解码器框架,编码器对输入毒品案件数据进行编码处理,将输入句子通过神经网络的变换转变为中间语义向量,解码器会根据中间语义向量和历史信息来生成对应时刻要生成的单词;
(c)、编码阶段,模型使用的是卷积神经网络进行计算,n核的卷积神经网络相当于n元语言模型,且卷积核层次越高,关注到的相邻语义信息越充分;解码阶段,由于毒品案件数据集小,使用门循环神经网络进行计算,通过公式(l)至公式(5)进行描述,
rt=σ(Wr·[ht-1,xt])(1)
式中,rt表示重置门,重置门控制前一状态有多少信息被写入到当前的候选集,σ表示sigmoid函数,xt表示t时刻的输入毒品案件数据,ht-1表示t-1时刻对应的神经网络的隐藏层输出,Wr表示重置门参数,由模型训练得到,
zt=σ(Wz·[ht-1,xt])(2)
式中,zt表示更新门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,Wz表示更新门参数,由模型训练得到,



式中,表示当前时刻隐藏层输出的一个候选集,表示候选集参数,由模型训练得到,



式中,ht表示t时刻对应的神经网络的隐藏层的最后状态,
yt=σ(Wo·ht)(5)
式中,yt表示t时刻对应的神经网络的最后输出,Wo表示输出门参数,由模型训练得到;
(d)、在编解码器框架中,对于每一个生成的词,输入句子中的每个词的贡献相同,因此模型在输出阶段利用注意力机制,为每一个不同的输入词计算出不同的权重,以此表示出该词对结果的影响程度,...

【专利技术属性】
技术研发人员:孙媛媛宋文辉陈彦光
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1