当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于改进深度学习的司法实体识别方法技术

技术编号:23558614 阅读:19 留言:0更新日期:2020-03-25 04:07
本发明专利技术公开一种基于改进深度学习的司法实体识别方法,包括获取司法文本,并对文本格式进行规范处理并进行标记,获得数据集包括训练样本和测试样本;将所述训练样本输入司法实体识别模型进行训练;将待识别文本的测试样本输入训练后的司法实体识别模型,获得识别结果。本发明专利技术能够获取长距离上下文特征,获得更多的信息,提高了识别精度和范围;解决深度学习方法在司法识别中预测标签序列无效的问题,保证了识别的有效性和可靠性。

A method of judicial entity recognition based on improved deep learning

【技术实现步骤摘要】
一种基于改进深度学习的司法实体识别方法
本专利技术属于司法实体识别
,特别是涉及一种基于改进深度学习的司法实体识别方法。
技术介绍
司法领域中,司法文件存在数据量大,文件种类繁多等问题,所以实现司法领域中的信息自动化是司法领域发展的必然趋势。司法领域中的信息自动化可以减轻司法从业人员的工作负担,有助于提高司法行业办事效率,有利于实现司法领域的信息共享。近年来,随着新的自然语言处理技术的不断提出,以及司法领域实现司法信息自动化的迫切需要,越来越多的自然语言处理技术应用到司法领域中,如实体识别,关系抽取等。在法律案例文本中存在着大量的司法领域实体,这些司法领域实体的识别是实现司法领域信息自动化的基础,是后续实现司法信息抽取,构建司法领域知识图谱等技术的前提。因而,司法实体识别的研究对司法领域的发展显得尤为重要。目前,命名实体识别作为自然语言处理的一项基础研究,在很多领域都取得了大量的成果。但是由于中文相较于英文字符的特殊性,中文字符存在一词多义的现象以及中文字符词与词的联系比较紧密,中文领域实体识别的研究成果目前相对比较少。最早的命名实体方法包括基于词典和规则的方法,基于规则的方法需要专家手动创建规则模板,利用模式和字符串匹配识别命名实体。以上两类方法都对语料库的要求比较高,并且两类方法的可移植性也比较差。随着深度学习技术在自然语言处理中的应用越来越广泛,以及词的分布式表示的提出,基于深度学习的命名实体识别技术也取得了一些成果。然而,基于深度学习的方法根据一系列给定的特征独立的对每个字符进行预测,没有考虑上文已经预测的标签,这可能造成预测到的标签序列无效。目前常采用循环神经网络(RNN)是一种典型的处理序列化语句的深度学习网络模型,经实践证明,这种方法如果序列的长度过长,会导致出现梯度消失问题而无法继续进行优化;因此RNN存在长度依赖问题,并不能获取任意长度的上下文特征信息。
技术实现思路
为了解决上述问题,本专利技术提出了一种基于改进深度学习的司法实体识别方法,能够获取长距离上下文特征,获得更多的信息,提高了识别精度和范围;解决深度学习方法在司法识别中预测标签序列无效的问题,保证了识别的有效性和可靠性。为达到上述目的,本专利技术采用的技术方案是:一种基于改进深度学习的司法实体识别方法,包括;获取司法文本,并对文本格式进行规范处理并进行标记,获得数据集包括训练样本和测试样本;将所述训练样本输入司法实体识别模型进行训练;将待识别文本的测试样本输入训练后的司法实体识别模型,获得识别结果。进一步的是,对文本格式进行规范处理并进行标记过程中,先对文本进行去空格处理,然后再对文本进行标记获得文本序列。进一步的是,所述司法实体识别模型为具有条件随机场的双向长短期记忆模型,所述具有条件随机场的双向长短期记忆模型包括序列输入模块、前向长短期记忆模型模块、后向长短期记忆模型模块和条件随机场模块,所述序列输入模块、前向长短期记忆模型模块、后向长短期记忆模型模块和条件随机场模块依次连接。进一步的是,所述前向长短期记忆模型模块提取过去的特征,所述后向长短期记忆模型模块提取未来的特征;对同一个序列从左到右做一次长短期记忆特征提取,再从右到左做一次长短期记忆特征提取,得到双向语义信息的标签序列;解决了传统深度学习方法存在长度依赖问题,能获取任意长度的上下文特征信息;利用门机制改变到细胞状态的信息来保持信息传递的持久性,从而能够学到长距离上下文特征;能够编码从前到后的信息,也能编码从后到前的信息,可以得到双向的语义信息,提高识别的有效性。所述条件随机场模块连接至后向长短期记忆模型模块的隐层输出,对后向长短期记忆模型模块输出的标签序列联合解码,进行句子级的序列标注。为了解决从双向长短期记忆模型中输出的标签序列可能无效的问题,将条件随机场模块连接到双向长短期记忆模型的隐层输出,对双向长短期记忆模型输出的标签序列联合解码,进行句子级的序列标注,而不是单独解码每个标签。进一步的是,在所述司法实体识别模型中的处理过程包括步骤:由序列输入模块查找输入的文本序列中每个字符对应的字符向量,将查找得到的字符向量序列输入前向长短期记忆模型模块和后向长短期记忆模型模块;分别通过前向长短期记忆模型模块和后向长短期记忆模型模块得到字符向量的隐层编码表示;通过条件随机场模块为每个字符分配标记,计算两类分数;输出标记序列为总分最高的序列。进一步的是,所述前向长短期记忆模型模块和后向长短期记忆模型模块的结构相同,包括三个用sigmod作为激活函数的门结构及一个细胞状态单元,三个门结构分别为输入门、遗忘门和输出门;其工作流程为:ft=σ(Wf[ht-1,xt]+bf);it=σ(Wi[ht-1,xt]+bi);Ot=σ(Wo[ht-1,xt]+bo);ht=Ot*tanh(Ct);其中,当前时刻的输入为xt;前一时刻的隐层状态为ht-1;当前时刻的隐层状态为ht;临时细胞状态为当前时刻细胞状态为Ct;上一刻细胞状态为Ct-1;遗忘门的作用是选择要遗忘的信息,遗忘门的输入为ht-1和xt,输出为遗忘门的值ft;计算当前时刻细胞状态,输入的值为it、ft、和Ct-1,输出为当前时刻细胞状态Ct;计算输出门和当前时刻隐层状态,输入为ht-1、xt和Ct,输出为输出门的值Ot以及隐层状态ht;最终,得到与句子长度相同的隐层状态序列{h0,h1…ht-1}。进一步的是,所述条件随机场模块用于计算整个序列的联合概率;所述条件随机场模块的参数化形式定义如下:式中,tk、δl是特征函数,λk、μl为相应的权重,Zx是规范因子;其中;Z(x)=∑yexp(∑i,kλktk(yi-1,yi,x,i)+∑i,jμlδl(yi,x,i));通过上式根据输入序列x,得到输出序列y的条件概率;tk是定义在边上的特征函数,称为转移特征,依靠当前词及前一个词判断是否符合该特征,由当前位置及前一个位置决定;δl是定义在节点上的特征函数,称为状态特征,由当前位置决定;通常,特征函数的取值为1或0;当条件满足时取1,条件不满足时取0;条件随机场模块输出结果完全由特征函数tk、δl以及λk、μl决定。进一步的是,条件随机场模块可以通过从训练样本学习到一些约束,以确保最终预测到的实体标签序列是有效的,从而解决基于神经网络方法的预测标签序列可能无效的问题。在条件随机场模块的损失函数中,输出分数最大的序列为标签预测序列,假设给定序列X,设序列标注结果为y,则定义分数为:其中,P是双向长短期记忆模型隐层输出经线性操作后得到的初试得分矩阵,A是转换得分矩阵;Ai,j为标签后面的标签为标签的概率,Pi,j为词Wi映射到标签的概率;对输入序列X对应的输出标签序列y计算分数,最终的预测标签序列为得分最高的序列。进一步的是,所述数据集包括训练样本、验证样本和测试样本;由验证样本文档来自技高网
...

【技术保护点】
1.一种基于改进深度学习的司法实体识别方法,其特征在于,包括;/n获取司法文本,并对文本格式进行规范处理并进行标记,获得数据集包括训练样本和测试样本;/n将所述训练样本输入司法实体识别模型进行训练;/n将待识别文本的测试样本输入训练后的司法实体识别模型,获得识别结果。/n

【技术特征摘要】
1.一种基于改进深度学习的司法实体识别方法,其特征在于,包括;
获取司法文本,并对文本格式进行规范处理并进行标记,获得数据集包括训练样本和测试样本;
将所述训练样本输入司法实体识别模型进行训练;
将待识别文本的测试样本输入训练后的司法实体识别模型,获得识别结果。


2.根据权利要求1所述的一种基于改进深度学习的司法实体识别方法,其特征在于,对文本格式进行规范处理并进行标记过程中,先对文本进行去空格处理,然后再对文本进行标记获得文本序列。


3.根据权利要求2所述的一种基于改进深度学习的司法实体识别方法,其特征在于,所述司法实体识别模型为具有条件随机场的双向长短期记忆模型,所述具有条件随机场的双向长短期记忆模型包括序列输入模块、前向长短期记忆模型模块、后向长短期记忆模型模块和条件随机场模块,所述序列输入模块、前向长短期记忆模型模块、后向长短期记忆模型模块和条件随机场模块依次连接。


4.根据权利要求3所述的一种基于改进深度学习的司法实体识别方法,其特征在于,所述前向长短期记忆模型模块提取过去的特征,所述后向长短期记忆模型模块提取未来的特征;对同一个序列从左到右做一次长短期记忆特征提取,再从右到左做一次长短期记忆特征提取,得到双向语义信息的标签序列;
所述条件随机场模块连接至后向长短期记忆模型模块的隐层输出,对后向长短期记忆模型模块输出的标签序列联合解码,进行句子级的序列标注。


5.根据权利要求4所述的一种基于改进深度学习的司法实体识别方法,其特征在于,在所述司法实体识别模型中的处理过程包括步骤:
由序列输入模块查找输入的文本序列中每个字符对应的字符向量,将查找得到的字符向量序列输入前向长短期记忆模型模块和后向长短期记忆模型模块;
分别通过前向长短期记忆模型模块和后向长短期记忆模型模块得到字符向量的隐层编码表示;
通过条件随机场模块为每个字符分配标记,计算两类分数;
输出标记序列为总分最高的序列。


6.根据权利要求2-5中任一所述的一种基于改进深度学习的司法实体识别方法,其特征在于,所述前向长短期记忆模型模块和后向长短期记忆模型模块的结构相同,包括三个用sigmod作为激活函数的门结构及一个细胞状态单元,三个门结构分别为输入门、遗忘门和输出门;其工作流程为:
ft=σ(Wf[ht-1,xt]+bf);
it=σ(Wi[ht-1,xt]+bi);
Ot=σ(WO[ht-1,xt]+bO);






ht=Ot*tanh...

【专利技术属性】
技术研发人员:王艳杨品莉林锋邹奕周激流
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1