【技术实现步骤摘要】
一种基于改进深度学习的司法实体识别方法
本专利技术属于司法实体识别
,特别是涉及一种基于改进深度学习的司法实体识别方法。
技术介绍
司法领域中,司法文件存在数据量大,文件种类繁多等问题,所以实现司法领域中的信息自动化是司法领域发展的必然趋势。司法领域中的信息自动化可以减轻司法从业人员的工作负担,有助于提高司法行业办事效率,有利于实现司法领域的信息共享。近年来,随着新的自然语言处理技术的不断提出,以及司法领域实现司法信息自动化的迫切需要,越来越多的自然语言处理技术应用到司法领域中,如实体识别,关系抽取等。在法律案例文本中存在着大量的司法领域实体,这些司法领域实体的识别是实现司法领域信息自动化的基础,是后续实现司法信息抽取,构建司法领域知识图谱等技术的前提。因而,司法实体识别的研究对司法领域的发展显得尤为重要。目前,命名实体识别作为自然语言处理的一项基础研究,在很多领域都取得了大量的成果。但是由于中文相较于英文字符的特殊性,中文字符存在一词多义的现象以及中文字符词与词的联系比较紧密,中文领域实体识别的研究成 ...
【技术保护点】
1.一种基于改进深度学习的司法实体识别方法,其特征在于,包括;/n获取司法文本,并对文本格式进行规范处理并进行标记,获得数据集包括训练样本和测试样本;/n将所述训练样本输入司法实体识别模型进行训练;/n将待识别文本的测试样本输入训练后的司法实体识别模型,获得识别结果。/n
【技术特征摘要】
1.一种基于改进深度学习的司法实体识别方法,其特征在于,包括;
获取司法文本,并对文本格式进行规范处理并进行标记,获得数据集包括训练样本和测试样本;
将所述训练样本输入司法实体识别模型进行训练;
将待识别文本的测试样本输入训练后的司法实体识别模型,获得识别结果。
2.根据权利要求1所述的一种基于改进深度学习的司法实体识别方法,其特征在于,对文本格式进行规范处理并进行标记过程中,先对文本进行去空格处理,然后再对文本进行标记获得文本序列。
3.根据权利要求2所述的一种基于改进深度学习的司法实体识别方法,其特征在于,所述司法实体识别模型为具有条件随机场的双向长短期记忆模型,所述具有条件随机场的双向长短期记忆模型包括序列输入模块、前向长短期记忆模型模块、后向长短期记忆模型模块和条件随机场模块,所述序列输入模块、前向长短期记忆模型模块、后向长短期记忆模型模块和条件随机场模块依次连接。
4.根据权利要求3所述的一种基于改进深度学习的司法实体识别方法,其特征在于,所述前向长短期记忆模型模块提取过去的特征,所述后向长短期记忆模型模块提取未来的特征;对同一个序列从左到右做一次长短期记忆特征提取,再从右到左做一次长短期记忆特征提取,得到双向语义信息的标签序列;
所述条件随机场模块连接至后向长短期记忆模型模块的隐层输出,对后向长短期记忆模型模块输出的标签序列联合解码,进行句子级的序列标注。
5.根据权利要求4所述的一种基于改进深度学习的司法实体识别方法,其特征在于,在所述司法实体识别模型中的处理过程包括步骤:
由序列输入模块查找输入的文本序列中每个字符对应的字符向量,将查找得到的字符向量序列输入前向长短期记忆模型模块和后向长短期记忆模型模块;
分别通过前向长短期记忆模型模块和后向长短期记忆模型模块得到字符向量的隐层编码表示;
通过条件随机场模块为每个字符分配标记,计算两类分数;
输出标记序列为总分最高的序列。
6.根据权利要求2-5中任一所述的一种基于改进深度学习的司法实体识别方法,其特征在于,所述前向长短期记忆模型模块和后向长短期记忆模型模块的结构相同,包括三个用sigmod作为激活函数的门结构及一个细胞状态单元,三个门结构分别为输入门、遗忘门和输出门;其工作流程为:
ft=σ(Wf[ht-1,xt]+bf);
it=σ(Wi[ht-1,xt]+bi);
Ot=σ(WO[ht-1,xt]+bO);
ht=Ot*tanh...
【专利技术属性】
技术研发人员:王艳,杨品莉,林锋,邹奕,周激流,
申请(专利权)人:四川大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。