当前位置: 首页 > 专利查询>山东大学专利>正文

一种智能行政执法案例信息抽取和案由认定方法技术

技术编号:33638018 阅读:38 留言:0更新日期:2022-06-02 01:53
本发明专利技术涉及一种智能行政执法案例信息抽取和案由认定方法,包括:A、数据集的构建;B、语料转换:C、抽取数据预处理及向量化:D、基于DGCNN的抽取模型的训练:E、基于UniLM的短文本生成,训练生成模型;F、输入执法文书文本进行预测:将需要转化的行政执法文书通过步骤A至步骤C处理后,将得到的处理结果输入训练后的抽取模型,生成抽取结果并保存,抽取结果进一步输入训练后的生成模型,得到适合下游其他任务分析的短文本。本发明专利技术通过采用DGCNN作为抽取模型,利用其非序列化的神经网络结构特点进行文本数据的信息抽取,大大减少了所耗费的时间资源和计算资源,提升了抽取的准确性。提升了抽取的准确性。提升了抽取的准确性。

【技术实现步骤摘要】
一种智能行政执法案例信息抽取和案由认定方法


[0001]本专利技术涉及一种智能行政执法案例信息抽取和案由认定方法,属于法律人工智能的


技术介绍

[0002]随着我国的法律制度不断发展,法律文书越来越完善,对法律文书的格式、内容都做出了比较细致的规定,而且法律文书的理论研究工作也有了很大的发展,因此,法律文书更加规范和完备。随着信息科技的不断进步,网络上有着大量的行政执法文书资源。而行政执法文书作为承载法律判决与信息的重要载体,其中蕴涵了大量的可用信息。如果能正确的提取并使用这些信息,会节省下大量的人力资源并给新的执法判决提供可靠的帮助。
[0003]同时,随着深度学习的不断发展,统计学习与深度学习结合的信息抽取模型得到了广泛的关注。通常,早期的信息抽取将实体抽取和关系抽取看作串联的任务,这样的串联模型在建模上相对更简单,但这样将实体识别和关系抽取当作两个独立的任务明显会存在一系列的问题:两个任务的解决过程中没有考虑到两个子任务之间的相关性,从而导致关系抽取任务的结果严重依赖于实体抽取的结果,导致误差累积的问题。对于一对多的问题,也就是关系重叠问题,串联模型无法提供较好的解决方案。因此,近年来有许多工作都考虑将实体识别与关系抽取任务进行联合建模,这种end

to

end的模型直觉上会有更优的效果。
[0004]为了加强两个子模型之间的交互,一些联合解码算法被提出:2014年Li Qi等提出了将实体关系抽取看为一个结构化预测问题,采用结构化感知机算法,设计了全局特征,并使用集束搜索进行近似联合解码。2016年Arzoo Katiyar等提出了利用条件随机场(CRF)同时建模实体和关系模型,并通过维特比解码算法得到实体和关系的输出结果。2017年Zhang Meishan等提出了使用全局归一化(Global Normalization)解码算法。2017年自动化所的Zheng Suncong等针对实体关系抽取设计了一套转移系统(Transition System),从而实现联合实体关系抽取。但是,上述统一实体和关系标注框架不能完全解决关系重叠等问题,所以在特定场景下,需要引入一些后处理规则进行约束。且由于上述的大部分算法使用的是序列模型导致训练时间较慢。
[0005]目前,在对行政执法文书进行文本分析时,往往受限于数据的非结构化特征,信息容量大,内容表示复杂,信息字段表示多样化,这些问题都对行政执法文书的信息抽取和结构化提出了更高要求。针对行政执法文书的信息抽取,2018年南京大学的葛季栋等提出了分段特征规则模型,将文书作为逻辑段处理并针对设计规则。2019年戴广宇等提出了重点词集合与关键词集合匹配的法律文书信息抽取模型,提高用户从法律文书中获取信息的效率。2020年席丽娜等提出了针对目标区块构建基于规则的要素树方法,可以自动化抽取行政执法文书中的基本要素。2020年白雄文等提出一种基于自注意力机制的序列到序列神经网络的法律裁判文信息抽取方法,可以提高法律要素的提取效率与准确度。2020年李丹等提出了基于规则和模型结合的法律文书信息抽取方法,将规则与模型的方法有效结合、形
成互补,提高法律文书信息提取效果,同时提高了可拓展性和移植性。此类方法都是基于规则的方法,其简单便捷,准确率也可以达到要求。但是,往往在面临数据变动时需要更改和增加新的正则语句,即通用性较差。而且不同地区的行政执法文书的内容格式会有差别,导致基于正则化的方法限制性较高。
[0006]近年来,自然语言处理在司法领域得到了广泛应用,法律人工智能领域备受关注。人工智能技术可以极大地提升信息抽取的效率和准确率,为从业人员带来方便。然而简单的基于深度学习或机器学习的方式受文本长度、上下文信息等方面影响,效果有待提升。此外,往往抽取出的结果不适用与所有下游任务的分析,因为抽取出的仅仅是一些实体和关系,无法直接的应用到下游的任务上。因此,针对统计学习领域模型信息抽取准确率低,统一的深度学习抽取模型不能完全解决关系重叠问题,速度较慢等问题。以及它们所共同存在的抽取结果不适用与所有的下游自然语言处理任务的问题,需要提出新的适用于法律文书信息抽取的模型。

技术实现思路

[0007]针对现有技术的不足,本专利技术提供一种基于DGCNN的高准确率高利用率的信息抽取与案由认定方法。
[0008]本专利技术为解决现有司法领域存在的行政处罚决定书信息抽取效率低、准确率不高,且抽取出来的实体无法进一步使用等问题,提出了一种行政处罚决定书的信息抽取方法,将文书的长文本提取后作为输入,进一步生成符合目前主流NLP任务所需要的短文本格式。
[0009]专利技术概述:
[0010]本专利技术的目的是解决现有司法领域存在的行政处罚文书信息抽取准确率不高且抽取结果不适用于下游NLP子任务的问题。提供了一种高准确率高利用率的行政执法文书信息抽取与案由认定方法。
[0011]本专利技术主要包括五个部分:行政执法文书命名实体识别、行政执法文书中法律相关术语抽取、行政执法文书中案件人物关系抽取、行政执法文书中案情事件抽取、抽取结果组合生成短文本。行政执法文文书命名实体识别即研究如何对存在于行政执法文书中的所有实体进行识别、分类,如时间、地点、案情相关主客体,该研究旨在提升命名实体抽取效果;法律相关术语抽取即研究如何对文书中的法律领域专业表达进行抽取,如相关法律条款、执法判决等,任务旨在研究如何通过与法律知识库融合提升识别效果;案件人物关系是文书中的关键特征要素,该内容主要研究如何通过文书中人物实体、属性、关系的抽取,提升下游辅助决策任务的效果。案情事件抽取研究如何对案件关键性事件文本描述进行抽取,即从案件中找到核心信息。抽取结果组合生成短文本旨在把信息抽取的结果进行进一步的处理,生成适合当前各种NLP方法,可以分析的短文本且不丢失关键信息,这一步骤大大提升了抽取出的信息的作用,为下游任务提供了良好的铺垫作用。
[0012]术语解释:
[0013]1、jieba:jieba库是一款优秀的Python第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式。
[0014]2、行政处罚文书:行政处罚决定书是行政管理机关针对当事人的违法行为,在经
过调查取证掌握违法证据的基础上,制作的记载当事人违法事实、处罚理由、依据和决定等事项的具有法律强制力的书面法律文书。
[0015]3、信息抽取:即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。
[0016]4、DGCNN(Dilate Gated Convolutional Neural Network):即“膨胀门卷积神经网络”,融合了两个比较新的卷积用法:膨胀卷积、门卷积,并增加了一些人工特征和trick,最终使得模型在轻、快的基础上达到最佳的效果。
[0017]5、ROUGE(Recall

Oriented Understudy for Gistin本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能行政执法案例信息抽取和案由认定方法,其特征在于,包括步骤如下:A、数据集的构建:爬取行政处罚决定书,提取其中的文本内容,对文本内容中的短文本进行标注;B、语料转换:将行政执法文书中所有长句按照标点符号分割为短句;将步骤A数据集中标注的短文本根据标点符号进行分句;在短文本中找到最长的短句,把这个最长的短句作为标准,从行政处罚文书中找出与这个最长的短句相似的句子,提取并保存,递归执行直到短文本中所有的语句都被执行过一次;C、抽取数据预处理及向量化:步骤B在行政执法文书中抽出了与标签即短文本相似的语句;对抽取出的文本进行过滤,将文本转换成以空格分割的句子序列;将句子序列编码索引;对得到的文本数据进行全局平均池化之后再引入全词Mask的BERT预训练中文模型,补充平均池化,把分割的句子序列转换为句子向量;D、基于DGCNN的抽取模型的训练:将步骤B中在行政执法文书中抽出的与标签即短文本的句子向量当作标签,将行政执法文书整个文本生成的句子向量作为输入,训练抽取模型;E、基于UniLM的短文本生成:将通过训练后的抽取模型抽取出来的行政执法文书的关键语句作为输入,人工标注的短文本作为标签,训练生成模型;F、输入执法文书文本进行预测:将需要转化的行政执法文书通过步骤A至步骤C处理后,将得到的处理结果输入训练后的抽取模型,生成抽取结果并保存,抽取结果进一步输入训练后的生成模型,得到适合下游其他任务分析的短文本,最终得到抽取结果和适合下游其他任务分析的短文本。2.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法,其特征在于,步骤A中,对文本内容进行标注,是指:从行政执法文书中提取所有需要的关键字段,并根据语义重新组合成新的一段仅包括关键目的信息的短文本;在行政处罚文书中对这些短文本进行标注。3.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法,其特征在于,步骤B中,将行政执法文书中所有长句按照标点符号分割为短句,具体是指:采用jieba分词将行政执法文书文本根据标点符号分割成句子格式,并保存为列表中的元素;将步骤A数据集中标注的短文本根据标点符号进行分句,具体是指:采用jieba分词将标注的短文本分割成短句格式,并保存为数组格式;提取数组中的最长的短句,在列表中的行政执法文书中进行匹配,提取列表中的行政执法文书中和最长的短句最相似的句子并保存,递归地执行此步骤,直到将数组中所有的句子都匹配一遍。4.根据权利要求3所述的一种智能行政执法案例信息抽取和案由认定方法,其特征在
于,提取列表中的行政执法文书中和最长的短句最相似的句子,具体实现过程如下:假设x1是标注短文本序列X=[x1,x2,...x
n
]中的一个句子,y
m
是行政执法文书序列Y=[y1,y2,...y
m
]中的一个句子,则Flcs如式(1)所示:式(1)中,R
LCS
是指召回率,是抽取出的文本与短文本中相同字的个数,与人工标签即短文本中字的个数的比值;P
LCS
是指准确率,是指抽取出的文本与短文本中相同字的个数,与抽取出字的总个数的比值;F
LCS
就是ROUGE

L;针对将标注短文本序列X中的一个句子x
n
与行政执法文书序列中的所有句子y
j
,j=1,2...m;计算F
LCS
,取使得F
LCS
分数最高的行政执法文书序列中的句子y
k
作为最相似语句并保存,递归地进行此步骤,直到标注短文本序列X中所有句子都匹配完成,将抽取结果保存为R,即为最相似的句子。5.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法,其特征在于,步骤C的具体实现过程如下:首先,利用tensorflow中的Tokenizer工具包去除文本中的标点符号、换行符号进行文本预处理;然后,利用Tokenizer工具包的Fit_on_texts方法学习出文本的字典,Word_index就是对应的单词和数字的映射关系Dict,通过这个Dict将每个句子中的每个词转成数字,即Texts_to_sequences;再次,通过Padding的方法补成同样长度;在用Ke...

【专利技术属性】
技术研发人员:贲晛烨冯晓炜李玉军周莹孙浩谢霆轩
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1