【技术实现步骤摘要】
一种智能行政执法案例信息抽取和案由认定方法
[0001]本专利技术涉及一种智能行政执法案例信息抽取和案由认定方法,属于法律人工智能的
技术介绍
[0002]随着我国的法律制度不断发展,法律文书越来越完善,对法律文书的格式、内容都做出了比较细致的规定,而且法律文书的理论研究工作也有了很大的发展,因此,法律文书更加规范和完备。随着信息科技的不断进步,网络上有着大量的行政执法文书资源。而行政执法文书作为承载法律判决与信息的重要载体,其中蕴涵了大量的可用信息。如果能正确的提取并使用这些信息,会节省下大量的人力资源并给新的执法判决提供可靠的帮助。
[0003]同时,随着深度学习的不断发展,统计学习与深度学习结合的信息抽取模型得到了广泛的关注。通常,早期的信息抽取将实体抽取和关系抽取看作串联的任务,这样的串联模型在建模上相对更简单,但这样将实体识别和关系抽取当作两个独立的任务明显会存在一系列的问题:两个任务的解决过程中没有考虑到两个子任务之间的相关性,从而导致关系抽取任务的结果严重依赖于实体抽取的结果,导致误差累积的问题。对于一对多的问题,也就是关系重叠问题,串联模型无法提供较好的解决方案。因此,近年来有许多工作都考虑将实体识别与关系抽取任务进行联合建模,这种end
‑
to
‑
end的模型直觉上会有更优的效果。
[0004]为了加强两个子模型之间的交互,一些联合解码算法被提出:2014年Li Qi等提出了将实体关系抽取看为一个结构化预测问题,采用结构化感知机算法,设计 ...
【技术保护点】
【技术特征摘要】
1.一种智能行政执法案例信息抽取和案由认定方法,其特征在于,包括步骤如下:A、数据集的构建:爬取行政处罚决定书,提取其中的文本内容,对文本内容中的短文本进行标注;B、语料转换:将行政执法文书中所有长句按照标点符号分割为短句;将步骤A数据集中标注的短文本根据标点符号进行分句;在短文本中找到最长的短句,把这个最长的短句作为标准,从行政处罚文书中找出与这个最长的短句相似的句子,提取并保存,递归执行直到短文本中所有的语句都被执行过一次;C、抽取数据预处理及向量化:步骤B在行政执法文书中抽出了与标签即短文本相似的语句;对抽取出的文本进行过滤,将文本转换成以空格分割的句子序列;将句子序列编码索引;对得到的文本数据进行全局平均池化之后再引入全词Mask的BERT预训练中文模型,补充平均池化,把分割的句子序列转换为句子向量;D、基于DGCNN的抽取模型的训练:将步骤B中在行政执法文书中抽出的与标签即短文本的句子向量当作标签,将行政执法文书整个文本生成的句子向量作为输入,训练抽取模型;E、基于UniLM的短文本生成:将通过训练后的抽取模型抽取出来的行政执法文书的关键语句作为输入,人工标注的短文本作为标签,训练生成模型;F、输入执法文书文本进行预测:将需要转化的行政执法文书通过步骤A至步骤C处理后,将得到的处理结果输入训练后的抽取模型,生成抽取结果并保存,抽取结果进一步输入训练后的生成模型,得到适合下游其他任务分析的短文本,最终得到抽取结果和适合下游其他任务分析的短文本。2.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法,其特征在于,步骤A中,对文本内容进行标注,是指:从行政执法文书中提取所有需要的关键字段,并根据语义重新组合成新的一段仅包括关键目的信息的短文本;在行政处罚文书中对这些短文本进行标注。3.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法,其特征在于,步骤B中,将行政执法文书中所有长句按照标点符号分割为短句,具体是指:采用jieba分词将行政执法文书文本根据标点符号分割成句子格式,并保存为列表中的元素;将步骤A数据集中标注的短文本根据标点符号进行分句,具体是指:采用jieba分词将标注的短文本分割成短句格式,并保存为数组格式;提取数组中的最长的短句,在列表中的行政执法文书中进行匹配,提取列表中的行政执法文书中和最长的短句最相似的句子并保存,递归地执行此步骤,直到将数组中所有的句子都匹配一遍。4.根据权利要求3所述的一种智能行政执法案例信息抽取和案由认定方法,其特征在
于,提取列表中的行政执法文书中和最长的短句最相似的句子,具体实现过程如下:假设x1是标注短文本序列X=[x1,x2,...x
n
]中的一个句子,y
m
是行政执法文书序列Y=[y1,y2,...y
m
]中的一个句子,则Flcs如式(1)所示:式(1)中,R
LCS
是指召回率,是抽取出的文本与短文本中相同字的个数,与人工标签即短文本中字的个数的比值;P
LCS
是指准确率,是指抽取出的文本与短文本中相同字的个数,与抽取出字的总个数的比值;F
LCS
就是ROUGE
‑
L;针对将标注短文本序列X中的一个句子x
n
与行政执法文书序列中的所有句子y
j
,j=1,2...m;计算F
LCS
,取使得F
LCS
分数最高的行政执法文书序列中的句子y
k
作为最相似语句并保存,递归地进行此步骤,直到标注短文本序列X中所有句子都匹配完成,将抽取结果保存为R,即为最相似的句子。5.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法,其特征在于,步骤C的具体实现过程如下:首先,利用tensorflow中的Tokenizer工具包去除文本中的标点符号、换行符号进行文本预处理;然后,利用Tokenizer工具包的Fit_on_texts方法学习出文本的字典,Word_index就是对应的单词和数字的映射关系Dict,通过这个Dict将每个句子中的每个词转成数字,即Texts_to_sequences;再次,通过Padding的方法补成同样长度;在用Ke...
【专利技术属性】
技术研发人员:贲晛烨,冯晓炜,李玉军,周莹,孙浩,谢霆轩,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。