本发明专利技术涉及一种基于机器学习和规则匹配的案件情节抽取方法,其中,包括:关键词匹配和正则化匹配方法,包括:在裁判文书的段落中包含指定关键词或符合正则表达式的描述语句则提取出来作为特征;在预先构建的情节库中寻找特征对应的情节;深度学习流程包括:对文本进行分词处理,得到分词后的词序列;对分词后的词序列进行向量化处理,得到待抽取文本的文本向量;将待抽取文本的文本向量输入预先构建的深度学习抽取模型,根据所述抽取模型的输出得到结果。本发明专利技术既能抽取出可解释性强的显式情节,也能抽取出一些可解释性不是那么强的隐式情节。且通过对不同罪名使用不同的深度神经网络,来提高低频罪名的案件事实的分析准确度。
【技术实现步骤摘要】
一种基于机器学习和规则匹配的案件情节抽取方法
本专利技术涉及法律文书电子技术,特别涉及一种基于机器学习和规则匹配的案件情节抽取方法。
技术介绍
法律情节抽取任务旨在从法律文书中案件事实描述部分自动地抽取最重要的情节。一方面,帮助没有法律基础的人理解重要情节;另一方面,为专业的法律人士提供法律参考。近年来,我国不断深入推进“智慧司法”建设,法律情节抽取便是其中的一个重要环节。早在上世纪就有利用关键词匹配算法对案件进行情节抽取的研究。近年来也有一些关于法律情节抽取有关的研究。随着深度学习技术的高速发展,有的学者利用深度神经网络抽取法律文书中的案件情节,取得了不错的效果。中国专利“109285094法律文书的处理方法及装置”提供了一种提取目标法律文书中的定罪关键词再依据所述定罪关键词,在预先构建的量刑数据库中,确定出所述目标法律文书中案件罪名的量刑情节的方法。中国专利“110032721一种裁判文书推送方法及装置”提供了一种通过关键词匹配和正则表达式匹配得到案件情节特征并搜索相似特征来推送裁判文书的方法及装置。中国专利“110263323基于栅栏式长短时记忆神经网络的关键词抽取方法及系统”提供了一种基于神经网络的关键词抽取方法及系统。:将待抽取关键词的法律文本语料输入到神经网络的文本编码模型中,获得文本语义特征向量序列;将所述文本语义特征向量序列输入至关键词识别模型中,获得关键词抽取结果。关键词匹配和正则表达式匹配的方法可以简易有效地提取出明显的置信度高的情节,但是由于忽略了许多语义细微之处而使得结果较易出错。而且因为有不含关键词和不匹配正则表达式的表达而导致召回率较低。在一定的性能基础上,即使想要有微小的提升也需要耗费巨大的人力来设计更为严密的正则表达式。深度学习的方法能学习到一些难以用正则表达式匹配出的情节。但缺点是一般需要大量的有标注数据进行训练。而且,由于数据不平衡的问题,深度学习的方法在处理低频罪名的案件时分析准确度并不好。且深度学习的方法缺乏一定的可解释性。关键词匹配和正则表达式匹配的方法简单高效、可解释性好,能提取到显式的情节,但存在召回率低、耗费人力的缺点。深度学习的技术能通过一些隐含的表达抽取出一些隐式情节,但可解释性不好且需要大量数据,对某些低频罪名的案件事实的分析准确度不高且覆盖率低。
技术实现思路
本专利技术的目的在于提供一种基于机器学习和规则匹配的案件情节抽取方法,用于解决对不同罪名使用不同的深度神经网络从而解决深度学习的方法在处理低频罪名的案件时分析准确度并不好的问题。本专利技术一种基于机器学习和规则匹配的案件情节抽取方法,其中,包括:关键词匹配和正则化匹配方法,包括:在裁判文书的段落中包含指定关键词或符合正则表达式的描述语句则提取出来作为特征;在预先构建的情节库中寻找特征对应的情节;深度学习流程包括:对文本进行分词处理,得到分词后的词序列;对分词后的词序列进行向量化处理,得到待抽取文本的文本向量;将待抽取文本的文本向量输入预先构建的深度学习抽取模型,根据所述抽取模型的输出得到结果。根据本专利技术的基于机器学习和规则匹配的案件情节抽取方法的一实施例,其中,还包括:预先构建情节库。根据本专利技术的基于机器学习和规则匹配的案件情节抽取方法的一实施例,其中,还包括:预先构建深度学习抽取模型:收集针对不同罪名的裁判文书;对裁判文书进行数据清洗,并按照关键字划分提取出其中案件事实描述的部分;人工标定案件事实对应的情节;训练模型。根据本专利技术的基于机器学习和规则匹配的案件情节抽取方法的一实施例,其中,预先构建情节库包括:(1)确定通用情节与各罪名专属情节;(2)对确定的通用情节与各罪名专属情节制定正则表达式与匹配规则;(3)对各罪名使用海量的实际案例进行测试,并在根据测试结果修改正则表达式与匹配规则。根据本专利技术的基于机器学习和规则匹配的案件情节抽取方法的一实施例,其中,构建深度学习抽取模型还包括:对裁判文书按照罪名进行划分,并对各个罪名的裁判文书按照一定比例划分出训练集、测试集以及开发集,训练集用于训练模型,开发集用于调整模型参数,测试集用于最后评估模型性能。根据本专利技术的基于机器学习和规则匹配的案件情节抽取方法的一实施例,其中,训练模型包括:输入层、隐藏层以及输出层,其中:输入层:输入为训练文本的词向量二维矩阵;令表示对应于句子中第i个词的k维词向量,长度为n的句子表示为:其中是串联运算符;隐藏层:用于对文本输入向量矩阵进行抽象,得到更深层次的文本信息,将情节抽取视为不同罪名的二分类任务用卷积神经网络提取特征用于分类,将词向量用不同大小的卷积核进行卷积操作,并通过最大池池化,将得到特征拼接在一起得到最终的特征;输出层:将得到的特征向量通过一或多个全连接层与激活函数层,再通过Sigmoid激活函数,得到基于文本特征预测分类结果。根据本专利技术的基于机器学习和规则匹配的案件情节抽取方法的一实施例,其中,实验设置,实验使用jieba分词组件做中文分词,并使用腾讯AI实验室的预训练词向量;实验隐藏层采用卷积神经网络,卷积神经网络使用窗口大小为1、2、3以及4的卷积核,每个卷积核有64个,输出层采用两个线性层的结构,设特征大小为Sf,隐藏层大小为Sh,标签数目为Sl,首先通过Sf×Sh的线性层,再通过Tanh函数:Tanh(x)=(ex-e-x)/(ex+e-x)通过Sh×Sl的线性层,其中隐藏层大小Sh=256,且线性层设置dropout,概率为0.5;训练的学习率设置为0.001,训练使用Adam优化器,并使用BCELoss作为损失函数,使用Sigmoid激活函数。本专利技术的基于机器学习和规则匹配的案件情节抽取方法,既能抽取出可解释性强的显式情节,也能抽取出一些可解释性不是那么强的隐式情节。且通过对不同罪名使用不同的深度神经网络,来提高低频罪名的案件事实的分析准确度。附图说明图1是本专利技术基于机器学习和规则匹配的案件情节抽取方法主流程图;图2为预先构建深度学习抽取模型的步骤图;图3为深度学习抽取模型的具体拓扑结构图。具体实施方式为使本专利技术的目的、内容、和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。图1是本专利技术基于机器学习和规则匹配的案件情节抽取方法主流程图,如图1所示,本专利技术提出的抽取情节的方法在输入待抽取情节的文本后包括两个模块,其一是图1左边的关键词匹配和正则化匹配流程,图1右边的深度学习流程。关键词匹配和正则化匹配流程包括下列步骤:(1)在裁判文书的某个段落中只要包含该关键词或符合正则表达式的描述语句则提取出来作为特征。(2)在预先构建的情节库中寻找特征对应的情节。如“(不|未|无|没有).{0,4}前科”表达式的特征对应“无犯罪前科”这一情节。深度学习流程包括下列步骤:(1)对文本进行分词处理,得到分词后的词序列。(2)对分词后的词序列进行向量化处理,得到待抽取文本的文本本文档来自技高网...
【技术保护点】
1.一种基于机器学习和规则匹配的案件情节抽取方法,其特征在于,包括:/n关键词匹配和正则化匹配方法,包括:/n在裁判文书的段落中包含指定关键词或符合正则表达式的描述语句则提取出来作为特征;/n在预先构建的情节库中寻找特征对应的情节;/n深度学习流程包括:/n对文本进行分词处理,得到分词后的词序列;/n对分词后的词序列进行向量化处理,得到待抽取文本的文本向量;/n将待抽取文本的文本向量输入预先构建的深度学习抽取模型,根据所述抽取模型的输出得到结果。/n
【技术特征摘要】
1.一种基于机器学习和规则匹配的案件情节抽取方法,其特征在于,包括:
关键词匹配和正则化匹配方法,包括:
在裁判文书的段落中包含指定关键词或符合正则表达式的描述语句则提取出来作为特征;
在预先构建的情节库中寻找特征对应的情节;
深度学习流程包括:
对文本进行分词处理,得到分词后的词序列;
对分词后的词序列进行向量化处理,得到待抽取文本的文本向量;
将待抽取文本的文本向量输入预先构建的深度学习抽取模型,根据所述抽取模型的输出得到结果。
2.如权利要求1所述的基于机器学习和规则匹配的案件情节抽取方法,其特征在于,还包括:预先构建情节库。
3.如权利要求1所述的基于机器学习和规则匹配的案件情节抽取方法,其特征在于,还包括:预先构建深度学习抽取模型:
收集针对不同罪名的裁判文书;
对裁判文书进行数据清洗,并按照关键字划分提取出其中案件事实描述的部分;
人工标定案件事实对应的情节;
训练模型。
4.如权利要求1所述的基于机器学习和规则匹配的案件情节抽取方法,其特征在于,预先构建情节库包括:
(1)确定通用情节与各罪名专属情节;
(2)对确定的通用情节与各罪名专属情节制定正则表达式与匹配规则;
(3)对各罪名使用海量的实际案例进行测试,并在根据测试结果修改正则表达式与匹配规则。
5.如权利要求3所述的基于机器学习和规则匹配的案件情节抽取方法,其特征在于,构建深度学习抽取模型还包括:
对裁判文书按照罪名进行划分,并对各个罪名的裁判文书按照一定比例划分出训练集、测试集以...
【专利技术属性】
技术研发人员:梁鸿翔,胡潇,时子威,陈放,颉明明,杨帅,张博羿,
申请(专利权)人:中国航天科工集团第二研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。