【技术实现步骤摘要】
一种基于机器学习和规则匹配的案件情节抽取方法
本专利技术涉及法律文书电子技术,特别涉及一种基于机器学习和规则匹配的案件情节抽取方法。
技术介绍
法律情节抽取任务旨在从法律文书中案件事实描述部分自动地抽取最重要的情节。一方面,帮助没有法律基础的人理解重要情节;另一方面,为专业的法律人士提供法律参考。近年来,我国不断深入推进“智慧司法”建设,法律情节抽取便是其中的一个重要环节。早在上世纪就有利用关键词匹配算法对案件进行情节抽取的研究。近年来也有一些关于法律情节抽取有关的研究。随着深度学习技术的高速发展,有的学者利用深度神经网络抽取法律文书中的案件情节,取得了不错的效果。中国专利“109285094法律文书的处理方法及装置”提供了一种提取目标法律文书中的定罪关键词再依据所述定罪关键词,在预先构建的量刑数据库中,确定出所述目标法律文书中案件罪名的量刑情节的方法。中国专利“110032721一种裁判文书推送方法及装置”提供了一种通过关键词匹配和正则表达式匹配得到案件情节特征并搜索相似特征来推送裁判文书的方法及装置。r>中国专利“110本文档来自技高网...
【技术保护点】
1.一种基于机器学习和规则匹配的案件情节抽取方法,其特征在于,包括:/n关键词匹配和正则化匹配方法,包括:/n在裁判文书的段落中包含指定关键词或符合正则表达式的描述语句则提取出来作为特征;/n在预先构建的情节库中寻找特征对应的情节;/n深度学习流程包括:/n对文本进行分词处理,得到分词后的词序列;/n对分词后的词序列进行向量化处理,得到待抽取文本的文本向量;/n将待抽取文本的文本向量输入预先构建的深度学习抽取模型,根据所述抽取模型的输出得到结果。/n
【技术特征摘要】
1.一种基于机器学习和规则匹配的案件情节抽取方法,其特征在于,包括:
关键词匹配和正则化匹配方法,包括:
在裁判文书的段落中包含指定关键词或符合正则表达式的描述语句则提取出来作为特征;
在预先构建的情节库中寻找特征对应的情节;
深度学习流程包括:
对文本进行分词处理,得到分词后的词序列;
对分词后的词序列进行向量化处理,得到待抽取文本的文本向量;
将待抽取文本的文本向量输入预先构建的深度学习抽取模型,根据所述抽取模型的输出得到结果。
2.如权利要求1所述的基于机器学习和规则匹配的案件情节抽取方法,其特征在于,还包括:预先构建情节库。
3.如权利要求1所述的基于机器学习和规则匹配的案件情节抽取方法,其特征在于,还包括:预先构建深度学习抽取模型:
收集针对不同罪名的裁判文书;
对裁判文书进行数据清洗,并按照关键字划分提取出其中案件事实描述的部分;
人工标定案件事实对应的情节;
训练模型。
4.如权利要求1所述的基于机器学习和规则匹配的案件情节抽取方法,其特征在于,预先构建情节库包括:
(1)确定通用情节与各罪名专属情节;
(2)对确定的通用情节与各罪名专属情节制定正则表达式与匹配规则;
(3)对各罪名使用海量的实际案例进行测试,并在根据测试结果修改正则表达式与匹配规则。
5.如权利要求3所述的基于机器学习和规则匹配的案件情节抽取方法,其特征在于,构建深度学习抽取模型还包括:
对裁判文书按照罪名进行划分,并对各个罪名的裁判文书按照一定比例划分出训练集、测试集以...
【专利技术属性】
技术研发人员:梁鸿翔,胡潇,时子威,陈放,颉明明,杨帅,张博羿,
申请(专利权)人:中国航天科工集团第二研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。