一种基于深度神经网络的建设工程合同纠纷法条识别方法技术

技术编号:34869279 阅读:28 留言:0更新日期:2022-09-08 08:15
本发明专利技术公开了一种基于深度神经网络的建设工程合同纠纷法条识别方法,涉及法条识别技术领域,包括S1、建立法条库,逐个读取裁判文书库中的裁判文书,采用正则表达式提取裁判依据中出现的法律条文和司法解释条文,每个裁判文书涉及到法条至少有一条,将每个裁判文书涉及到的法条放入法条库。本发明专利技术的优势在于:采用正则表达式从裁判文书中抽取法条,并表示为多热向量的形式,将长短记忆神经网络(LSTM)应用于文本的多标签多分类,从而实现了对待决案的法条识别,实现了对裁判文书中法条的自动提取,并借助长短记忆神经网络(LSTM)来识别待决案涉及到法条,从而于自动识别待决案的类案检索信息,实现高效精准的类案检索。实现高效精准的类案检索。实现高效精准的类案检索。

【技术实现步骤摘要】
一种基于深度神经网络的建设工程合同纠纷法条识别方法


[0001]本专利技术涉及法条识别
,具体为一种基于深度神经网络的建设工程合同纠纷法条识别方法。

技术介绍

[0002]目前,国内外企业或司法部门已经推出了若干法律信息智能检索工具。基于IBM的 Watson系统的智能检索工具ROSS利用自然语言处理和机器学习技术可以向律师呈现最相关、最有价值的法律回答及判例;LUIMA法律检索系统包括了搜索引擎和案例数据库,以词语匹配进行案例搜索,并根据案例的相似度进行案例重排,以实现相关案例的推送; LexisNexis则采用了四层元数据进行法律案例文本的语义注解,以实现更加智能的判例检索。在国内,也出现了“法小陶”、“法狗狗”、“阿尔法法官”、“睿法官”、“类型化案件智能审判平台”等法律智能系统。
[0003]人工智能与法律的融合成为新的技术演化趋势。但是,法律服务的专业化成为社会发展的必然要求,提供高质量的法律服务不仅需要掌握法律知识和技能,还需要专业知识的支持。目前,尚缺乏针对专业领域的类案信息检索工具,面向特定领域的类案检索工具将为法律工作的智能化、专业化提供有力的技术支撑。
[0004]针对上述问题,特提出一种基于深度神经网络的建设工程合同纠纷法条识别方法。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于深度神经网络的建设工程合同纠纷法条识别方法,具备高效精准的类案检索等优点,解决了不能向特定看领域进行类案检索的问题
[0007](二)技术方案
[0008]为实现上述目的,本专利技术提供如下技术方案:一种基于深度神经网络的建设工程合同纠纷法条识别方法,包括以下步骤:
[0009]S1、建立法条库,逐个读取裁判文书库中的裁判文书,采用正则表达式提取裁判依据中出现的法律条文和司法解释条文,每个裁判文书涉及到法条至少有一条,将每个裁判文书涉及到的法条放入法条库,去重后,对法条进行编号,法条库可以是字典的数据格式,每个法条及其编号表现为一个键值对,假设共有n个法条,则法条库可以表示为:{1:1号法条名称,2:2号法条名称,

,n:n号法条名称};
[0010]S2、建立判例数据库,将法条名称与法条库中的键值对匹配后,得到法条编号,对法条进行多热法编码;
[0011]S3、对裁判文书中的案情进行分词,采用word2vec预训练词向量模型实现词嵌入,整个文档可以转换为一个二维张量,每个裁判文书文档的二维张量及对应的表示法条的多
热编码向量构成了一条训练数据;
[0012]S4、全部裁判文书生成多个训练数据,这些训练数据构成了判例数据库,将判例数据库中的数据划分为训练集合和测试集合;
[0013]S5、训练并并测试文本分类模型,将判例数据库中训练数据集合用于训练文本分类模型,并使用测试数据集合测试文本分类模型的性能;
[0014]采用Hamming Loss指标判断文本分类模型在多标签多分类任务中的性能:
[0015][0016]式中,y是实际张量;表示模型输出张量;m表示样本个数;n
labels
表示标签数;为I(x) 指示函数,当完全等同于时,值为1,否则,值为0;
[0017]Hamming Loss取值在0

1之间,值越小,模型性能越好;
[0018]S6、待决案的法条识别,将待决案案情分词,采用word2vec预训练词向量模型实现词嵌入,将案情词向量输入训练好的法条识别模型,即可得到多热向量,根据多热向量中值为1的元素的位置下标,即可得到法条编码,采用法条编码在法条库中查找,即可得到待决案涉及到的法条。
[0019]优选的,所述S1步骤和S2步骤中读取裁判文书库中的裁判文书需要进行法条识别,法条识别采用长短记忆神经网络(LSTM)实现多标签多分类,法条识别模型的输入是词向量,输出是用多热法表示的法条编码。
[0020]优选的,S1步骤所述裁判文书库为建设工程合同纠纷的裁判文书,所述裁判文书库的容量有五万多条。
[0021]优选的,S2步骤所述多热编码向量共有n个元素,形如(0,

1,

,0,

1,

,0),该向量中可以有1个或者多个元素等于1,对应1个或者多个法条,如果某法条在法条库中编号为k,则多热编码向量中第k个元素为1。
[0022](三)有益效果
[0023]与现有技术相比,本专利技术提供了一种基于深度神经网络的建设工程合同纠纷法条识别方法,具备以下有益效果:
[0024]该基于深度神经网络的建设工程合同纠纷法条识别方法,采用正则表达式从裁判文书中抽取法条,并表示为多热向量的形式,将长短记忆神经网络(LSTM)应用于文本的多标签多分类,从而实现了对待决案的法条识别,实现了对裁判文书中法条的自动提取,并借助长短记忆神经网络(LSTM)来识别待决案涉及到法条,从而于自动识别待决案的类案检索信息,实现高效精准的类案检索。
附图说明
[0025]图1为本专利技术提出的技术路线示意图;
[0026]图2为本专利技术提出长短记忆神经网络文本分类模型示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]请参阅图1

2,一种基于深度神经网络的建设工程合同纠纷法条识别方法,包括以下步骤:
[0029]S1、建立法条库,逐个读取裁判文书库中的裁判文书,采用正则表达式提取裁判依据中出现的法律条文和司法解释条文,每个裁判文书涉及到法条至少有一条,将每个裁判文书涉及到的法条放入法条库,去重后,对法条进行编号,法条库可以是字典的数据格式,每个法条及其编号表现为一个键值对,假设共有n个法条,则法条库可以表示为:{1:1号法条名称,2:2号法条名称,

,n:n号法条名称};
[0030]S2、建立判例数据库,将法条名称与法条库中的键值对匹配后,得到法条编号,对法条进行多热法编码;
[0031]S3、对裁判文书中的案情进行分词,采用word2vec预训练词向量模型实现词嵌入,整个文档可以转换为一个二维张量,每个裁判文书文档的二维张量及对应的表示法条的多热编码向量构成了一条训练数据;
[0032]S4、全部裁判文书生成多个训练数据,这些训练数据构成了判例数据库,将判例数据库中的数据划分为训练集合和测试集合;
[0033]S5、训练并并测试文本分类模型,将判例数据库中训练数据集合用于训练文本分类模型,并使用测试数据集合测试文本分类模型的性能;
...

【技术保护点】

【技术特征摘要】
1.一种基于深度神经网络的建设工程合同纠纷法条识别方法,其特征在于:包括以下步骤:S1、建立法条库,逐个读取裁判文书库中的裁判文书,采用正则表达式提取裁判依据中出现的法律条文和司法解释条文,每个裁判文书涉及到法条至少有一条,将每个裁判文书涉及到的法条放入法条库,去重后,对法条进行编号,法条库可以是字典的数据格式,每个法条及其编号表现为一个键值对;S2、建立判例数据库,将法条名称与法条库中的键值对匹配后,得到法条编号,对法条进行多热法编码;S3、对裁判文书中的案情进行分词,采用word2vec预训练词向量模型实现词嵌入,整个文档可以转换为一个二维张量,每个裁判文书文档的二维张量及对应的表示法条的多热编码向量构成了一条训练数据;S4、全部裁判文书生成多个训练数据,这些训练数据构成了判例数据库,将判例数据库中的数据划分为训练集合和测试集合;S5、训练并并测试文本分类模型,将判例数据库中训练数据集合用于训练文本分类模型,并使用测试数据集合测试文本分类模型的性能;采用Hamming Loss指标判断文本分类模型在多标签多分类任务中的性能:式中,是实际张量;表示模型输出张量;表示样本个数;...

【专利技术属性】
技术研发人员:李建平张龙杨淑琪孙康然刘嘉宇
申请(专利权)人:鹤壁职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1