本发明专利技术涉及一种基于相似文本的案件繁简分流方法,包括如下步骤:1)建立数据库,并在数据库中储存样本案件的文本信息;2)获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值;3)根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行分流。本发明专利技术提供的基于相似文本的案件繁简分流方法,解决了案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点,可以广泛应用于案件分流领域。
【技术实现步骤摘要】
一种基于相似文本的案件繁简分流方法
本专利技术涉及数据处理分流领域,具体涉及一种基于相似文本的案件繁简分流方法。
技术介绍
随着我国经济社会的快速发展,同时受人口基数的影响,全国各级法院面临的审判工作压力越来越严重,“案多人少”的矛盾将持续加剧。通常,一个案件应当由三位法官组成合议庭进行审理,根据三位法官各自的意见,按照少数服从多数的原则决定最终的判决结果,以此来保证判决结果的正确性。为了缓解“案多人少”的现实状况,尽可能保证所有案件都能得到及时的处理,我国法律规定了由一位法官独自审理的案件审理程序,即“简易程序”。这是一种效率至上、兼顾公平的方法,它的逻辑是,如果一个案件的事实清楚简单,那么没有必要投入三位法官进行审理,因为这三位法官的意见极有可能完全一致,没有差别。简易程序的出现有效缓解了“案多人少”的矛盾,但对于什么样的案件应当使用简易程序、什么样的案件应当使用普通程序,以及如何从大量的新收案件中区分这两类案件,目前都存在问题和困难。通常将应当使用简易程序的案件称为“简案”,应当使用普通程序的案件称为“繁案”,因此,“繁案”不一定是案情复杂、重大的案件,它只是作为“简案”的对称,也包括一些案情比较普通、但达不到使用简易程序的标准的案件。案件繁简分流目前存在一些问题和困难。传统的案件繁简分流方法采用人工识别的方式,由立案庭法官根据经验推断,很难保证科学性。其次,案件的繁简本质上不是两个类别,而是一个尺度。也就是说,繁简应当是一个程度,需要以科学的方式进行量化,而不是直接贴上繁、简的标签。如何对案件的繁简程度进行量化,目前没有合理的方法。最后,现实中需要繁简分流的案件越来越多,繁简分流的最终目的是减轻法官的工作负担,但是如果把繁简分流也交给法官来做,那么繁简分流本身也将成为一项工作负担,再实行繁简分流则毫无意义。这些问题和困难制约着繁简分流的现实落地。
技术实现思路
针对上述问题,本专利技术的目的是提供一种基于相似文本的案件繁简分流方法,旨在解决案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点。为实现上述目的,本专利技术采取以下技术方案:一种基于相似文本的案件繁简分流方法,其包括以下步骤:1)建立数据库,并在数据库中储存样本案件的文本信息;2)获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值;3)根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行繁简分流。进一步的,所述步骤2)中,获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值的方法,包括以下步骤:2.1)获取待分流案件的文本信息,并与数据库中的任一样本案件进行比较,计算待分流案件与该样本案件的文本相似度;2.2)设定相似度阈值,若待分流案件与该样本案件的文本相似度不小于相似度阈值,则认为该样本案件为待分流案件的相似文本案件;2.3)重复步骤2.1)~2.2),判断数据库中所有样本案件是否为待分流案件的相似文本案件,得到所有样本案件中的相似文本案件的数量;2.4)计算相似文本案件在所有样本案件中所占的比例,作为待分流案件的相似度比例值。进一步的,所述步骤2.1)中,获取待分流案件的文本信息,并与数据库中的任一样本案件进行比较,计算待分流案件与该样本案件的文本相似度的方法,包括以下步骤:2.1.1)建立文本相似度计算模型,所述文本相似度计算模型包括嵌入层、长短期记忆神经网络层、卷积神经网络层、额外特征层和输出层;2.1.2)将待分流案件与该样本案件的文本信息分别映射到嵌入层的高维向量空间,得到待分流案件和样本案件的文本特征矩阵,并输出到长短期记忆神经网络层和卷积神经网络层;2.1.3)在长短期记忆神经网络层中分别提取待分流案件与样本案件的第一文本特征信息,同时在卷积神经网络层中分别提取待分流案件与样本案件的第二文本特征信息,将长短期记忆神经网络层与卷积神经网络层中提取得到的第一文本特征信息和第二文本特征信息均输出到额外特征层;2.1.4)在额外特征层中,分别根据待分流案件和样本文件的第一文本特征信息和第二文本特征信息得到二者的总的文本特征信息,根据二者的总的文本特征信息,计算得到待分流案件和样本文件的法律重叠词分数和法律要素对比向量;2.1.5)在输出层中,综合考虑待分流案件的文本特征信息、样本案件的文本特征信息、法律重叠词分数及法律要素对比向量,以计算待分流案件与样本案件的文本相似度。进一步的,所述步骤2.1.2)中,将待分流案件与该样本案件的文本信息分别映射到嵌入层的高维向量空间,得到待分流案件和样本案件的文本特征矩阵的方法,包括以下步骤:首先,去掉待分流案件和样本案件中对后续处理可能造成干扰的字符;其次,根据预设的文本向量维度阈值,对去除干扰后的待分流案件和样本案件进行处理,使得待分流案件和样本案件的向量维度统一;最后,使用Google中的Word2vec模型和相应的参数,将待分流案件和样本案件映射成数值矩阵,作为待分流案件和样本案件的文本特征矩阵。进一步的,所述步骤2.1.4)中,获取待分流案件和样本文件的总的特征向量信息、法律重叠词分数和法律要素对比向量的方法为:首先,将长短期记忆神经网络层与卷积神经网络层的输出结果拼接到一起,得到待分流案件和样本文件的总的特征向量,即文本特征信息;然后,基于待分流案件和样本文件的文本特征信息,利用法律语言库,得到二者的法律重叠词分数;最后,根据法律文本的描述,按照法律上的规则提取相应的事实要素,比较待分流案件和样本文件描述的事实要素是否相同,形成一个0-1向量,作为法律要素对比向量。进一步的,所述基于待分流案件和样本文件的文本特征信息,利用法律语言库,得到二者的法律重叠词分数的方法,包括以下步骤:首先,根据待分流案件与样本案件的文本特征信息,获得二者的文本特征信息中的重叠词;其次,根据法律语言库,去除重叠词中不在法律语言库中的部分,得到的法律重叠词;最后,计算法律重叠词占二者的文本特征信息中的总词数的比例,该比例即为法律重叠词分数。进一步的,所述步骤2.2)中,所述相似度阈值为0.5。进一步的,所述步骤3)中,根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行分流的方法为:设定相似度比例阈值,若所有样本案件中的相似文本案件所占的比例不小于相似度比例阈值,则将待分流案件分为简案,否则将待分流案件分为繁案。进一步的,所述步骤3)中,所述相似度比例阈值为0.08。本专利技术由于采取以上技术方案,其具有以下优点:1、本专利技术提供的基于相似文本的案件繁简分流方法,解决了案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点,为利用信息技术解决案多人少的社会问题提供了解决方案。通过该方法分流得到的简案,能够保证其案件情况与较多的现有案件类似,从而方便于法官单人进行审理,而不易出现错判的情况;有利于在减轻法官负担的情况下尽可能地维持判决公平。2、本专利技术建立的文本相似度计算模型中,本文档来自技高网...
【技术保护点】
1.一种基于相似文本的案件繁简分流方法,其特征在于,包括以下步骤;/n1)建立数据库,并在数据库中储存样本案件的文本信息;/n2)获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值;/n3)根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行繁简分流。/n
【技术特征摘要】
1.一种基于相似文本的案件繁简分流方法,其特征在于,包括以下步骤;
1)建立数据库,并在数据库中储存样本案件的文本信息;
2)获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值;
3)根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行繁简分流。
2.如权利要求1所述的一种基于相似文本的案件繁简分流方法,其特征在于,所述步骤2)中,获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值的方法,包括以下步骤:
2.1)获取待分流案件的文本信息,并与数据库中的任一样本案件进行比较,计算待分流案件与该样本案件的文本相似度;
2.2)设定相似度阈值,若待分流案件与该样本案件的文本相似度不小于相似度阈值,则认为该样本案件为待分流案件的相似文本案件;
2.3)重复步骤2.1)~2.2),判断数据库中所有样本案件是否为待分流案件的相似文本案件,得到所有样本案件中的相似文本案件的数量;
2.4)计算相似文本案件在所有样本案件中所占的比例,作为待分流案件的相似度比例值。
3.如权利要求2所述的一种基于相似文本的案件繁简分流方法,其特征在于,所述步骤2.1)中,获取待分流案件的文本信息,并与数据库中的任一样本案件进行比较,计算待分流案件与该样本案件的文本相似度的方法,包括以下步骤:
2.1.1)建立文本相似度计算模型,所述文本相似度计算模型包括嵌入层、长短期记忆神经网络层、卷积神经网络层、额外特征层和输出层;
2.1.2)将待分流案件与该样本案件的文本信息分别映射到嵌入层,得到待分流案件和样本案件的文本特征矩阵,并输出到长短期记忆神经网络层和卷积神经网络层;
2.1.3)在长短期记忆神经网络层中分别提取待分流案件与样本案件的第一文本特征信息,同时在卷积神经网络层中分别提取待分流案件与样本案件的第二文本特征信息,并将长短期记忆神经网络层与卷积神经网络层中提取得到的第一文本特征信息和第二文本特征信息均输出到额外特征层;
2.1.4)在额外特征层中,分别根据待分流案件和样本文件的第一文本特征信息和第二文本特征信息得到二者的总的文本特征信息,根据二者的总的文本特征信息,计算得到待分流案件和样本文件的法律重叠词分数和法律要素对比向量;
2.1.5)在输出层中,综合考虑待分流案件的文本特征信息、样本案件的文本特征信息、法律重叠词分数及法律要素对比向量,计算得到待分流案件与样本案件的文本相似度。
<...
【专利技术属性】
技术研发人员:张建悦,张吉豫,邓矜婷,熊丙万,
申请(专利权)人:中国人民大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。