法律信息重复率检测系统及检测方法技术方案

技术编号:20546074 阅读:23 留言:0更新日期:2019-03-09 19:00
法律信息重复率检测系统及检测方法。目前都是通过链表机制来做是否重复的判断,判断的依据是法律文书对应的案号字段,这种处理方法在计算效率和重复率上均有明显不足。本发明专利技术组成包括:获取模块(1)、判断模块(6)、插入模块(8)和存储模块(10),所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接,所述的判断模块包括生成模块(2)、第一映射模块(3)和过滤模块(4),所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。本发明专利技术用于法律信息重复率检测系统及检测方法。

Legal Information Repetition Rate Detection System and Detection Method

Legal information repetition rate detection system and detection methods. At present, the chain list mechanism is used to judge whether to repeat or not. The basis of the judgment is the field of case number corresponding to legal documents. This method has obvious deficiencies in computational efficiency and repetition rate. The invention consists of an acquisition module (1), a judgment module (6), an insertion module (8) and a storage module (10). The acquisition module is electrically connected with the judgment module, the judgment module is electrically connected with the insertion module, the insertion module is electrically connected with the storage module, and the judgment module includes a generation module (2), a first mapping module. The generating module is electrically connected with the first mapping module, and the first mapping module is electrically connected with the filter module. The invention is used for a legal information repetition rate detection system and a detection method.

【技术实现步骤摘要】
法律信息重复率检测系统及检测方法
:本专利技术涉及法律查询领域,具体涉及一种法律信息重复率检测系统及检测方法。
技术介绍
:当前国家推行司法公开制度,例如,法院作出判决后,都会将判决文书公开发布到网上。这其中既包括最高院的裁判文书网,也包括各地方法院的公开文书库,而集中文书库本身就包含各地方法院的公开文书库部分。目前,相关技术中都是通过传统的链表机制来做是否重复的判断,判断的依据是法律文书对应的案号字段,这种处理方法在计算效率和重复率上均有明显不足。
技术实现思路
:本专利技术的目的是解决现有的链表机制处理方法在计算效率和重复率上均有明显不足的问题,提供一种重复率计算效率高,计算准确的法律信息重复率检测系统及检测方法。上述的目的通过以下的技术方案实现:一种法律信息重复率检测系统,其组成包括:获取模块、判断模块、插入模块和存储模块,所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接;所述的判断模块包括生成模块、第一映射模块和过滤模块,所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。所述的法律信息重复率检测系统,所述的插入模块包括统计模块、第二映射模块和置位模块,所述的统计模块与所述的第二映射模块电连接,所述的第二映射模块与所述的置位模块电连接。一种法律信息重复率检测系统的检测方法,该方法包括如下步骤:(1)获取待检测的法律文书的案号及法律文书对应的法院信息;(2)根据案号和法院信息,判断法律文书是否存在于过滤器中,过滤器用于检索一篇法律文书是否已经在一个法律文书集合中,在判断出所述法律文书不存在于所述过滤器中的情况下,确定文书库中不存在与所述法律文书重复的文书,将存在与法律文书集合中的法律文书进行重复判断三次;(3)将所述法律文书对应的标识插入所述过滤器中并进行存储。所述的法律信息重复率检测系统的检测方法,所述的步骤二的具体过程为:根据所述案号和所述法院信息,生成N个不同的随机数,判断所述布隆过滤器中与所述N个自然数对应的二进制位置是否全部为1,其中,若全部为1,则表示所述法律文书重复,若不全部为1,则表示所述法律文书不重复,将存在与法律文书集合中的法律文书进行重复判断三次,判断完成后进行筛选。所述的法律信息重复率检测系统的检测方法,所述的步骤三的具体过程为:根据法律文书的案号及法律文书对应的法院信息,将生成的N个不同的随机数进行统计,将N个不同的随机数全部对应映射到预设数值范围内的N个自然数上,将布隆过滤器中与N个自然数对应的二进制位置全部置1,其中,N个自然数对应的二进制位置全部置1表示法律文书已插入布隆过滤器中,插入到布隆过滤器中的法律文书进行存储。有益效果:本专利技术通过过滤器过滤法律文书是否重复的目的,由于使用过滤器过滤,无需经过文书查找和比对阶段,从而实现了提高法律文书判重的计算效率低的技术效果。本专利技术计算效率高,计算重复率准确度可达99%,计算准确率高,解决了链表机制来做法律文书是否重复的检测容易造成计算效率低的问题。本专利技术布隆过滤器可以用于检索一个元素是否在一个集合中,将其应用于文书是否重复的判定流程,则可以检索一篇文书是否在一个法律文书库中,其优点在于控件效率和查询时间都远远超过一般的算法。附图说明:附图1是本专利技术的系统原理图;图中:1、获取模块;2、生成模块;3、第一映射模块;4、过滤模块;5、统计模块;6、判断模块;7、第二映射模块;8、插入模块;9、置位模块;10、存储模块。具体实施方式:实施例1:一种法律信息重复率检测系统,其组成包括:获取模块1、判断模块6、插入模块8和存储模块10,所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接;所述的判断模块包括生成模块2、第一映射模块3和过滤模块4,所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。实施例2:根据实施例1所述的法律信息重复率检测系统,所述的插入模块包括统计模块5、第二映射模块7和置位模块9,所述的统计模块与所述的第二映射模块电连接,所述的第二映射模块与所述的置位模块电连接。实施例3:一种实施例1-2所述的法律信息重复率检测系统的检测方法,该方法包括如下步骤:(1)获取待检测的法律文书的案号及法律文书对应的法院信息;(2)根据案号和法院信息,判断法律文书是否存在于过滤器中,过滤器用于检索一篇法律文书是否已经在一个法律文书集合中,在判断出所述法律文书不存在于所述过滤器中的情况下,确定文书库中不存在与所述法律文书重复的文书,将存在与法律文书集合中的法律文书进行重复判断三次;(3)将所述法律文书对应的标识插入所述过滤器中并进行存储。实施例4:根据实施例3所述的法律信息重复率检测系统的检测方法,所述的步骤二的具体过程为:根据所述案号和所述法院信息,生成N个不同的随机数,判断所述布隆过滤器中与所述N个自然数对应的二进制位置是否全部为1,其中,若全部为1,则表示所述法律文书重复,若不全部为1,则表示所述法律文书不重复,将存在与法律文书集合中的法律文书进行重复判断三次,判断完成后进行筛选。实施例5:根据实施例3所述的法律信息重复率检测系统的检测方法,所述的步骤三的具体过程为:根据法律文书的案号及法律文书对应的法院信息,将生成的N个不同的随机数进行统计,将N个不同的随机数全部对应映射到预设数值范围内的N个自然数上,将布隆过滤器中与N个自然数对应的二进制位置全部置1,其中,N个自然数对应的二进制位置全部置1表示法律文书已插入布隆过滤器中,插入到布隆过滤器中的法律文书进行存储。获取法律文书的方式可以包括通过网络爬虫等方式。此处,法律文书可以包括但不限于判决文书,裁定文书,诉讼文书等。在获取某一篇法律文书之后,可以先确定该文书的案号,再根据该案号判断该文书是否已经存在于过滤器中,即是否已经插入该过滤器中了,由于法院等司法机关立案或者作出任何判决、裁定决定后,为了便于登记和识别,都会给相应的文书分配一个案号,因此,将案号作为文书的标识,并使得过滤器基于该标识进行重复检索,可以确定某一篇文书是否已经在一个法律文书集合中了。若否,则确定文书库中还没有与本次获取的文书重复的文书,因此,可以将本次获取的文书入库;若是,则确定文书库中已经有与本次获取的文书重复的文书了,而如果再将本次获取的这篇文书入库,则必然会导致文书库存在重复文书,不仅占用大量空间,而且会导致数据冗余,甚至导致后续数据查询出错,因此,在这种情况下,是不希望再次将该文书入库的。与基于链表机制判重的技术方案相比,使用过滤器进行过滤,进而对文书进行判重处理,无需逐一查找已经存储的文书,也无需与找到的文书进行一一比对,提高了工作效率,节约了工作时间,达到了快速、高效地判断文书是否重复的目的。本文档来自技高网...

【技术保护点】
1.一种法律信息重复率检测系统,其组成包括:获取模块、判断模块、插入模块和存储模块,其特征是:所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接;所述的判断模块包括生成模块、第一映射模块和过滤模块,所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。

【技术特征摘要】
1.一种法律信息重复率检测系统,其组成包括:获取模块、判断模块、插入模块和存储模块,其特征是:所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接;所述的判断模块包括生成模块、第一映射模块和过滤模块,所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。2.根据权利要求1所述的法律信息重复率检测系统,其特征是:所述的插入模块包括统计模块、第二映射模块和置位模块,所述的统计模块与所述的第二映射模块电连接,所述的第二映射模块与所述的置位模块电连接。3.一种权利要求1-2所述的法律信息重复率检测系统的检测方法,其特征是:该方法包括如下步骤:(1)获取待检测的法律文书的案号及法律文书对应的法院信息;(2)根据案号和法院信息,判断法律文书是否存在于过滤器中,过滤器用于检索一篇法律文书是否已经在一个法律文书集合中,在判断出所述法律文书不存在于所述过滤器中的情况下,确定文书库中不存在与所述法律...

【专利技术属性】
技术研发人员:邓齐滨
申请(专利权)人:哈尔滨金融学院
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1