裁判文书的检索方法及装置制造方法及图纸

技术编号:21628921 阅读:24 留言:0更新日期:2019-07-17 11:05
本申请公开了一种裁判文书的检索方法及装置。该方法包括:获取检索文本;对检索文本进行分词处理,得到分词集合,其中,分词集合中包括多个分词;标记分词集合中的每个分词对应的词性;对分词集合中预设词性和实体词的分词进行过滤,得到过滤后的分词集合;基于过滤后的分词集合中分词检索目标裁判文书。通过本申请,解决了相关技术中基于语义检索裁判文书的准确率较低的问题。

Retrieval Method and Device of Judgment Documents

【技术实现步骤摘要】
裁判文书的检索方法及装置
本申请涉及裁判文书检索
,具体而言,涉及一种裁判文书的检索方法及装置。
技术介绍
相关技术中基于语义对裁判文书的检索,检索流程为:对检索内容进行分词,将分词结果在支持lunce的数据库中进行匹配打分检索,根据打分结果展示排名在前的裁判文书。例如:检索内容为“我被张三打了”,分词结果为我、被、张三、打、了、打了,再对基于分词结果检索到的裁判文书进行打分,根据分值高低对裁判文书进行排名,其实搜索的核心内容是被打,与“张三”、“我”、“了”并没有过多的关联,而检索到的某些裁判文书中存在大量的“张三”、“我”、“了”等词,同时不存在“被”、“打”等关键核心词语,会导致这些无关文书排名靠前,导致检索到的裁判文书并不准确,不符合用户预期。针对相关技术中基于语义检索裁判文书的准确率较低的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种裁判文书的检索方法及装置,以解决相关技术中基于语义检索裁判文书的准确率较低的问题。为了实现上述目的,根据本申请的一个方面,提供了一种裁判文书的检索方法。该方法包括:获取检索文本;对所述检索文本进行分词处理,得到分词集合,其中,所述分词集合中包括多个分词;标记所述分词集合中的每个分词对应的词性;对所述分词集合中预设词性和实体词的分词进行过滤,得到过滤后的分词集合;基于所述过滤后的分词集合中分词检索目标裁判文书。进一步地,基于所述过滤后的分词集合中分词检索目标裁判文书包括:确定所述过滤后的分词集合中分词的所占内存空间;基于所述过滤后的分词集合中分词的所占内存空间选择目标算法;采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值;获取分值满足预设值的裁判文书;将分值满足预设值的裁判文书作为所述目标裁判文书。进一步地,基于所述过滤后的分词集合中分词的所占内存空间选择目标算法包括:判断所述过滤后的分词集合中分词的所占内存空间是否超过预设值;若所述过滤后的分词集合中分词的所占内存空间超过预设值,将余弦向量夹角算法作为所述目标算法;若所述过滤后的分词集合中分词的所占内存空间未超过预设值,将最长公共子序列算法作为所述目标算法,或者,判断所述过滤后的分词集合中分词的数量是否超过预设数量;若所述过滤后的分词集合中分词的数量超过所述预设数量,将余弦向量夹角算法作为所述目标算法;若所述过滤后的分词集合中分词的数量未超过所述预设数量,将最长公共子序列算法作为所述目标算法。进一步地,当所述目标算法为余弦向量夹角算法时,采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括:对于每篇裁判文书,执行如下操作:对所述裁判文书进行分词,得到所述裁判文书的分词结果;确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词;统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数;根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数,确定所述裁判文书和所述检索文本各自对应的向量;采用余弦向量夹角算法,基于所述裁判文书和检索文本各自对应的向量,确定所述裁判文书和所述检索文本的相似度;基于所述裁判文书和所述检索文本的相似度确定所述裁判文书对应的分值。进一步地,在对所述裁判文书进行分词得到所述裁判文书的分词结果之后、确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词之前,所述方法还包括:对所述裁判文书的分词结果进行过滤,得到所述裁判文书的过滤后的分词结果;则所述确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词包括:确定在所述裁判文书的过滤后的分词结果和所述过滤后的分词集合中都出现的相同的词;所述统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数包括:统计每种所述相同的词分别在所述裁判文书的过滤后的分词结果和所述过滤后的分词集合中出现的次数;所述根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数、确定所述裁判文书和所述检索文本各自对应的向量包括;根据所述相同的词分别在所述裁判文书的过滤后的分词结果和过滤后的分词集合中出现的次数,确定所述裁判文书和所述检索文本各自对应的向量。进一步地,当所述目标算法为最长公共子序列算法时,采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括:对于每篇裁判文书,执行如下操作:对所述裁判文书进行分词,得到所述裁判文书的分词结果;将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵;分析所述矩阵的节点每行和每列的分词是否相同;在所述矩阵的节点中存在行和列的分词相同的情况下,将对该节点进行标记;基于所述矩阵的节点中的标记,获取所述裁判文书与所述过滤后的分词集合中分词的最长公共子串;基于所述裁判文书与所述过滤后的分词集合中分词的最长公共子串确定所述裁判文书对应的分值。进一步地,在对所述裁判文书进行分词得到所述裁判文书的分词结果之后、将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵之前,所述方法还包括:对所述裁判文书的分词结果进行过滤,得到所述裁判文书的过滤后的分词结果;则将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵包括:将所述过滤后的分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵。为了实现上述目的,根据本申请的另一方面,提供了一种裁判文书的检索装置。该装置包括:获取单元,用于获取检索文本;处理单元,用于对所述检索文本进行分词处理,得到分词集合,其中,所述分词集合中包括多个分词;标记单元,用于标记所述分词集合中的每个分词对应的词性;过滤单元,用于对所述分词集合中预设词性和实体词的分词进行过滤,得到过滤后的分词集合;检索单元,用于基于所述过滤后的分词集合中分词检索目标裁判文书。为了实现上述目的,根据本申请的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的裁判文书的检索方法。为了实现上述目的,根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的裁判文书的检索方法。通过本申请,采用以下步骤:获取检索文本;对检索文本进行分词处理,得到分词集合,其中,分词集合中包括多个分词;标记分词集合中的每个分词对应的词性;对分词集合中预设词性的分词进行过滤,得到过滤后的分词集合;基于过滤后的分词集合中分词检索目标裁判文书,解决了相关技术中基于语义检索裁判文书的准确率较低的问题。通过对检索文本进行分词,并对分词结果中的预设词性和实体词的分词进行过滤,然后基于过滤后的分词检索裁判文书,进而达到了提升基于语义检索裁判文书的准确率的效果。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例提供的裁判文书的检索方法的流程图;以及图2是根据本申请实施例提供的裁判文书的检索装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人本文档来自技高网
...

【技术保护点】
1.一种裁判文书的检索方法,其特征在于,包括:获取检索文本;对所述检索文本进行分词处理,得到分词集合,其中,所述分词集合中包括多个分词;标记所述分词集合中的每个分词对应的词性;对所述分词集合中预设词性和实体词的分词进行过滤,得到过滤后的分词集合;基于所述过滤后的分词集合中分词检索目标裁判文书。

【技术特征摘要】
1.一种裁判文书的检索方法,其特征在于,包括:获取检索文本;对所述检索文本进行分词处理,得到分词集合,其中,所述分词集合中包括多个分词;标记所述分词集合中的每个分词对应的词性;对所述分词集合中预设词性和实体词的分词进行过滤,得到过滤后的分词集合;基于所述过滤后的分词集合中分词检索目标裁判文书。2.根据权利要求1所述的方法,其特征在于,基于所述过滤后的分词集合中分词检索目标裁判文书包括:确定所述过滤后的分词集合中分词的所占内存空间;基于所述过滤后的分词集合中分词的所占内存空间选择目标算法;采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值;获取分值满足预设值的裁判文书;将分值满足预设值的裁判文书作为所述目标裁判文书。3.根据权利要求2所述的方法,其特征在于,基于所述过滤后的分词集合中分词的所占内存空间选择目标算法包括:判断所述过滤后的分词集合中分词的所占内存空间是否超过预设值;若所述过滤后的分词集合中分词的所占内存空间超过预设值,将余弦向量夹角算法作为所述目标算法;若所述过滤后的分词集合中分词的所占内存空间未超过预设值,将最长公共子序列算法作为所述目标算法,或者,判断所述过滤后的分词集合中分词的数量是否超过预设数量;若所述过滤后的分词集合中分词的数量超过所述预设数量,将余弦向量夹角算法作为所述目标算法;若所述过滤后的分词集合中分词的数量未超过所述预设数量,将最长公共子序列算法作为所述目标算法。4.根据权利要求3所述的方法,其特征在于,当所述目标算法为余弦向量夹角算法时,采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括:对于每篇裁判文书,执行如下操作:对所述裁判文书进行分词,得到所述裁判文书的分词结果;确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词;统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数;根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数,确定所述裁判文书和所述检索文本各自对应的向量;采用余弦向量夹角算法,基于所述裁判文书和检索文本各自对应的向量,确定所述裁判文书和所述检索文本的相似度;基于所述裁判文书和所述检索文本的相似度确定所述裁判文书对应的分值。5.根据权利要求3所述的方法,其特征在于,当所述目标算法为最长公共子序列算法时,采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括:对于每篇裁判文书,执行如下操作:对所述裁判文书进行分词,得到所述裁判文书的分词结果;将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵...

【专利技术属性】
技术研发人员:石鹏范浩文
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1