裁判文书的检索方法及装置制造方法及图纸

技术编号：21628921 阅读：24 留言：0更新日期：2019-07-17 11:05

本申请公开了一种裁判文书的检索方法及装置。该方法包括：获取检索文本；对检索文本进行分词处理，得到分词集合，其中，分词集合中包括多个分词；标记分词集合中的每个分词对应的词性；对分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；基于过滤后的分词集合中分词检索目标裁判文书。通过本申请，解决了相关技术中基于语义检索裁判文书的准确率较低的问题。

Retrieval Method and Device of Judgment Documents

全部详细技术资料下载

【技术实现步骤摘要】
裁判文书的检索方法及装置
本申请涉及裁判文书检索
，具体而言，涉及一种裁判文书的检索方法及装置。
技术介绍
相关技术中基于语义对裁判文书的检索，检索流程为：对检索内容进行分词，将分词结果在支持lunce的数据库中进行匹配打分检索，根据打分结果展示排名在前的裁判文书。例如：检索内容为“我被张三打了”，分词结果为我、被、张三、打、了、打了，再对基于分词结果检索到的裁判文书进行打分，根据分值高低对裁判文书进行排名，其实搜索的核心内容是被打，与“张三”、“我”、“了”并没有过多的关联，而检索到的某些裁判文书中存在大量的“张三”、“我”、“了”等词，同时不存在“被”、“打”等关键核心词语，会导致这些无关文书排名靠前，导致检索到的裁判文书并不准确，不符合用户预期。针对相关技术中基于语义检索裁判文书的准确率较低的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种裁判文书的检索方法及装置，以解决相关技术中基于语义检索裁判文书的准确率较低的问题。为了实现上述目的，根据本申请的一个方面，提供了一种裁判文书的检索方法。该方法包括：获取检索文本；对所述检索文本进行分词处理，得到分词集合，其中，所述分词集合中包括多个分词；标记所述分词集合中的每个分词对应的词性；对所述分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；基于所述过滤后的分词集合中分词检索目标裁判文书。进一步地，基于所述过滤后的分词集合中分词检索目标裁判文书包括：确定所述过滤后的分词集合中分词的所占内存空间；基于所述过滤后的分词集合中分词的所占内存空间选择目标算法；采用所述目标...

【技术保护点】
1.一种裁判文书的检索方法，其特征在于，包括：获取检索文本；对所述检索文本进行分词处理，得到分词集合，其中，所述分词集合中包括多个分词；标记所述分词集合中的每个分词对应的词性；对所述分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；基于所述过滤后的分词集合中分词检索目标裁判文书。

【技术特征摘要】
1.一种裁判文书的检索方法，其特征在于，包括：获取检索文本；对所述检索文本进行分词处理，得到分词集合，其中，所述分词集合中包括多个分词；标记所述分词集合中的每个分词对应的词性；对所述分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；基于所述过滤后的分词集合中分词检索目标裁判文书。2.根据权利要求1所述的方法，其特征在于，基于所述过滤后的分词集合中分词检索目标裁判文书包括：确定所述过滤后的分词集合中分词的所占内存空间；基于所述过滤后的分词集合中分词的所占内存空间选择目标算法；采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值；获取分值满足预设值的裁判文书；将分值满足预设值的裁判文书作为所述目标裁判文书。3.根据权利要求2所述的方法，其特征在于，基于所述过滤后的分词集合中分词的所占内存空间选择目标算法包括：判断所述过滤后的分词集合中分词的所占内存空间是否超过预设值；若所述过滤后的分词集合中分词的所占内存空间超过预设值，将余弦向量夹角算法作为所述目标算法；若所述过滤后的分词集合中分词的所占内存空间未超过预设值，将最长公共子序列算法作为所述目标算法，或者，判断所述过滤后的分词集合中分词的数量是否超过预设数量；若所述过滤后的分词集合中分词的数量超过所述预设数量，将余弦向量夹角算法作为所述目标算法；若所述过滤后的分词集合中分词的数量未超过所述预设数量，将最长公共子序列算法作为所述目标算法。4.根据权利要求3所述的方法，其特征在于，当所述目标算法为余弦向量夹角算法时，采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括：对于每篇裁判文书，执行如下操作：对所述裁判文书进行分词，得到所述裁判文书的分词结果；确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词；统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数；根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数，确定所述裁判文书和所述检索文本各自对应的向量；采用余弦向量夹角算法，基于所述裁判文书和检索文本各自对应的向量，确定所述裁判文书和所述检索文本的相似度；基于所述裁判文书和所述检索文本的相似度确定所述裁判文书对应的分值。5.根据权利要求3所述的方法，其特征在于，当所述目标算法为最长公共子序列算法时，采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括：对于每篇裁判文书，执行如下操作：对所述裁判文书进行分词，得到所述裁判文书的分词结果；将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵...

【专利技术属性】
技术研发人员：石鹏，范浩文，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人