一种基于大数据的相关法律推荐方法技术

技术编号：33345190 阅读：80 留言：0更新日期：2022-05-08 09:38

本发明专利技术公开了一种基于大数据的相关法律推荐方法，该方法包括步骤1，基于爬虫技术，爬取法律法规数据，构建法律法规数据库，并对法律法规数据进行预处理。步骤2，基于elastic search数据库，进行案例问题的相关法律的搜索。步骤3，基于余弦相似度，对所述相关法律进行进一步的筛选。步骤4，将步骤2得到的相关法律的elastic search相关性得分和步骤3得到的余弦相似度进行加权，得到加权相似度，筛选出最终的相关法律返回推荐。该方法通过将elastic search数据库搜索功能和基于余弦相似度的推荐方法集合，既提高了推荐准确率，也避免了时间的大量开销。避免了时间的大量开销。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的相关法律推荐方法

[0001]本专利技术涉及大数据研究领域，具体涉及一种基于大数据的相关法律推荐方法。

技术介绍

[0002]随着社会经济的发展和国家普法工作的开展，我国人民的法律意识越来越强。当人们遇到问题的时候，会了解和该问题相关的国家法律和地方规定，然而，我国法律众多，加上各个地方的法规，海量的数据让人们在搜索法律条款时需要花费大量的精力。因此，一个能够根据输入的问题推荐相关法律的系统就显得尤其重要。
[0003]在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：目前相关法律推荐方法主要有两种，一种通过数据库自带的搜索功能进行推荐；另一种是通过相似度计算的方法进行相关法律推荐。前者推荐准确率不高，后者在大数据量的情况下时间复杂度很大。

技术实现思路

[0004]为了克服现有技术的不足，本专利技术提供了一种基于大数据的相关法律推荐方法，通过将elastic search数据库搜索功能和基于余弦相似度的推荐方法集合，既提高了推荐准确率，也避免了时间的大量开销。技术方案如下：
[0本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的相关法律推荐方法，其特征在于，该方法包括如下步骤：步骤1，基于爬虫技术，爬取法律法规数据，构建法律法规数据库，并对法律法规数据进行预处理；将法律法规数据导入elastic search数据库中，根据需要对字段属性进行设计，选择ik分词器作为分词器插件，创建索引时使用ik分词器的ik_max_word模式，对文本进行最细粒度的分词；搜索时使用ik分词器的ik_smart模式，对文本进行最粗粒度的分词；在elastic search数据库中添加构建好的自定义词典、同义词和停用词词典；步骤2，基于elastic search数据库，进行案例问题的相关法律的搜索；设计搜索语句：通过考虑法律法规适用地区、内容、标题、有效性、关键词、适用领域的因素，设计匹配到的法律必须满足的条件和能够提高相关性得分的条件；通过文本处理的方法，提取案例问题所处的地区，内容、关键词的信息，利用上述设计好的搜索语句，设计相关性得分阈值，过滤掉低于该阈值的法律法规数据，将搜索出的法律法规数据按照相关性得分进行降序排列，考虑到后续程序运行时消耗的时间与空间成本，只保留前n条，返回这n条法律法规和它们在elastic search的相关性得分；步骤3，基于余弦相似度，对所述相关法律进行进一步的筛选；首先，对所述相关法律用LAC分词工具进行分词：加载构建好的LAC自定义词典，调用LAC分词工具的接口，对相关法律进行分词，对分词结果使用构建好的停用词词典进行停用词去除，对LAC模型的进行重新训练，得到适合法律领域的分词模型，同时将分词结果添加到步骤1所述的elastic search自定义词典中，迭代更新该词典；其次，对分词结果进行语义相似处理，识别同义词：对分词处理后的若干词语，使用训练好的Word2Vec模型将词语转化为向量，计算任意两个词语的余弦相似度，如果计算出的相似度高于设定阈值，就将其中的一个词全部换成另一个词得到新的分词结果；同时，将Word2Vec模型预测出来的同义词添加到elastic search同义词词典中，迭代该同义词词典；再次，利用词袋模型和TF_IDF算法，将分词结果转化为带权重的标准化向量：将所述新的分词结果中所有词语去重后混到一起，形成词袋，给词袋中每个词语标上编号，利用标上编号后的词袋，将分词结果转化成词向量，形式为：[(N1,C1),(N2,C2),
…
(N
n
,C
n
)]，其中，N
i
表示词语在词袋中的编号，C
i
表示该词语在集合中出现的次数，i∈{1、2、
……
、n}；基于转化好的词向量，利用TF
‑
IDF算法计算出每个词向量中各个分量的权重TF_IDF
t,e
，生成带权重的标准化向量，具体为：其中，count(t)为词语t在法律e
j
分词结果中出现的频次，|e
j
|为法律e
...

【专利技术属性】
技术研发人员：陈鹏，熊林海，周金明，
申请(专利权)人：南京视察者智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人