【技术实现步骤摘要】
一种基于大数据的相关法律推荐方法
[0001]本专利技术涉及大数据研究领域,具体涉及一种基于大数据的相关法律推荐方法。
技术介绍
[0002]随着社会经济的发展和国家普法工作的开展,我国人民的法律意识越来越强。当人们遇到问题的时候,会了解和该问题相关的国家法律和地方规定,然而,我国法律众多,加上各个地方的法规,海量的数据让人们在搜索法律条款时需要花费大量的精力。因此,一个能够根据输入的问题推荐相关法律的系统就显得尤其重要。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:目前相关法律推荐方法主要有两种,一种通过数据库自带的搜索功能进行推荐;另一种是通过相似度计算的方法进行相关法律推荐。前者推荐准确率不高,后者在大数据量的情况下时间复杂度很大。
技术实现思路
[0004]为了克服现有技术的不足,本专利技术提供了一种基于大数据的相关法律推荐方法,通过将elastic search数据库搜索功能和基于余弦相似度的推荐方法集合,既提高了推荐准确率,也避免了时间的大量开销。技术方案如下:
[0005]本专利技术提供了一种基于大数据的相关法律推荐方法,该方法包括如下步骤:
[0006]步骤1,基于爬虫技术,爬取法律法规数据,构建法律法规数据库,并对法律法规数据进行预处理。
[0007]将法律法规数据导入elastic search数据库中,根据需要对字段属性进行设计,选择ik分词器作为分词器插件,创建索引时使用ik分词器的ik_max_word模式,对 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的相关法律推荐方法,其特征在于,该方法包括如下步骤:步骤1,基于爬虫技术,爬取法律法规数据,构建法律法规数据库,并对法律法规数据进行预处理;将法律法规数据导入elastic search数据库中,根据需要对字段属性进行设计,选择ik分词器作为分词器插件,创建索引时使用ik分词器的ik_max_word模式,对文本进行最细粒度的分词;搜索时使用ik分词器的ik_smart模式,对文本进行最粗粒度的分词;在elastic search数据库中添加构建好的自定义词典、同义词和停用词词典;步骤2,基于elastic search数据库,进行案例问题的相关法律的搜索;设计搜索语句:通过考虑法律法规适用地区、内容、标题、有效性、关键词、适用领域的因素,设计匹配到的法律必须满足的条件和能够提高相关性得分的条件;通过文本处理的方法,提取案例问题所处的地区,内容、关键词的信息,利用上述设计好的搜索语句,设计相关性得分阈值,过滤掉低于该阈值的法律法规数据,将搜索出的法律法规数据按照相关性得分进行降序排列,考虑到后续程序运行时消耗的时间与空间成本,只保留前n条,返回这n条法律法规和它们在elastic search的相关性得分;步骤3,基于余弦相似度,对所述相关法律进行进一步的筛选;首先,对所述相关法律用LAC分词工具进行分词:加载构建好的LAC自定义词典,调用LAC分词工具的接口,对相关法律进行分词,对分词结果使用构建好的停用词词典进行停用词去除,对LAC模型的进行重新训练,得到适合法律领域的分词模型,同时将分词结果添加到步骤1所述的elastic search自定义词典中,迭代更新该词典;其次,对分词结果进行语义相似处理,识别同义词:对分词处理后的若干词语,使用训练好的Word2Vec模型将词语转化为向量,计算任意两个词语的余弦相似度,如果计算出的相似度高于设定阈值,就将其中的一个词全部换成另一个词得到新的分词结果;同时,将Word2Vec模型预测出来的同义词添加到elastic search同义词词典中,迭代该同义词词典;再次,利用词袋模型和TF_IDF算法,将分词结果转化为带权重的标准化向量:将所述新的分词结果中所有词语去重后混到一起,形成词袋,给词袋中每个词语标上编号,利用标上编号后的词袋,将分词结果转化成词向量,形式为:[(N1,C1),(N2,C2),
…
(N
n
,C
n
)],其中,N
i
表示词语在词袋中的编号,C
i
表示该词语在集合中出现的次数,i∈{1、2、
……
、n};基于转化好的词向量,利用TF
‑
IDF算法计算出每个词向量中各个分量的权重TF_IDF
t,e
,生成带权重的标准化向量,具体为:其中,count(t)为词语t在法律e
j
分词结果中出现的频次,|e
j
|为法律e
...
【专利技术属性】
技术研发人员:陈鹏,熊林海,周金明,
申请(专利权)人:南京视察者智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。