一种基于大数据的相关法律推荐方法技术

技术编号:33345190 阅读:57 留言:0更新日期:2022-05-08 09:38
本发明专利技术公开了一种基于大数据的相关法律推荐方法,该方法包括步骤1,基于爬虫技术,爬取法律法规数据,构建法律法规数据库,并对法律法规数据进行预处理。步骤2,基于elastic search数据库,进行案例问题的相关法律的搜索。步骤3,基于余弦相似度,对所述相关法律进行进一步的筛选。步骤4,将步骤2得到的相关法律的elastic search相关性得分和步骤3得到的余弦相似度进行加权,得到加权相似度,筛选出最终的相关法律返回推荐。该方法通过将elastic search数据库搜索功能和基于余弦相似度的推荐方法集合,既提高了推荐准确率,也避免了时间的大量开销。避免了时间的大量开销。

【技术实现步骤摘要】
一种基于大数据的相关法律推荐方法


[0001]本专利技术涉及大数据研究领域,具体涉及一种基于大数据的相关法律推荐方法。

技术介绍

[0002]随着社会经济的发展和国家普法工作的开展,我国人民的法律意识越来越强。当人们遇到问题的时候,会了解和该问题相关的国家法律和地方规定,然而,我国法律众多,加上各个地方的法规,海量的数据让人们在搜索法律条款时需要花费大量的精力。因此,一个能够根据输入的问题推荐相关法律的系统就显得尤其重要。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:目前相关法律推荐方法主要有两种,一种通过数据库自带的搜索功能进行推荐;另一种是通过相似度计算的方法进行相关法律推荐。前者推荐准确率不高,后者在大数据量的情况下时间复杂度很大。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供了一种基于大数据的相关法律推荐方法,通过将elastic search数据库搜索功能和基于余弦相似度的推荐方法集合,既提高了推荐准确率,也避免了时间的大量开销。技术方案如下:
[0005]本专利技术提供了一种基于大数据的相关法律推荐方法,该方法包括如下步骤:
[0006]步骤1,基于爬虫技术,爬取法律法规数据,构建法律法规数据库,并对法律法规数据进行预处理。
[0007]将法律法规数据导入elastic search数据库中,根据需要对字段属性进行设计,选择ik分词器作为分词器插件,创建索引时使用ik分词器的ik_max_word模式,对文本进行最细粒度的分词;搜索时使用ik分词器的ik_smart模式,对文本进行最粗粒度的分词。
[0008]在elastic search数据库中添加构建好的自定义词典、同义词和停用词词典。
[0009]步骤2,基于elastic search数据库,进行案例问题的相关法律的搜索。
[0010]设计搜索语句:通过考虑法律法规适用地区、内容、标题、有效性、关键词、适用领域等因素,设计匹配到的法律必须满足的条件和能够提高相关性得分的条件。
[0011]通过文本处理的方法,提取案例问题所处的地区,内容、关键词等信息,利用上述设计好的搜索语句,设计相关性得分阈值,过滤掉低于该阈值的法律法规数据,将搜索出的法律法规数据按照相关性得分进行降序排列,考虑到后续程序运行时消耗的时间与空间成本,只保留前n条,返回这n条法律法规和它们在 elastic search的相关性得分。
[0012]步骤3,基于余弦相似度,对所述相关法律进行进一步的筛选。
[0013]首先,对所述相关法律用LAC分词工具进行分词:加载构建好的LAC自定义词典,调用LAC分词工具的接口,对相关法律进行分词,对分词结果使用构建好的停用词词典进行停用词去除,对LAC模型的进行重新训练,得到适合法律领域的分词模型,同时将分词结果添加到步骤1所述的elastic search自定义词典中,迭代更新该词典。
[0014]其次,对分词结果进行语义相似处理,识别同义词:对分词处理后的若干词语,使用训练好的Word2Vec模型将词语转化为向量,计算任意两个词语的余弦相似度,如果计算出的相似度高于设定阈值,就将其中的一个词全部换成另一个词得到新的分词结果。同时,将Word2Vec模型预测出来的同义词添加到elasticsearch同义词词典中,迭代该同义词词典。
[0015]再次,利用词袋模型和TF_IDF算法,将分词结果转化为带权重的标准化向量:
[0016]将所述新的分词结果中所有词语去重后混到一起,形成词袋,给词袋中每个词语标上编号,利用标上编号后的词袋,将分词结果转化成词向量,形式为: [(N1,C1),(N2,C2),

(N
n
,C
n
)],其中,N
i
表示词语在词袋中的编号,C
i
表示该词语在集合中出现的次数,i∈{1、2、
……
、n};基于转化好的词向量,利用TF

IDF 算法计算出每个词向量中各个分量的权重TF_IDF
t,e
,生成带权重的标准化向量,具体为:
[0017][0018]其中,count(t)为词语t在法律e
j
分词结果中出现的频次,|e
j
|为法律e
j
分词结果中词语的数量,m为法律的总数,I(t,e
j
)表示法律e
j
分词结果中是否包含词语 t,若包含则为1,否则为0。
[0019]同理,将案例问题也转化成带权重的标准化向量;
[0020]计算前n条法律法规中的每一条法律和案例问题的余弦相似度,具体计算方法如下:
[0021][0022]其中,X
i
为每条法律对应的标准化向量X的第i个词的权重,Y
i
为案例问题对应的标准化向量Y的第i个词的权重。
[0023]步骤4,将步骤2得到的相关法律的elastic search相关性得分和步骤3得到的余弦相似度进行加权,得到加权相似度,筛选出最终的相关法律返回推荐。
[0024]对elastic search相关性得分和余弦相似度分别进行归一化处理,具体公式为:
[0025][0026]其中,score
i
代表第i条法律的elastic_search相关性得分或者余弦相似度
[0027]min(score)、max(score)代表所有法律elastic_search相关性得分或余弦相似度最小最大值。
[0028]将归一化后的elastic search相关性得分和余弦相似度进行加权,得到每条法律的加权相似度。
[0029]根据加权相似度进行倒序排列,筛选出前数条相关法律返回作为最终推荐的相关法律,优选的,这里可以选择前10条。
[0030]优选的,步骤1具体为:利用网络爬虫技术,从国家相关法律法规网站上爬取法律法规数据。
[0031]优选的,步骤1对法律法规数据进行预处理,具体为:提取标题、正文、发布机构、发布时间等所需信息,对提取出来的信息进行清洗,去掉无意义的内容,对清洗完的法律法规
数据进行去重,将去重后的法律法规数据存储。
[0032]优选的,步骤1还包括:在构建法律法规数据库后,定期、定时对elastic search 中的法律法规数据进行更新。
[0033]优选的,步骤2所述必须满足的条件包括:法律内容包含案例内容关键词,法律有效性字段必须为现行有效,法律适用地区必须包含案例发生地。
[0034]优选的,步骤2提高相关性得分的条件包括:法律标题字段、内容字段、关键词字段中分别包含案例内容关键词和案例主题关键词;法律生效时间在案例发生时间之前。
[0035]优选的,步骤3的分词工具也可以替换成jieba、LTP等分词工具。
[0036本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的相关法律推荐方法,其特征在于,该方法包括如下步骤:步骤1,基于爬虫技术,爬取法律法规数据,构建法律法规数据库,并对法律法规数据进行预处理;将法律法规数据导入elastic search数据库中,根据需要对字段属性进行设计,选择ik分词器作为分词器插件,创建索引时使用ik分词器的ik_max_word模式,对文本进行最细粒度的分词;搜索时使用ik分词器的ik_smart模式,对文本进行最粗粒度的分词;在elastic search数据库中添加构建好的自定义词典、同义词和停用词词典;步骤2,基于elastic search数据库,进行案例问题的相关法律的搜索;设计搜索语句:通过考虑法律法规适用地区、内容、标题、有效性、关键词、适用领域的因素,设计匹配到的法律必须满足的条件和能够提高相关性得分的条件;通过文本处理的方法,提取案例问题所处的地区,内容、关键词的信息,利用上述设计好的搜索语句,设计相关性得分阈值,过滤掉低于该阈值的法律法规数据,将搜索出的法律法规数据按照相关性得分进行降序排列,考虑到后续程序运行时消耗的时间与空间成本,只保留前n条,返回这n条法律法规和它们在elastic search的相关性得分;步骤3,基于余弦相似度,对所述相关法律进行进一步的筛选;首先,对所述相关法律用LAC分词工具进行分词:加载构建好的LAC自定义词典,调用LAC分词工具的接口,对相关法律进行分词,对分词结果使用构建好的停用词词典进行停用词去除,对LAC模型的进行重新训练,得到适合法律领域的分词模型,同时将分词结果添加到步骤1所述的elastic search自定义词典中,迭代更新该词典;其次,对分词结果进行语义相似处理,识别同义词:对分词处理后的若干词语,使用训练好的Word2Vec模型将词语转化为向量,计算任意两个词语的余弦相似度,如果计算出的相似度高于设定阈值,就将其中的一个词全部换成另一个词得到新的分词结果;同时,将Word2Vec模型预测出来的同义词添加到elastic search同义词词典中,迭代该同义词词典;再次,利用词袋模型和TF_IDF算法,将分词结果转化为带权重的标准化向量:将所述新的分词结果中所有词语去重后混到一起,形成词袋,给词袋中每个词语标上编号,利用标上编号后的词袋,将分词结果转化成词向量,形式为:[(N1,C1),(N2,C2),

(N
n
,C
n
)],其中,N
i
表示词语在词袋中的编号,C
i
表示该词语在集合中出现的次数,i∈{1、2、
……
、n};基于转化好的词向量,利用TF

IDF算法计算出每个词向量中各个分量的权重TF_IDF
t,e
,生成带权重的标准化向量,具体为:其中,count(t)为词语t在法律e
j
分词结果中出现的频次,|e
j
|为法律e
...

【专利技术属性】
技术研发人员:陈鹏熊林海周金明
申请(专利权)人:南京视察者智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1