一种面向司法的个性化案例推荐方法及系统技术方案

技术编号:30074906 阅读:56 留言:0更新日期:2021-09-18 08:29
本发明专利技术提供了一种面向司法的个性化案例推荐方法及系统,其中一种面向司法的个性化案例推荐方法,其包括:S1,获取案例数据库,对案例文本进行结构化处理,构建案件要素知识图谱,并根据知识图谱提取案例数据库中的案件要素,形成案件关键特征表;S2,获取用户数据库,构建用户画像特征表;S3,根据用户画像特征表结合案件要素知识图谱和案件关键特征表初步计算候选推荐列表;S4,根据候选推荐列表结合用户画像特征表给出最终推荐列表。本发明专利技术适用于用户数量少的情况,个性化推荐精准,可面向长时间序列,图谱构建工作量少。图谱构建工作量少。图谱构建工作量少。

【技术实现步骤摘要】
一种面向司法的个性化案例推荐方法及系统


[0001]本专利技术属于自然语言处理领域,具体涉及一种面向司法的个性化案例推荐方法及系统。

技术介绍

[0002]传统基于案例案由,关键词等条件的搜索方法精确度较低,使得搜索推荐结果变差,工 作人员需要在推荐结果中进行二次筛选,极大影响了工作效率。为此,研究人员提出更精细 的个性化案例推荐方法,根据用户兴趣和行为记录,预测用户更期望的搜索结果。
[0003]个性化推荐研究目前主要集中于搜索引擎,电商,影视娱乐等场景。例如,谷歌的 wide&cross,阿里的DIN,DIEN,华为的DeepFM等推荐算法,但这些算法主要研究点击率预 测问题,而个性化推荐更应该视为一个有机系统。目前常用方案是协同过滤和基于知识图谱 的推荐方式,但是协同过滤需要用户数据较多,从而可以匹配到相似特征用户,否则会产生 冷启动问题。基于知识图谱的方式需要用户输入关键信息,然后在较为完备的知识图谱中搜 索相关知识,但是知识图谱的构建工作量大。此外,推荐系统常常考虑短时间序列的影响, 而无法实现长时间序列的挖掘,导致季节等长周期性影响因素的缺失。

技术实现思路

[0004]针对上述
技术介绍
介绍中存在的问题,本专利技术提出一种面向长时间序列,基于半自动知 识图谱,解决用户数量少等条件下精准的面向司法的个性化案例推荐方法及系统。
[0005]本专利技术采用的技术方案是:
[0006]一种面向司法的个性化案例推荐方法,其包括:
[0007]S1,获取案例数据库,对案例文本进行结构化处理,构建案件要素知识图谱,并根据知 识图谱提取案例数据库中的案件要素,形成案件关键特征表;
[0008]S2,获取用户数据库,构建用户画像特征表;
[0009]S3,根据用户画像特征表结合案件要素知识图谱和案件关键特征表初步计算候选推荐列 表;
[0010]S4,根据候选推荐列表结合用户画像特征表给出最终推荐列表。
[0011]进一步,步骤S1中对文本案例进行结构化处理步骤如下:
[0012]S1.1,将案例文本分割为段落或句子为单元的文本片段,每个文本片段对应一个细分标 签,获得样本数据;
[0013]S1.2,将样本数据输入CNN文本分类模型,训练模型,根据预测细分标签和真实细分标 签的差距最小化来优化训练模型;
[0014]S1.3,待标注案例文本,输入训练好的CNN文本分类模型,输出待标注案例文本的预测 细分标签。
[0015]进一步,案件要素知识图谱的构建还包括利用半监督的方法更新案件要素知识图谱,具 体如下:
[0016]将案例文本结构化被分解为文本片段,以细分标签为类别归集;
[0017]对单标签对应的文本片段,按句子进行切割,筛选出句子形式的法律要素集Q;
[0018]根据案件要素知识图谱的基础事件图谱K,从法律要素集Q中筛选出标准要素句子集U, 结合标准要素句子集U建立起ki到ui的一对一元素手动映射,未经映射到事件图谱的要素 句子集为U

,其中ki为一个图谱的一个元素,K为整体图谱,标准要素句子集U和未经映射 到事件图谱的要素句子集U

组成法律要素集Q;
[0019]利用文本相似性度量方法,计算未经映射到图谱的要素样本u

i与ui的相似度,并根 据经验设定相似度阈值,大于阈值的标准句子要素作为原有图谱节点的下位样本被融合到基 础事件图谱,小于阈值的样本则归为离群样本集A;
[0020]对离群样本集A进行聚类,按聚类簇规模顺序进行事件图谱扩增判定。
[0021]进一步,更新案件要素知识图谱使用图谱嵌入算法,具体如下:
[0022]计算基础的案件要素知识图谱中事件节点间距离;
[0023]使用umap方法计算基于距离的降维映射模型;
[0024]计算新加节点与标准节点间的距离,使用umap映射模型计算嵌入位置。本专利技术通过图谱 嵌入可以使图谱节点更稠密,提高节点降维的准确性。
[0025]进一步,步骤S1中案件关键特征表的形成过程如下:
[0026]利用结构化方法对案件进行结构化,提取文本片段;
[0027]进行对文本片段进行句子分割,并利用sent

bert句子向量匹配到图谱标准句子要素, 匹配到的图谱节点即为关键特征,从而形成关键特征列表。
[0028]进一步,步骤S2中用户画像特征表包括兴趣特征、浏览历史、收藏案例列表。
[0029]进一步,步骤S3中候选推荐列表的计算步骤如下:
[0030]使用案件要素知识图谱和结构化,计算每个案例的多个维度上的知识特征,知识特征包 括最细级结构化类型,定义为Fs,以及细分图谱知识节点,定义为Fk;
[0031]利用独热编码将知识特征转为向量;
[0032]使用线性回归方法,计算各个特征的权重W;
[0033]利用方差最小化估计权值W,如下式所示
[0034][0035]式中,i、j表示样本序号,ε表示两样本是否相似,表示为0或1;
[0036]用此权重计算与历史浏览案例和收藏列表案例最相关的案例,作为候选推荐结果。
[0037]进一步,步骤S4中最终推荐列表的获取步骤包括:
[0038]使用用户兴趣信息,协同用户信息,长时序用户历史浏览及收藏案例列表记录,计算对 用户可能有用的案例或法条,获得点击概率列表;
[0039]利用时间距离,案例质量特征,上下文相关性,并结合列表点击概率,以线性加权最大 化原则进行排序,其中,案例质量通过被点击次数,浏览时长,被收藏次数作为变量进行计 算,被点击次数多,浏览时间长,收藏次数多则案件质量高。
[0040]进一步,点击概率计算采用基于长时序用户信息点击率预测算法,使用层级模型,利用滑 动交叉结合特定周期,具体如下:
[0041]对浏览历史的案件特征h进行嵌入,生成定长向量e;
[0042]使用短时序特征计算特定时间窗条件下待预测对象的点击概率,结果记为b;
[0043]在全周期序列上进行滑动交叉运算,找出点击概率高的短时间序列相关序列,并连接成 新序列e


[0044]对序列e

结合待预测对象r1进行点击预测,得到最终点击预测概率b


[0045]上述面向司法的个性化案例推荐方法的系统,其特征在于:包括
[0046]用户画像特征模块,用于对司法领域用户的兴趣特征进行构建;
[0047]标准知识图谱模块,用于构建案件要素知识图谱;
[0048]案件特征模块,用于根据知识图谱提取案件要素,形成案件关键特征表;
[0049]召回模块,用于根据用户画像特征表结合案件要素知识图谱和案件关键特征表初步计算 候选推荐列表;
[0050]推荐排序模块,用于根据候选推本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向司法的个性化案例推荐方法,其包括:S1,获取案例数据库,对案例文本进行结构化处理,构建案件要素知识图谱,并根据知识图谱提取案例数据库中的案件要素,形成案件关键特征表;S2,获取用户数据库,构建用户画像特征表;S3,根据用户画像特征表结合案件要素知识图谱和案件关键特征表初步计算候选推荐列表;S4,根据候选推荐列表结合用户画像特征表给出最终推荐列表。2.根据权利要求1所述的一种面向司法的个性化案例推荐方法,其特征在于:步骤S1中对文本案例进行结构化处理步骤如下:S1.1,将案例文本分割为段落或句子为单元的文本片段,每个文本片段对应一个细分标签,获得样本数据;S1.2,将样本数据输入CNN文本分类模型,训练模型,根据预测细分标签和真实细分标签的差距最小化来优化训练模型;S1.3,待标注案例文本,输入训练好的CNN文本分类模型,输出待标注案例文本的预测细分标签。3.根据权利要求2所述的一种面向司法的个性化案例推荐方法,其特征在于:案件要素知识图谱的构建还包括利用半监督的方法更新案件要素知识图谱,具体如下:将案例文本结构化被分解为文本片段,以细分标签为类别归集;对单标签对应的文本片段,按句子进行切割,筛选出句子形式的法律要素集Q;根据案件要素知识图谱的基础事件图谱K,从法律要素集Q中筛选出标准要素句子集U,结合标准要素句子集U建立起ki到ui的一对一元素手动映射,未经映射到事件图谱的要素句子集为U

,其中ki为一个图谱的一个元素,K为整体图谱,标准要素句子集U和未经映射到事件图谱的要素句子集U

组成法律要素集Q;利用文本相似性度量方法,计算未经映射到图谱的要素样本u

i与ui的相似度,并根据经验设定相似度阈值,大于阈值的标准句子要素作为原有图谱节点的下位样本被融合到基础事件图谱,小于阈值的样本则归为离群样本集A;对离群样本集A进行聚类,按聚类簇规模顺序进行事件图谱扩增判定。4.根据权利要求3所述的一种面向司法的个性化案例推荐方法,其特征在于:更新案件要素知识图谱使用图谱嵌入算法,具体如下:计算基础的案件要素知识图谱中事件节点间距离;使用umap方法计算基于距离的降维映射模型;计算新加节点与标准节点间的距离,使用umap映射模型计算嵌入位置。5.根据权利要求1所述的一种面向司法的个性化案例推荐方法,其特征在于:步骤S1中案件关键特征表的形成过程如下:利用结构化方法对案件进行结构化,提取文本片段;进行对文本片段进行句子分割,并利用sent

bert句子向量匹配到图谱标准句子要素,匹配到的图谱节点即为关键特征,从而形成关键特征列表。6.根据权利要求1所述的一种面向司法的个性化案例推荐方法,其特征在于:...

【专利技术属性】
技术研发人员:丁锴王腾陈涛王超群蒋立靓
申请(专利权)人:银江股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1