案件相关度检测方法及终端设备技术

技术编号:26418886 阅读:27 留言:0更新日期:2020-11-20 14:14
本申请适用于信息处理技术领域,提供了案件相关度检测方法、装置及终端设备,该案件相关度检测方法包括:提取案件库中符合预设要求的各个第一案件的多个结构化数据,所有的第一案件构成目标案件集合;将每一第一案件的各个结构化数据转换为对应的词向量,得到目标案件集合对应的第一向量矩阵;基于第一向量矩阵确定目标案件集合在多维向量空间中的中心点;确定案件库中各个第二案件的第二向量矩阵,并基于第二向量矩阵和中心点确定各个第二案件与目标案件集合的相关度,第二案件为案件库中除去目标案件集合以外的案件;将相关度满足预设要求的第二案件的链接信息和/或相关文件发送给用户终端。本申请的案件相关度检测结果更加精准。

【技术实现步骤摘要】
案件相关度检测方法及终端设备
本申请属于信息处理
,尤其涉及案件相关度检测方法及终端设备。
技术介绍
类案推荐是一种通过数据过滤、信息检索等方法向用户推荐特定案件的技术,能够从大量案件中筛选出相关案件。传统的类案推荐通常是通过基于静态数据和动态数据或者规则进行聚类,通过协同过滤等算法根据用户偏好将同类案件进行推荐。而协同过滤等算法在数据量比较大的推荐系统中存在严重的数据稀疏问题,用户浏览量对于内容总量只占很少一部分,大部分内容都没有点击数据,导致不同用户之间的交集很少,所以很难得到准确有效的推荐。
技术实现思路
为克服相关技术中存在的问题,本申请实施例提供了案件相关度检测方法及终端设备。本申请是通过如下技术方案实现的:第一方面,本申请实施例提供了一种案件相关度检测方法,包括:提取案件库中符合预设要求的各个第一案件的多个结构化数据;其中,所有的所述第一案件构成目标案件集合;将每一所述第一案件的各个结构化数据转换为对应的词向量,得到所述目标案件集合对应的第一向量矩阵;基于所述第一向量矩阵确定所述目标案件集合在多维向量空间中的中心点;确定所述案件库中各个第二案件的第二向量矩阵,并基于所述第二向量矩阵和所述中心点确定各个所述第二案件与所述目标案件集合的相关度;其中,所述第二案件为所述案件库中除去所述目标案件集合以外的案件;将所述相关度满足预设要求的第二案件的链接信息和/或相关文件发送给用户终端。在第一方面的一种可能的实现方式中,所述提取案件库中符合预设要求的各个第一案件的多个结构化数据,包括:对训练文本数据进行标注;其中,所标注的信息包括多类信息;将标注后的训练文本数据输入到目标网络中,确定各类信息对应的损失函数;基于各类信息对应的损失函数训练所述目标网络;将各个第一案件的文本输入至训练后的目标网络,提取出所述结构化数据。在第一方面的一种可能的实现方式中,所述目标网络包括多个子网络,且每个子网络对应一类信息;所述基于各种信息对应的损失函数训练所述目标网络,包括:基于各类信息对应的损失函数,训练对应的子网络。在第一方面的一种可能的实现方式中,所述基于各种信息对应的损失函数训练所述目标网络,包括:计算各类信息对应的文本数量的比例;根据各个损失函数与对应的比例的乘积之和,确定总损失函数;基于所述总损失函数训练所述目标网络。在第一方面的一种可能的实现方式中,所述提取目标案件集合中各个第一案件的多个结构化数据,包括:根据所需要提取的要素本身和与所述要素本身相关的上下文信息,确定正则表达式;将所述第一案件的文本划分为多个单句,在所述多个单句中确定与所述正则表达式相匹配的目标单句;从所述目标单句中提取结构化数据。在第一方面的一种可能的实现方式中,所述从所述目标单句中提取结构化数据,包括:对所述目标单句进行字段划分;其中,每个目标单句划分为至少一个字段,每个字段对应一字段名和一字段值;对于字段内容相同但字段名或字段值不同的各个相关字段,对字段名或字段值进行归一化处理;在经过归一化处理后的各个字段中,提取结构化数据。在第一方面的一种可能的实现方式中,所述结构化数据为文本数据或数值,所述将每一所述第一案件的各个结构化数据转换为对应的词向量,得到所述目标案件集合对应的第一向量矩阵,包括:将各个所述第一案件的各个结构化数据中的文本数据转化为词向量;将各个所述第一案件的词向量和数值作为所述第一向量矩阵的元素;其中,每个所述第一案件对应一行元素或一列元素。在第一方面的一种可能的实现方式中,所述基于所述第一向量矩阵确定所述目标案件集合在多维向量空间中的中心点,包括:计算各个第一案件的同一结构化数据对应的词向量的均值向量;其中,各个所述均值向量为所述中心点的向量;所述基于所述第二向量矩阵和所述中心点确定各个所述第二案件与所述目标案件集合的相关度,包括:根据所述中心点的向量和各个所述第二向量矩阵,确定各个所述第二案件与所述中心点之间的距离;基于各个所述距离确定各个所述第二案件与所述目标案件集合的相关度。第二方面,本申请实施例提供了一种案件相关度检测装置,包括:结构化数据提取模块,用于提取案件库中符合预设要求的各个第一案件的多个结构化数据;其中,所有的所述第一案件构成目标案件集合;向量矩阵生成模块,用于将每一所述第一案件的各个结构化数据转换为对应的词向量,得到所述目标案件集合对应的第一向量矩阵;中心点确定模块,用于基于所述第一向量矩阵确定所述目标案件集合在多维向量空间中的中心点;相关度确定模块,用于确定所述案件库中各个第二案件的第二向量矩阵,并基于所述第二向量矩阵和所述中心点确定各个所述第二案件与所述目标案件集合的相关度;其中,所述第二案件为所述案件库中除去所述目标案件集合以外的案件;发送模块,用于将所述相关度满足预设要求的第二案件的链接信息和/或相关文件发送发送给用户终端。第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的案件相关度检测方法。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的案件相关度检测方法。第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的案件相关度检测方法。可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。本申请实施例与现有技术相比存在的有益效果是:提取目标案件集合中各个第一案件的多个结构化数据,将每一第一案件的各个结构化数据转换为对应的词向量,得到目标案件集合对应的第一向量矩阵,基于第一向量矩阵确定目标案件集合在多维向量空间中的中心点,确定案件库中各个第二案件的第二向量矩阵,并基于第二向量矩阵和中心点确定各个第二案件与目标案件集合的相关度,从而将相关度满足预设要求的第二案件的链接信息和/或相关文件发送给用户终端,本申请实施例将案件文本转化为向量并通过第二案件与目标案件集合之间的相关度确定需要发送给用户终端的类案,相对于传统的案件相关度检测结果更加精准,而且不需要设置数据埋点,仅需要日常办公中的常规数据即可确定目标案件集合以进行类案推荐,而且第一向量矩阵的中心点可以离线完成,在线只需要计算推荐案件与中心点的相关度即可,对在线计算资源要求较低。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需本文档来自技高网...

【技术保护点】
1.一种案件相关度检测方法,其特征在于,包括:/n提取案件库中符合预设要求的各个第一案件的多个结构化数据;其中,所有的所述第一案件构成目标案件集合;/n将每一所述第一案件的各个结构化数据转换为对应的词向量,得到所述目标案件集合对应的第一向量矩阵;/n基于所述第一向量矩阵确定所述目标案件集合在多维向量空间中的中心点;/n确定所述案件库中各个第二案件的第二向量矩阵,并基于所述第二向量矩阵和所述中心点确定各个所述第二案件与所述目标案件集合的相关度;其中,所述第二案件为所述案件库中除去所述目标案件集合以外的案件;/n将所述相关度满足预设要求的第二案件的链接信息和/或相关文件发送给用户终端。/n

【技术特征摘要】
1.一种案件相关度检测方法,其特征在于,包括:
提取案件库中符合预设要求的各个第一案件的多个结构化数据;其中,所有的所述第一案件构成目标案件集合;
将每一所述第一案件的各个结构化数据转换为对应的词向量,得到所述目标案件集合对应的第一向量矩阵;
基于所述第一向量矩阵确定所述目标案件集合在多维向量空间中的中心点;
确定所述案件库中各个第二案件的第二向量矩阵,并基于所述第二向量矩阵和所述中心点确定各个所述第二案件与所述目标案件集合的相关度;其中,所述第二案件为所述案件库中除去所述目标案件集合以外的案件;
将所述相关度满足预设要求的第二案件的链接信息和/或相关文件发送给用户终端。


2.如权利要求1所述的案件相关度检测方法,其特征在于,所述提取案件库中符合预设要求的各个第一案件的多个结构化数据,包括:
对训练文本数据进行标注;其中,所标注的信息包括多类信息;
将标注后的训练文本数据输入到目标网络中,确定各类信息对应的损失函数;
基于各类信息对应的损失函数训练所述目标网络;
将各个第一案件的文本输入至训练后的目标网络,提取出所述结构化数据。


3.如权利要求2所述的案件相关度检测方法,其特征在于,所述目标网络包括多个子网络,且每个子网络对应一类信息;
所述基于各种信息对应的损失函数训练所述目标网络,包括:
基于各类信息对应的损失函数,训练对应的子网络。


4.如权利要求2所述的案件相关度检测方法,其特征在于,所述基于各种信息对应的损失函数训练所述目标网络,包括:
计算各类信息对应的文本数量的比例;
根据各个损失函数与对应的比例的乘积之和,确定总损失函数;
基于所述总损失函数训练所述目标网络。


5.如权利要求1所述的案件相关度检测方法,其特征在于,所述提取目标案件集合中各个第一案件的多个结构化数据,包括:
根据所述结构化数据对应的文本信息和与所述文本信息相关的上下文信息,确定正则表达式;
将所述第一案件的文...

【专利技术属性】
技术研发人员:彭羿人
申请(专利权)人:平安直通咨询有限公司上海分公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1