一种案件去重方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36499064 阅读:15 留言:0更新日期:2023-02-01 15:19
本申请提供一种案件去重方法、装置、电子设备及存储介质,其中案件去重方法包括:获取当前案件的包含有描述语句的案件详情内容;获取所述当前案件中各描述语句与历史案件中各描述语句的语句相似度;确定所述当前案件与所述历史案件的案件相似度;基于所述案件相似度确定所述当前案件是否需要与所述历史案件进行合并,完成案件去重。通过描述语句之间的相似度来确定当前案件与历史案件之间的案件相似度,其相似度计算过程覆盖了当前案件的所有语句,避免了关键信息丢失;同时,采用描述语句之间的相似度来确定案件相似度的方式,提高了对案件相似这一事件的描述准确率,进而提高了案件去重识别的高效性和准确性。案件去重识别的高效性和准确性。案件去重识别的高效性和准确性。

【技术实现步骤摘要】
一种案件去重方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,具体而言,涉及一种案件去重方法、装置、电子设备及存储介质。

技术介绍

[0002]现有案件去重方法大都直接采用案件内容计算案件内容之间的相似度,但由于案件内容较为冗余,导致案件去重方法的识别准确率低,常会出现误识别现象。

技术实现思路

[0003]本申请实施例的目的在于提供一种案件去重方法、装置、电子设备及存储介质,用以解决现有案件去重方法中识别准确率低的问题。
[0004]为实现上述目的,本申请提供如下技术方案:
[0005]第一方面,本申请实施例提供一种案件去重方法,包括:获取当前案件的包含有描述语句的案件详情内容;获取所述当前案件中各描述语句与历史案件中各描述语句的语句相似度;确定所述当前案件与所述历史案件的案件相似度;基于所述案件相似度确定所述当前案件是否需要与所述历史案件进行合并,完成案件去重。
[0006]在上述方案的实现过程中,通过描述语句之间的相似度来确定当前案件与历史案件之间的案件相似度,其相似度计算过程覆盖了当前案件的所有语句,避免了关键信息丢失;同时,采用描述语句之间的相似度来确定案件相似度的方式,提高了对案件相似这一事件的描述准确率,进而提高了案件去重识别的高效性和准确性。
[0007]在第一方面的一种实现方式中,所述确定所述当前案件与所述历史案件的案件相似度,包括:在所述历史案件的描述语句中分别确定所述当前案件中各描述语句的相似语句集;获取所述当前案件中各描述语句与其相似语句集中各描述语句的语句相似度;基于所述当前案件中各描述语句与其相似语句集中各描述语句的语句相似度,共同计算所述当前案件与所述历史案件的案件相似度。
[0008]在上述方案的实现过程中,采用描述语句之间的相似度来计算案件相似度,案件相似度是基于所有语句来获取的,相较于提取关键词的方式,上述案件相似度获取方式能够覆盖所有的描述语句,使得案件之间的相似度计算更加准确,实现重复案件的高效和精准识别。
[0009]在第一方面的一种实现方式中,所述在所述历史案件的描述语句分别确定所述当前案件中各描述语句的相似语句集,包括:针对当前案件中每个描述语句,在所述历史案件的描述语句中筛选满足预设相似语句筛选条件的描述语句构成该当前案件中描述语句的相似语句集。
[0010]在上述方案的实现过程中,采用预设相似语句筛选条件来筛选与当前案件中描述语句的相似语句集,进而通过相似语句集计算中各描述语句的相似度来计算案件相似度,使得案件相似度能够更准确地表征案件相似这一事件,进而有效提高了重复案件的高效和
精准识别。
[0011]在第一方面的一种实现方式中,预设相似语句筛选条件,包括:在所述历史案件的描述语句中筛选与当前案件中描述语句的语句相似度最大的描述语句构成该当前案件中描述语句的相似语句集;或者,在所述历史案件的描述语句中筛选与当前案件中描述语句的语句相似度大于预设语句相似度阈值的描述语句构成该当前案件中描述语句的相似语句集。
[0012]在上述方案的实现过程中,可以采用多种方式获取当前案件中描述语句的相似语句集,使得上述案件去重方法可以适用于更多的场景,提高了上述案件去重方法的适应性。
[0013]在第一方面的一种实现方式中,在所述确定所述当前案件与所述历史案件的案件相似度之前,还包括:确定所述当前案件中各描述语句的权重;所述确定所述当前案件与所述历史案件的案件相似度,包括:基于当前案件中各描述语句与历史案件中各描述语句的语句相似度以及当前案件中各描述语句的权重,确定所述当前案件与所述历史案件的案件相似度。
[0014]在上述方案的实现过程中,在计算案件相似度时不仅覆盖了所有的描述语句,同时还将描述语句权重加入案件相似度的计算过程,使得案件相似度不仅表征了单纯的语句之间的相似度,还表征了语句关键程度,使得案件相似度这个参数能够更加准确地表征案件相似这一事件,进一步提高了案件查重方法的准确性和高效性。
[0015]在第一方面的一种实现方式中,所述确定所述当前案件中各描述语句的权重,包括:获取所述当前案件中各描述语句的词项;基于预设词项权重确定描述语句的权重。
[0016]在上述方案的实现过程中,通过分词的权重来共同确定描述语句的权重,其权重能够更准确地表达描述语句的关键程度,使得案件相似度这个参数能够更加准确地表征案件相似这一描述,进一步提高了案件查重方法的准确性和高效性。
[0017]在第一方面的一种实现方式中,在所述确定所述当前案件与所述历史案件的案件相似度之前,还包括:确定所述当前案件中各描述语句的权重以及所述历史案件中各描述语句的权重;所述确定所述当前案件与所述历史案件的案件相似度,包括:基于当前案件中各描述语句与历史案件中各描述语句的语句相似度、当前案件中各描述语句的权重以及历史案件中各描述语句的权重,确定所述当前案件与所述历史案件的案件相似度。
[0018]在上述方案的实现过程中,在计算案件相似度时不仅覆盖了所有的当前案件描述语句,同时还将当前案件的描述语句权重以及历史案件的扫描语句权重加入案件相似度的计算过程,使得案件相似度不仅表征了单纯的语句之间的相似度,还表征了当前案件描述语句以及历史案件描述语句的关键程度,使得案件相似度这个参数能够更加准确地表征案件相似这一描述,进一步提高了案件查重方法的准确性和高效性。
[0019]第二方面,本申请实施例提供一种案件去重装置,包括:案件详情内容获取模块,用于获取当前案件的包含有描述语句的案件详情内容;语句相似度获取模块,用于获取所述当前案件中各描述语句与历史案件中各描述语句的语句相似度;案件相似度获取模块,用于确定所述当前案件与所述历史案件的案件相似度;去重模块,用于基于所述案件相似度确定所述当前案件是否需要与所述历史案件进行合并,完成案件去重。
[0020]第三方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方
式提供的方法。
[0021]第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式提供的方法。
[0022]第五方面,本申请实施例提供一种电子设备,包括:存储器以及处理器,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式提供的方法。
附图说明
[0023]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0024]图1为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种案件去重方法,其特征在于,包括:获取当前案件的包含有描述语句的案件详情内容;获取所述当前案件中各描述语句与历史案件中各描述语句的语句相似度;确定所述当前案件与所述历史案件的案件相似度;基于所述案件相似度确定所述当前案件是否需要与所述历史案件进行合并,完成案件去重。2.根据权利要求1所述的案件去重方法,其特征在于,所述确定所述当前案件与所述历史案件的案件相似度,包括:在所述历史案件的描述语句中分别确定所述当前案件中各描述语句的相似语句集;获取所述当前案件中各描述语句与其相似语句集中各描述语句的语句相似度;基于所述当前案件中各描述语句与其相似语句集中各描述语句的语句相似度,共同计算所述当前案件与所述历史案件的案件相似度。3.根据权利要求2所述的案件去重方法,其特征在于,所述在所述历史案件的描述语句分别确定所述当前案件中各描述语句的相似语句集,包括:针对当前案件中每个描述语句,在所述历史案件的描述语句中筛选满足预设相似语句筛选条件的描述语句构成该当前案件中描述语句的相似语句集。4.根据权利要求3所述的案件去重方法,其特征在于,所述预设相似语句筛选条件,包括:在所述历史案件的描述语句中筛选与当前案件中描述语句的语句相似度最大的描述语句构成该当前案件中描述语句的相似语句集;或者,在所述历史案件的描述语句中筛选与当前案件中描述语句的语句相似度大于预设语句相似度阈值的描述语句构成该当前案件中描述语句的相似语句集。5.根据权利要求1~4中任一项所述的案件去重方法,其特征在于,在所述确定所述当前案件与所述历史案件的案件相似度之前,还包括:确定所述当前案件中各描述语句的权重;所述确定所述当前案件与所述历史案件的案件相似度,包括:基于当前案件中各描述语句与历...

【专利技术属性】
技术研发人员:黄飞卢进莹崔宏刚叶艳芳林智星
申请(专利权)人:北京时代凌宇数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1