文书间案情匹配方法、装置、设备及存储介质制造方法及图纸

技术编号:27685562 阅读:21 留言:0更新日期:2021-03-17 03:52
本申请公开了一种文书间案情匹配方法、装置、设备及存储介质,本申请获取待匹配的两个案情片段及两个案情片段各自的案情特征,两个案情片段属于不同文书,获取每一案情片段的每一类型案情特征的匹配权重,针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果,基于此确定两个案情片段是否描述同一案情。本案考虑了文书内不同案情片段间各类型案情特征的差异性,基于此设置各类型案情特征的匹配权重,可以提高文书内可区分性高的案情特征在最终匹配结果中所占的比重,解决了由于不同案情片段的信息不均衡所导致的匹配结果不准确的问题。

【技术实现步骤摘要】
文书间案情匹配方法、装置、设备及存储介质
本申请涉及自然语言处理
,更具体的说,是涉及一种文书间案情匹配方法、装置、设备及存储介质。
技术介绍
检察院办案人员在对卷宗文书进行案情梳理过程中,需要从卷宗内大量的文书(一般包括起诉意见书、讯问笔录和询问笔录)中去检索案情描述片段,并对检索到的案情描述片段进行匹配,确定描述同一案情的案情描述片段。一般情况下,需要将询问/讯问笔录中的案情描述片段,与起诉意见书中的案情描述片段进行匹配。通常情况下,一份卷宗内包含了数起、甚至是数十起作案,卷宗内笔录文书数量通常也有数十份之多。所以抽取并关联卷宗内所有相关的案情描述片段,需要耗费办案人员大量的时间和精力。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种文书间案情匹配方法、装置、设备及存储介质,以实现对文书间案情的自动匹配目的。具体方案如下:一种文书间案情匹配方法,包括:获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。优选地,所述获取待匹配的两个案情片段及两个案情片段各自的案情特征,包括:针对待匹配的两个目标文书,获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征;对待匹配的两个目标文书间的案情片段进行两两组合,得到若干案情片段对,每一案情片段对作为一对待匹配的案情片段。优选地,所述获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征,包括:将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签;所述多标签抽取模型为利用标注有案情标签及其各类型案情特征标签的训练文书训练得到。优选地,所述各类型案情特征标签包括:案情要素标签、实体标签、地点槽标签中的至少一种,其中所述案情要素标签和所述实体标签嵌套于所述案情片段标签中,所述地点槽标签嵌套于所述案情要素标签和所述实体标签中。优选地,所述将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签,包括:利用所述多标签抽取模型对所述目标文书进行编码,以及对设定的各标签进行编码;基于目标文书的编码结果,以及各标签的编码结果,分别采用阅读理解的解码方式以及序列标注的解码方式进行解码,得到阅读理解解码结果以及序列标注解码结果;结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果,最终解码结果包括所述目标文书中包含的案情片段标签以及各类型案情特征标签。优选地,所述结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果,包括:若确定阅读理解解码结果中一目标标签对应的答案个数少于序列标注解码结果中同一目标标签对应的答案个数,则基于所述序列标注解码结果对阅读理解解码中所述目标标签对应的答案进行修正,得到所述目标标签的修正后答案;对于阅读理解解码结果与序列标注解码结果中,答案数量相同的标签,以阅读理解解码结果中标签对应的答案为最终答案。优选地,所述将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签,包括:采用滑窗的方式对所述目标文书进行拆分,并将拆分后的每一子目标文书片段输入预训练的多标签抽取模型,得到每一子目标文书片段的各标签抽取结果,所述各标签抽取结果包括案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签;按照各子目标文书片段在所述目标文书中的先后顺序,将各子目标文书片段的相同标签的抽取结果进行合并,合并结果作为所述目标文书的各标签抽取结果。优选地,获取案情片段的目标类型案情特征的匹配权重的过程,包括:确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性;按照差异性与匹配权重正相关的关系,确定所述案情片段的目标类型案情特征的匹配权重。优选地,所述确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性,包括:将所述案情片段所属文书中各不同案情片段进行两两组合,并确定每一案情片段组合的所述目标类型案情特征是否匹配;基于不匹配的案情片段组合的个数,确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性。优选地,所述针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果,包括:针对待匹配的两个案情片段,分别计算每一类型案情特征的匹配度;针对每一类型案情特征的匹配度:利用两个案情片段各自的所述类型案情特征的匹配权重,对所述匹配度进行依次加权处理,得到所述类型案情特征的加权匹配结果。一种文书间案情匹配装置,包括:案情获取单元,用于获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;匹配权重获取单元,用于获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;加权匹配单元,用于针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;匹配结果确定单元,用于基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。一种文书间案情匹配设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如上所述的文书间案情匹配方法的各个步骤。一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的文书间案情匹配方法的各个步骤。借由上述技术方案,本申请的文书间案情匹配方法,获取待匹配的两个案情片段及两个案情片段各自的案情特征,其中两个案情片段属于不同文书,进一步获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关,也即,若文书内各案情片段的目标类型案情特征的差异不大,则代表该目标类型案情特征对于文书内不同案情间的区分性不高,为此可以将目标类型案情特征的匹配权重设置小一些,反之,若文书内各案情片段的目标本文档来自技高网...

【技术保护点】
1.一种文书间案情匹配方法,其特征在于,包括:/n获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;/n获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;/n针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;/n基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。/n

【技术特征摘要】
1.一种文书间案情匹配方法,其特征在于,包括:
获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;
获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;
针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;
基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。


2.根据权利要求1所述的方法,其特征在于,所述获取待匹配的两个案情片段及两个案情片段各自的案情特征,包括:
针对待匹配的两个目标文书,获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征;
对待匹配的两个目标文书间的案情片段进行两两组合,得到若干案情片段对,每一案情片段对作为一对待匹配的案情片段。


3.根据权利要求2所述的方法,其特征在于,所述获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征,包括:
将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签;
所述多标签抽取模型为利用标注有案情标签及其各类型案情特征标签的训练文书训练得到。


4.根据权利要求3所述的方法,其特征在于,所述各类型案情特征标签包括:
案情要素标签、实体标签、地点槽标签中的至少一种,其中所述案情要素标签和所述实体标签嵌套于所述案情片段标签中,所述地点槽标签嵌套于所述案情要素标签和所述实体标签中。


5.根据权利要求3所述的方法,其特征在于,所述将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签,包括:
利用所述多标签抽取模型对所述目标文书进行编码,以及对设定的各标签进行编码;
基于目标文书的编码结果,以及各标签的编码结果,分别采用阅读理解的解码方式以及序列标注的解码方式进行解码,得到阅读理解解码结果以及序列标注解码结果;
结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果,最终解码结果包括所述目标文书中包含的案情片段标签以及各类型案情特征标签。


6.根据权利要求5所述的方法,其特征在于,所述结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果,包括:
若确定阅读理解解码结果中一目标标签对应的答案个数少于序列标注解码结果中同一目标标签对应的答案个数,则基于所述序列标注解码结果对阅读理解解码中所述目标标签对应的答案进行修正,得到所述目标标签的修正后答案;
对于阅读理解解码结果与序列标注解码结果中,答案数量相同的标签,以阅读理解解码结果中标签对应的答案为最终答案。


7.根据权利要求3所述的方法,其特征在于,所述将所述目标文书输...

【专利技术属性】
技术研发人员:段纪丁杜倩云王永康
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1