【技术实现步骤摘要】
文书间案情匹配方法、装置、设备及存储介质
本申请涉及自然语言处理
,更具体的说,是涉及一种文书间案情匹配方法、装置、设备及存储介质。
技术介绍
检察院办案人员在对卷宗文书进行案情梳理过程中,需要从卷宗内大量的文书(一般包括起诉意见书、讯问笔录和询问笔录)中去检索案情描述片段,并对检索到的案情描述片段进行匹配,确定描述同一案情的案情描述片段。一般情况下,需要将询问/讯问笔录中的案情描述片段,与起诉意见书中的案情描述片段进行匹配。通常情况下,一份卷宗内包含了数起、甚至是数十起作案,卷宗内笔录文书数量通常也有数十份之多。所以抽取并关联卷宗内所有相关的案情描述片段,需要耗费办案人员大量的时间和精力。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种文书间案情匹配方法、装置、设备及存储介质,以实现对文书间案情的自动匹配目的。具体方案如下:一种文书间案情匹配方法,包括:获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。优选地,所述获取待匹配的两个案情片 ...
【技术保护点】
1.一种文书间案情匹配方法,其特征在于,包括:/n获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;/n获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;/n针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;/n基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。/n
【技术特征摘要】
1.一种文书间案情匹配方法,其特征在于,包括:
获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;
获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;
针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;
基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。
2.根据权利要求1所述的方法,其特征在于,所述获取待匹配的两个案情片段及两个案情片段各自的案情特征,包括:
针对待匹配的两个目标文书,获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征;
对待匹配的两个目标文书间的案情片段进行两两组合,得到若干案情片段对,每一案情片段对作为一对待匹配的案情片段。
3.根据权利要求2所述的方法,其特征在于,所述获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征,包括:
将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签;
所述多标签抽取模型为利用标注有案情标签及其各类型案情特征标签的训练文书训练得到。
4.根据权利要求3所述的方法,其特征在于,所述各类型案情特征标签包括:
案情要素标签、实体标签、地点槽标签中的至少一种,其中所述案情要素标签和所述实体标签嵌套于所述案情片段标签中,所述地点槽标签嵌套于所述案情要素标签和所述实体标签中。
5.根据权利要求3所述的方法,其特征在于,所述将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签,包括:
利用所述多标签抽取模型对所述目标文书进行编码,以及对设定的各标签进行编码;
基于目标文书的编码结果,以及各标签的编码结果,分别采用阅读理解的解码方式以及序列标注的解码方式进行解码,得到阅读理解解码结果以及序列标注解码结果;
结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果,最终解码结果包括所述目标文书中包含的案情片段标签以及各类型案情特征标签。
6.根据权利要求5所述的方法,其特征在于,所述结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果,包括:
若确定阅读理解解码结果中一目标标签对应的答案个数少于序列标注解码结果中同一目标标签对应的答案个数,则基于所述序列标注解码结果对阅读理解解码中所述目标标签对应的答案进行修正,得到所述目标标签的修正后答案;
对于阅读理解解码结果与序列标注解码结果中,答案数量相同的标签,以阅读理解解码结果中标签对应的答案为最终答案。
7.根据权利要求3所述的方法,其特征在于,所述将所述目标文书输...
【专利技术属性】
技术研发人员:段纪丁,杜倩云,王永康,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。