一种检索方法、系统及相关设备技术方案

技术编号:38862384 阅读:23 留言:0更新日期:2023-09-17 10:04
本申请提供了一种检索方法、系统及相关设备,该方法可包括以下步骤:获取用户输入的查询文本,然后获取多个与查询文本之间的文本相关度较高的多个候选文书,然后确定每个候选文书与查询文本之间的法律相关度,并对多个候选文书进行排序获得排序结果,将其显示给用户,该系统先按照文本相关度筛选出多个候选文书,再按照法律相关度对多个候选文书进行排序,从而避免用户获得文本相同而非相关案例这一问题的出现,提高检索精度,提高用户的使用体验。提高用户的使用体验。提高用户的使用体验。

【技术实现步骤摘要】
一种检索方法、系统及相关设备


[0001]本申请涉及人工智能(artificial intelligence,AI)领域,尤其涉及一种检索方法、系统及相关设备。

技术介绍

[0002]类案检索指的是在给定一个查询案例的情况下,从法律案例语料库中检索出其相关案例。由于相关案例可能成为影响判决结果的参考,甚至直接参与到最终的判决结果当中,因此类案检索对于确保法律领域的公正至关重要,不仅能够帮助法律工作者更加高效的提供法律服务,也能让非法律专业人士能够对案情涉及到的法律问题有更加专业、清楚的认识。
[0003]但是,类案检索存在大量文本相同而非相关案例的场景,例如交通肇事和故意伤害中关于“不同伤残等级”的文本相同,但是二者并不是相关案例。因此类案检索不仅要判断文本的相似性,更需要识别案件在法律问题和法律程序方法的相似性,使得类案检索的精度差,用户使用体验差。

技术实现思路

[0004]本申请提供了一种检索方法、系统及相关设备,用于解决类案检索精度差的问题,提高用户的使用体验。
[0005]第一方面,提供了一种检索方法,该方法包括以下步骤:获取用户输入的查询文本,根据查询文本获取多个候选文书,其中,多个候选文书与查询文本之间的文本相关度高于阈值,确定多个候选文书中每个候选文书与查询文本之间的法律相关度,按照法律相关度对多个候选文书进行排序,获得排序结果,向用户显示排序结果。
[0006]实施第一方面描述的方法,通过获取用户输入的查询文本,然后获取多个与查询文本之间的文本相关度较高的多个候选文书,然后确定每个候选文书与查询文本之间的法律相关度,并对多个候选文书进行排序获得排序结果,将其显示给用户,该系统先按照文本相关度筛选出多个候选文书,再按照法律相关度对多个候选文书进行排序,从而避免用户获得文本相同而非相关案例这一问题的出现,提高检索精度,提高用户的使用体验。
[0007]在一可能的实现方式中,确定多个候选文书中每个候选文书与查询文本之间的法律相关度时,可以将每个候选文书和查询文本输入法律相关度模型,获得每个候选文书与查询文本之间的法律相关度,其中,法律相关度模型是使用样本集对AI模型进行训练后获得的,样本集包括输入样本和输入样本的标签,输入样本包括查询样本和候选文书样本,输入样本的标签包括候选文书样本与查询样本之间的法律相关度。
[0008]上述实现方式,通过法律相关度模型来确定每个候选文书与查询文本之间的法律相关度,使得用户可以获知候选文书与自己输入的查询文本之间的法律相关度,避免用户获得文本相同而非相关案例这一问题的出现,提高检索精度,提高用户的使用体验。
[0009]在一可能的实现方式中,输入样本的标签包括第一标签和第二标签,第一标签用
于指示候选文书样本与查询样本之间的要件事实的相关度,第二标签用于指示候选文书样本与查询样本之间的案情事实之间的相关度。
[0010]上述实现方式,使用包含第一标签和第二标签的样本集训练模型,使得训练好的法律相关度模型具有预测出候选文书与查询文本之间要件事实相关度以及案情事实相关度的能力,避免用户获得文本相同而非相关案例这一问题的出现,提高检索精度,提高用户的使用体验。
[0011]在一可能的实现方式中,法律相关度模型包括特征提取网络和预测函数,确定多个候选文书中每个候选文书与查询文本之间的法律相关度时,可以先将每个候选文书拆分为多个片段,将多个片段输入特征提取网络,获得多个片段对应的多个语义特征,将多个片段对应的多个语义特征进行聚合获得聚合结果,最后将聚合结果输入预测函数,获得每个候选文书与查询文本之间的法律相关度。
[0012]上述实现方式,通过将候选文书拆分为多个片段,分别提取每个片段的语义特征,然后再将每个片段的语义特征进行聚合获得聚合结果,将聚合结果输入预测函数获得预测结果,这样通过窗口化分块处理每个候选文书样本,将较长的司法文书转化为聚合向量,可以避免由于司法文书的文本长度太长降低模型训练的准确度和效率,提高模型的训练效率和准确度。
[0013]在一可能的实现方式中,样本集是对样本数据进行数据增强后获得的,数据增强时使用的方案包括:在第二样本是第一样本的候选文书样本的情况下,第一样本是第二样本的候选文书样本。具体实现中,第一输入样本包括第一样本和第二样本,其中,第一样本是查询样本,第二样本是第一样本的候选文书样本,那么输入样本的标签包括第二样本与第一样本之间的相关度。数据增强后,新增的第二输入样本包括第二样本和第一样本,其中,第二样本是查询样本,第一样本是第二样本的候选文书,新增的第二输入样本的标签包括第二样本与第一样本之间的相关度,也就是说,新增的第二输入样本的标签继承第一输入样本的标签。
[0014]举例来说,第一输入样本包括查询样本A以及候选文书样本B,且B的标签为(1,1),数据增强后新增的样本为:第二输入样本包括查询样本B以及候选文书样本A,且A的标签为(1,1)。上述举例用于说明,本申请不作具体限定。
[0015]上述实现方式,在案例检索领域中,样本需要专业的法律人士进行标注,可以进一步降低样本标注成本,通过将少量样本通过数据增强的方式获得更多的新增样本,降低样本标注的成本,提高样本获取的效率。
[0016]在一可能的实现方式中,数据增强时使用的方案还包括:在多个第二样本是第一样本的候选文书样本时,多个第二样本中的任意一个目标样本的候选文书样本包括第一样本以及除目标样本以外的其他第二样本。具体实现中,第一输入样本包括第一样本和多个第二样本,其中,第一样本是查询样本,多个第二样本是第一样本的候选文书样本,那么第一输入样本的标签包括每个第二样本与第一样本之间的相关度。数据增强后,新增的第二输入样本包括目标样本、第一样本以及除目标样本以外的其他第二样本,其中,目标样本是查询样本,第一样本以及其他第二样本是目标样本的候选文书样本,第二输入样本的标签包括其他第二样本与第一样本之间的相关度以及第一样本与目标样本之间的相关度,也就是说,新增的第二输入样本的标签继承第一输入样本的标签。具体实现中,上述标签可以是
等级最高的标签,即表1中非常相关的标签,也就是要件事实相关且案情事实也相关。
[0017]上述实现方式,在案例检索领域中,样本需要专业的法律人士进行标注,可以进一步降低样本标注成本,通过将少量样本通过数据增强的方式获得更多的新增样本,降低样本标注的成本,提高样本获取的效率。
[0018]在一可能的实现方式中,候选文书与查询文本之间的文本相关度,是根据查询文本中的单词和双词在候选文书中出现的概率来确定的。
[0019]具体实现中,在确定单词/双词在文书中出现的概率时,可以根据单词/双词在候选文书出现的第一频率以及单词/双词在检索集合中所有文书中出现的第二频率确定。应理解,如果一个单词/双词在所有文书中都出现了很多次,那么它很可能是一个常用词汇,对于文书之间的区分度不高。相反,如果一个单词/双词只在少数文书中出现,那么它很可能是一个特定领域的专业术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检索方法,其特征在于,所述方法包括:获取用户输入的查询文本,根据所述查询文本获取多个候选文书,其中,所述多个候选文书与所述查询文本之间的文本相关度高于阈值;确定所述多个候选文书中每个候选文书与所述查询文本之间的法律相关度,按照所述法律相关度对所述多个候选文书进行排序,获得排序结果;向所述用户显示所述排序结果。2.根据权利要求1所述的方法,其特征在于,所述确定所述多个候选文书中每个候选文书与所述查询文本之间的法律相关度包括:将所述每个候选文书和查询文本输入法律相关度模型,获得所述每个候选文书与所述查询文本之间的法律相关度,其中,所述法律相关度模型是使用样本集对AI模型进行训练后获得的,所述样本集包括输入样本和所述输入样本的标签,所述输入样本包括查询样本和候选文书样本,所述输入样本的标签包括所述候选文书样本与所述查询样本之间的法律相关度。3.根据权利要求2所述的方法,其特征在于,所述输入样本的标签包括第一标签和第二标签,所述第一标签用于指示所述候选文书样本与所述查询样本之间的要件事实的相关度,所述第二标签用于指示所述候选文书样本与所述查询样本之间的案情事实之间的相关度。4.根据权利要求3所述的方法,其特征在于,所述法律相关度模型包括特征提取网络和预测函数,所述确定所述多个候选文书中每个候选文书与所述查询文本之间的法律相关度包括:将所述每个候选文书拆分为多个片段;将所述多个片段输入所述特征提取网络,获得所述多个片段对应的多个语义特征;将所述多个片段对应的多个语义特征进行聚合获得聚合结果;将所述聚合结果输入所述预测函数,获得所述每个候选文书与所述查询文本之间的法律相关度。5.根据权利要求2至4任一权利要求所述的方法,其特征在于,所述样本集是对样本数据进行数据增强后获得的,所述数据增强时使用的方案包括:在第二样本是第一样本的候选文书样本的情况下,所述第一样本是所述第二样本的候选文书样本。6.根据权利要求5所述的方法,其特征在于,所述数据增强时使用的方案还包括:在多个第二样本是所述第一样本的候选文书样本时,所述多个第二样本中的任意一个目标样本的候选文书样本包括所述第一样本以及除所述目标样本以外的其他第二样本。7.根据权利要求1至6任一权利要求所述的方法,其特征在于,所述候选文书与所述查询文本之间的文本相关度,是根据所述查询文本中的单词和双词在候选文书中出现的概率来确定的。8.根据权利要求1至7任一权利要求所述的方法,其特征在于,所述候选文书与所述查询文本之间的文本相关度,是根据所述查询文本的长度以及所述查询文本中的词语与所述候选文书中出现的频率确定的。9.一种检索系统,其特征在于,所述系统包括:候选生成单元,用于获取用户输入的查询文本,根据所述查询文本获取多个候选文书,
其中,所述多个候选文书与所述查询文本之间的文本相关度高于阈值;排序单元,确定所述多个候选文书中每个候选文书与所述查询文本之间的法律相关度,按照所述法律相关度对所述多个候选文书进行排序,获得排序...

【专利技术属性】
技术研发人员:陈冲田奇史佳欣
申请(专利权)人:深圳华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1