【技术实现步骤摘要】
基于语义匹配的证据文档检索方法、系统及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种基于语义匹配的证据文档检索方法、系统及存储介质。
技术介绍
[0002]在案件审理过程中,考虑法院场景里,法官在庭审前的阅卷流程及后续开庭审理过程中可能会产生一些关于所审理案件的详细案件信息的查询需求(例如根据当事人的诉请和抗辩查询当事人提交的证据材料的具体内容),业内部分供应商曾推出过旨在解决此类查询需求的检索产品。
[0003]然而,此类检索产品往往是基于字符串的完全匹配或部分模糊匹配技术在待检索文档中匹配用户输入的查询关键字并返回所有命中的文本片段,该方案存在如下缺陷或不足:
[0004]1、仅仅考虑了查询的字面匹配而未考虑语义匹配,返回结果里只存在于查询字面匹配的文本片段,可能会忽略部分与查询语义相似的文本片段,从而造成最终结果的缺失。
[0005]2、仅仅考虑了检索任务中的召回环节(召回环节是检索的第一阶段,指的是根据用户输入问题和文段之间的一部分相关性,从海量文本中快速找到一小部分潜在相 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义匹配的证据文档检索方法,应用于电子装置,其特征在于,所述方法包括:对待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落;确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对所述召回文本段落进行召回;基于预设的阅读理解模型对所述召回文本段落进行处理,以提取所述召回文本段落内的与所述用户查询问题对应的最终答案字段。2.根据权利要求1所述的基于语义匹配的证据文档检索方法,其特征在于,对所述待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落的过程包括的过程包括:以预设尺寸的窗口每次滑动预设固定步长的方式对所述待检索证据文档进行截取,以将所述待检索证据文档划分为至少一个文本段落;或者,根据所述待检索证据文档内的子标题对所述待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落。3.根据权利要求2所述的基于语义匹配的证据文档检索方法,其特征在于,若所述待检索证据文档为图片式pdf文档,则在对所述待检索证据文档进行段落划分之前,需要先对所述待检索证据文档进行文字识别,以将所述待检索证据文档转换为word格式文档。4.根据权利要求3所述的基于语义匹配的证据文档检索方法,其特征在于,确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组的过程包括:对所述用户查询问题进行预处理,以确定与所述用户查询问题对应的所有的查询要素类型;基于所述查询要素类型对所述待检索证据文档进行查询,以确定所述待检索证据文档中所有的包含至少一个与所述查询要素类型匹配的特征要素的文本段落,记为所述相关文本段落组。5.根据权利要求4所述的基于语义匹配的证据文档检索方法,其特征在于,自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落的过程包括:确定所述相关文本段落组内各相关文本段落的代表特征序列;分别计算各代表特征序列与所述用户查询问题之间的序列相似比率、编辑距离以及句向量相似度;其中,所述序列相似比率的计算公式为:其中,a为所述用户查询问题与所述代表特征序列中相同字符的个数,b为用户查询问
题中的字符个数,c为所述代表特征序列中的字符个数;所述编辑距离的计算公式为:其中,设将所述用户查询问题转换为所述代表特征序列所需要的总操作次数为a,b为用户查询问题中的字符个数,c为所述代表特征序列中的字符个数,max()为取最大值函数;所述句向量相似度的计算公式为:f(x)=∑
a∈A
∑
b∈B
sin(e,f)其中,分别对所述用户查询问题、所述代表特征序列进行分词及去停用词生成查询关键词序列A、代表关键词序列B...
【专利技术属性】
技术研发人员:李虹琳,叶思涛,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。