文本检索方法、装置、设备、介质及产品制造方法及图纸

技术编号:39177388 阅读:17 留言:0更新日期:2023-10-27 08:25
本申请提供了一种文本检索方法、装置、设备、介质及产品,通过获取用户输入的目标问题分别与预设知识库中各文档之间的多个第一相似度;从多个第一相似度对应的文档中选取至少两个第一文档以供用户进行选择;基于第一相似度算法,确定目标问题分别与第一目标文档中各段落之间的多个第二相似度,以及基于第二相似度算法,确定目标问题分别与第一目标文档中各段落之间的多个第三相似度;针对每个第二相似度,按照从大到小的顺序,选取第二相似度在前N位的第一目标相似度,前N位的第二目标相似度;将第一目标相似度对应的第一段落和第二目标相似度对应的第二段落进行整合,得到目标问题对应的目标答案。本申请实施例能够提高文本检索的准确性。索的准确性。索的准确性。

【技术实现步骤摘要】
文本检索方法、装置、设备、介质及产品


[0001]本申请涉及信息检索
,特别是涉及一种文本检索方法、装置、设备、介质及产品。

技术介绍

[0002]对于制度文档而言,往往同一个问题,可能会检索到多个文档,例如可能是不同年份的制度,不同制度类别(操作手册、通知、管理办法等)都包含了类似的内容,而准确的答案往往是在其中的一个文档中。在现有检索技术中,通常通过构建问答对的方式,通过文本相似度匹配到相似问题,得到对应的答案。然而这种方式对于大量的风险政策制度文档,构建问答对的工作量较大,且当提问的问题方式不同时,容易检索不到相关的答案,从而导致检索准确率较差。

技术实现思路

[0003]本申请提供的一种文本检索方法、装置、设备、介质及产品,能够提高文本检索的准确率。
[0004]第一方面,本申请实施例提供一种文本检索方法,方法包括:
[0005]获取用户输入的目标问题分别与预设知识库中各文档之间的多个第一相似度;
[0006]从多个第一相似度对应的文档中选取符合预设规则的至少两个第一文档以供用户进行选择,预设知识库包括第一文档;
[0007]接收用户发送的第一输入,第一输入用于从多个第一文档中选择第一目标文档;
[0008]响应于第一输入,基于第一相似度算法,确定目标问题分别与第一目标文档中各段落之间的多个第二相似度,以及基于第二相似度算法,确定目标问题分别与第一目标文档中各段落之间的多个第三相似度;
[0009]针对每个第二相似度,按照从大到小的顺序,选取第二相似度在前N位的第一目标相似度,以及针对每个第三相似度,按照从大小的顺序,选取第三相似度在前N位的第二目标相似度,N为大于1的正整数;
[0010]将第一目标相似度对应的第一段落和第二目标相似度对应的第二段落进行整合,得到目标问题对应的目标答案。
[0011]第二方面,本申请提供一种文本检索装置,该装置包括:
[0012]获取模块,用于获取用户输入的目标问题分别与预设知识库中各文档之间的多个第一相似度;
[0013]第一选择模块,用于从多个第一相似度对应的文档中选取符合预设规则的至少两个第一文档以供用户进行选择,预设知识库包括第一文档;
[0014]接收模块,用于接收用户发送的第一输入,第一输入用于从多个第一文档中选择第一目标文档;
[0015]确定模块,用于响应于第一输入,基于第一相似度算法,确定目标问题分别与第一
目标文档中各段落之间的多个第二相似度,以及基于第二相似度算法,确定目标问题分别与第一目标文档中各段落之间的多个第三相似度;
[0016]第二选择模块,用于针对每个第二相似度,按照从大到小的顺序,选取第二相似度在前N位的第一目标相似度,以及针对每个第三相似度,按照从大小的顺序,选取第三相似度在前N位的第二目标相似度,N为大于1的正整数;
[0017]整合模块,用于将第一目标相似度对应的第一段落和第二目标相似度对应的第二段落进行整合,得到目标问题对应的目标答案。
[0018]第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器以及存储有计算机程序指令的存储器;
[0019]处理器执行计算机程序指令时实现如第一方面中任意一个实施例中的文本检索方法。
[0020]第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面中任意一个实施例中的文本检索方法。
[0021]第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行实现如上述第一方面中任意一个实施例中的文本检索方法。
[0022]在本申请实施例提供的一种文本检索方法、装置、设备、介质及产品中,通过获取用户输入的目标问题分别与预设知识库中各文档之间的多个第一相似度;从多个第一相似度对应的文档中选取符合预设规则的至少两个第一文档以供用户进行选择,预设知识库包括第一文档;接收用户发送的第一输入,第一输入用于从多个第一文档中选择第一目标文档;响应于第一输入,基于第一相似度算法,确定目标问题分别与第一目标文档中各段落之间的多个第二相似度,以及基于第二相似度算法,确定目标问题分别与第一目标文档中各段落之间的多个第三相似度;针对每个第二相似度,按照从大到小的顺序,选取第二相似度在前N位的第一目标相似度,以及针对每个第三相似度,按照从大小的顺序,选取第三相似度在前N位的第二目标相似度,N为大于1的正整数;将第一目标相似度对应的第一段落和第二目标相似度对应的第二段落进行整合,得到目标问题对应的目标答案。通过上述方式,首先根据目标问题初步检索得到多个第一文档以供用户进行选择,让用户从初步检索到的第一文档中选取最相关的文档,再基于选中的第一目标文档进行与目标问题相关内容的进一步检索,得到目标答案,从而提高了检索的准确率。
附图说明
[0023]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本申请一个实施例提供的文本检索方法的流程示意图;
[0025]图2是本申请一个实施例提供的文本检索方法的另一流程示意图;
[0026]图3是本申请一个实施例提供的一种确定第一文档的流程示意图;
[0027]图4是本申请一个实施例提供的一种确定第一段落和第二段落的流程示意图;
[0028]图5是本申请一个实施例提供的一种生成目标答案的流程示意图;
[0029]图6是本申请一个实施例提供的一种构建预设知识库的流程示意图;
[0030]图7是本申请实施例提供的一种文本检索装置的结构示意图;
[0031]图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0032]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0033]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0034]需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检索方法,其特征在于,所述方法包括:获取用户输入的目标问题分别与预设知识库中各文档之间的多个第一相似度;从所述多个第一相似度对应的文档中选取符合预设规则的至少两个第一文档以供用户进行选择,所述预设知识库包括所述第一文档;接收所述用户发送的第一输入,所述第一输入用于从所述多个第一文档中选择第一目标文档;响应于所述第一输入,基于第一相似度算法,确定所述目标问题分别与所述第一目标文档中各段落之间的多个第二相似度,以及基于第二相似度算法,确定所述目标问题分别与所述第一目标文档中各段落之间的多个第三相似度;针对每个第二相似度,按照从大到小的顺序,选取第二相似度在前N位的第一目标相似度,以及针对每个第三相似度,按照从大小的顺序,选取第三相似度在前N位的第二目标相似度,N为大于1的正整数;将所述第一目标相似度对应的第一段落和所述第二目标相似度对应的第二段落进行整合,得到所述目标问题对应的目标答案。2.根据权利要求1所述的方法,其特征在于,所述获取用户输入的目标问题分别与预设知识库中各文档之间的多个第一相似度,包括:针对所述预设知识库中的每个第三段落,获取所述第三段落和所述目标问题之间的第一向量相似度,所述第三段落为所述预设知识库中任意一个文档中的任意一个段落;所述从所述多个第一相似度对应的文档中选取符合预设规则的至少两个第一文档以供用户进行选择,包括:针对每个第一向量相似度,按照从大到小的顺序,选取第一向量相似度在前K位的第三目标相似度,K为大于1的正整数;针对每个第三目标相似度,获取所述第三目标相似度对应的段落所属的参考文档,每个所述参考文档对应至少一个第三目标相似度;针对每个参考文档,将所述参考文档对应的参考相似度归属于最大相似度,所述最大相似度为所述参考文档对应的第三目标相似度中的最大值对应的相似度;针对每个参考相似度,按照从大到小的顺序,选取参考相似度在前M位的第四目标相似度,M为大于1的正整数,M小于或等于K;将所述第四目标相似度对应的参考文档作为所述第一文档。3.根据权利要求1所述的方法,其特征在于,所述响应于所述第一输入,基于第一相似度算法,确定所述目标问题分别与所述第一目标文档中各段落之间的多个第二相似度,以及基于第二相似度算法,确定所述目标问题分别与所述第一目标文档中各段落之间的多个第三相似度,包括:响应于所述第一输入,利用向量相似度算法,确定所述目标问题分别与所述第一目标文档中各段落之间的多个第二向量相似度,所述第一相似度算法为所述向量相似度算法,所述第二相似度为所述第二向量相似度;利用BM25相似度算法,确定所述述目标问题分别与所述第一目标文档中各段落之间的多个相似度得分,所述第二相似度算法为所述BM25相似度算法,所述第三相似度为所述相似度得分。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一目标相似度对应的第一段落和所述第二目标相似度对应的第二段落进行整合,得到所述目标问题对应的目标答案,包括:针对每个第一目标相似度对应的第一段落,将所述第一段落和与所述第一段落相邻的段落拼接为第一答案;针对每个第二目标相似度对应的第二段落,将所述第二段落和与所述第二段落...

【专利技术属性】
技术研发人员:蔡素贤颜世江詹超群俞泱夏成扬马堃
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1