【技术实现步骤摘要】
文本检索方法、装置、设备、介质及产品
[0001]本申请涉及信息检索
,特别是涉及一种文本检索方法、装置、设备、介质及产品。
技术介绍
[0002]对于制度文档而言,往往同一个问题,可能会检索到多个文档,例如可能是不同年份的制度,不同制度类别(操作手册、通知、管理办法等)都包含了类似的内容,而准确的答案往往是在其中的一个文档中。在现有检索技术中,通常通过构建问答对的方式,通过文本相似度匹配到相似问题,得到对应的答案。然而这种方式对于大量的风险政策制度文档,构建问答对的工作量较大,且当提问的问题方式不同时,容易检索不到相关的答案,从而导致检索准确率较差。
技术实现思路
[0003]本申请提供的一种文本检索方法、装置、设备、介质及产品,能够提高文本检索的准确率。
[0004]第一方面,本申请实施例提供一种文本检索方法,方法包括:
[0005]获取用户输入的目标问题分别与预设知识库中各文档之间的多个第一相似度;
[0006]从多个第一相似度对应的文档中选取符合预设规则的至少两个第一文档以供用户进行选择,预设知识库包括第一文档;
[0007]接收用户发送的第一输入,第一输入用于从多个第一文档中选择第一目标文档;
[0008]响应于第一输入,基于第一相似度算法,确定目标问题分别与第一目标文档中各段落之间的多个第二相似度,以及基于第二相似度算法,确定目标问题分别与第一目标文档中各段落之间的多个第三相似度;
[0009]针对每个第二相似度,按照从大到小的顺序,选 ...
【技术保护点】
【技术特征摘要】
1.一种文本检索方法,其特征在于,所述方法包括:获取用户输入的目标问题分别与预设知识库中各文档之间的多个第一相似度;从所述多个第一相似度对应的文档中选取符合预设规则的至少两个第一文档以供用户进行选择,所述预设知识库包括所述第一文档;接收所述用户发送的第一输入,所述第一输入用于从所述多个第一文档中选择第一目标文档;响应于所述第一输入,基于第一相似度算法,确定所述目标问题分别与所述第一目标文档中各段落之间的多个第二相似度,以及基于第二相似度算法,确定所述目标问题分别与所述第一目标文档中各段落之间的多个第三相似度;针对每个第二相似度,按照从大到小的顺序,选取第二相似度在前N位的第一目标相似度,以及针对每个第三相似度,按照从大小的顺序,选取第三相似度在前N位的第二目标相似度,N为大于1的正整数;将所述第一目标相似度对应的第一段落和所述第二目标相似度对应的第二段落进行整合,得到所述目标问题对应的目标答案。2.根据权利要求1所述的方法,其特征在于,所述获取用户输入的目标问题分别与预设知识库中各文档之间的多个第一相似度,包括:针对所述预设知识库中的每个第三段落,获取所述第三段落和所述目标问题之间的第一向量相似度,所述第三段落为所述预设知识库中任意一个文档中的任意一个段落;所述从所述多个第一相似度对应的文档中选取符合预设规则的至少两个第一文档以供用户进行选择,包括:针对每个第一向量相似度,按照从大到小的顺序,选取第一向量相似度在前K位的第三目标相似度,K为大于1的正整数;针对每个第三目标相似度,获取所述第三目标相似度对应的段落所属的参考文档,每个所述参考文档对应至少一个第三目标相似度;针对每个参考文档,将所述参考文档对应的参考相似度归属于最大相似度,所述最大相似度为所述参考文档对应的第三目标相似度中的最大值对应的相似度;针对每个参考相似度,按照从大到小的顺序,选取参考相似度在前M位的第四目标相似度,M为大于1的正整数,M小于或等于K;将所述第四目标相似度对应的参考文档作为所述第一文档。3.根据权利要求1所述的方法,其特征在于,所述响应于所述第一输入,基于第一相似度算法,确定所述目标问题分别与所述第一目标文档中各段落之间的多个第二相似度,以及基于第二相似度算法,确定所述目标问题分别与所述第一目标文档中各段落之间的多个第三相似度,包括:响应于所述第一输入,利用向量相似度算法,确定所述目标问题分别与所述第一目标文档中各段落之间的多个第二向量相似度,所述第一相似度算法为所述向量相似度算法,所述第二相似度为所述第二向量相似度;利用BM25相似度算法,确定所述述目标问题分别与所述第一目标文档中各段落之间的多个相似度得分,所述第二相似度算法为所述BM25相似度算法,所述第三相似度为所述相似度得分。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一目标相似度对应的第一段落和所述第二目标相似度对应的第二段落进行整合,得到所述目标问题对应的目标答案,包括:针对每个第一目标相似度对应的第一段落,将所述第一段落和与所述第一段落相邻的段落拼接为第一答案;针对每个第二目标相似度对应的第二段落,将所述第二段落和与所述第二段落...
【专利技术属性】
技术研发人员:蔡素贤,颜世江,詹超群,俞泱,夏成扬,马堃,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。