System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,更具体地,涉及一种用于构建搜索数据库的方法及装置、搜索方法及装置、计算设备、计算机可读存储介质、计算机程序产品。
技术介绍
1、随着计算机技术的不断发展,尤其是大数据和数字化信息的不断增长,人们所能够获取的各类信息数据变得越来越繁杂,因此,如何有效、准确和迅速地检索信息这一问题变得越来越关键,并受到了越来越多的关注。一般来说,搜索引擎可以通过关键词匹配的方式来获取搜索结果,即返回与用户输入的关键词有关的内容。然而,这种搜索方式存在一些问题,例如:搜索结果的准确性受到关键词的限制,可能无法满足用户的实际需求;关键词匹配的方式无法处理语义相似的查询,容易出现遗漏或对用户造成误导;等等。
技术实现思路
1、有鉴于此,本公开提供了一种用于构建搜索数据库的方法及装置、搜索方法及装置、计算设备、计算机可读存储介质、计算机程序产品,可以缓解、减轻或甚至消除上述问题。
2、根据本公开的一方面,提供了一种用于构建搜索数据库的方法,包括:获取目标文档;确定与目标文档对应的多个初始数据块,多个初始数据块中的每个初始数据块对应于目标文档中的一个语段;基于多个初始数据块,生成至少一个索引数据块,至少一个索引数据块中的每个索引数据块被配置为表征多个初始数据块中的至少一个初始数据块的语义信息;基于至少一个索引数据块,确定至少一个索引项,索引项被配置为与在搜索数据库中进行搜索时所使用的搜索项进行匹配。
3、在一些实施例中,基于多个初始数据块,生成至少一个索引数据块包括:在
4、在一些实施例中,在多个初始数据块中,根据各初始数据块之间的相关程度,确定一个或多个初始块组包括:以多个初始数据块中的一个初始数据块为基准数据块,根据目标文档的语段顺序,执行迭代操作,以确定与初始数据块相关的初始块组,迭代操作包括:响应于基准数据块与下一相邻初始数据块之间的相关程度满足预设条件,将该下一相邻初始数据块添加至初始块组,并将基准数据块更新为该下一相邻初始数据块;响应于基准数据块与下一相邻初始数据块之间的相关程度不满足预设条件,停止迭代操作。
5、在一些实施例中,迭代操作还包括:响应于初始块组中的初始数据块的数量达到预设数量阈值,停止迭代操作。
6、在一些实施例中,初始数据块之间的相关程度通过以下两项中的一项来衡量:表征初始数据块的向量之间的相似度;通过机器学习模型所预测的初始数据块之间具有语义连贯性的概率。
7、在一些实施例中,基于多个初始数据块,生成至少一个索引数据块包括:基于多个初始数据块,生成多个中间数据块,多个中间数据块中的每个中间数据块被配置为表征多个初始数据块中的至少一个初始数据块的语义信息;基于多个中间数据块,生成至少一个索引数据块,至少一个索引数据块中的每个索引数据块被配置为表征多个中间数据块中的至少一个中间数据块的语义信息。
8、在一些实施例中,基于多个中间数据块,生成至少一个索引数据块包括:根据目标文档的语段顺序,基于多个中间数据块中的每对相邻中间数据块,生成一个索引数据块。
9、在一些实施例中,基于至少一个索引数据块,确定至少一个索引项包括:基于至少一个索引数据块中的每个索引数据块,确定相对应的数据向量;针对所确定的至少一个数据向量执行池化操作,以生成至少一个索引项。
10、在一些实施例中,基于多个初始数据块,生成至少一个索引数据块包括:通过大语言模型,基于多个初始数据块的语义信息,生成至少一个索引数据块。
11、根据本公开的另一方面,提供了一种使用通过上述方面的任一实施例所描述的方法构建的搜索数据库的搜索方法,包括:获取搜索项;在搜索数据库中,获取至少一个与搜索项相匹配的索引项;基于与所获取的至少一个索引项相对应的初始数据块,反馈搜索结果。
12、在一些实施例中,基于与所获取的至少一个索引项相对应的初始数据块,反馈搜索结果包括:根据索引项与初始数据块之间的对应关系,确定与所获取的至少一个索引项相对应的初始数据块;使用重排模型来对所确定的初始数据块进行排序;基于排序最高的至少一个初始数据块,反馈搜索结果。
13、根据本公开的又一方面,提供了一种用于构建搜索数据库的装置,包括:获取模块,被配置为:获取目标文档;第一确定模块,被配置为:确定与目标文档对应的多个初始数据块,多个初始数据块中的每个初始数据块对应于目标文档中的一个语段;生成模块,被配置为:基于多个初始数据块,生成至少一个索引数据块,至少一个索引数据块中的每个索引数据块被配置为表征多个初始数据块中的至少一个初始数据块的语义信息;第二确定模块,被配置为:基于至少一个索引数据块,确定至少一个索引项,索引项被配置为与在搜索数据库中进行搜索时所使用的搜索项进行匹配。
14、根据本公开的又一方面,提供了一种使用通过前述方面描述的装置构建的搜索数据库的搜索装置,包括:第一获取模块,被配置为:获取搜索项;第二获取模块,被配置为:在搜索数据库中,获取至少一个与搜索项相匹配的索引项;反馈模块,被配置为:基于与所获取的至少一个索引项相对应的初始数据块,反馈搜索结果。
15、根据本公开的又一方面,提供了一种计算设备,包括:存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当计算机可执行指令被处理器执行时执行根据前述方面的任一实施例所描述的方法。
16、根据本公开的又一方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,当计算机可执行指令被执行时,执行根据前述方面的任一实施例所描述的方法。
17、根据本公开的又一方面,提供了一种计算机程序产品,包括计算机可执行指令,计算机指令在被处理器执行时实现前述方面的任一实施例所描述的方法的步骤。
18、通过本公开所提供的用于构建搜索数据库的方法,可以基于目标文档,确定与目标文档中的多个语段相对应的多个初始数据块,然后可以确定至少一个索引数据块,该至少一个索引数据块中的每个索引数据块可以表征一个或多个初始数据块的语义信息,进而,可以根据该至少一个索引数据块确定相对应的至少一个索引项,这些索引项可以用于在搜索过程中与搜索项进行匹配,以返回搜索结果。在如此构建的搜索数据库中进行搜索时,一方面,仅需将搜索项与所构建的索引项进行匹配,这有助于减少所需匹配的对象的数量,从而有助于降低在大量对象中进行匹配所带来的时间损耗;另一方面,所构建的每个索引项包含了文档中一个或多个语段的语义信息,相比于单个初始数据块,单个索引项所包含的语义信息可以更为丰富,从而有助于提升与搜索项匹配时的准确性,同时有助于避免因初始数据块中部分实体信息缺失所导致的搜索错误或遗漏问题。因本文档来自技高网...
【技术保护点】
1.一种用于构建搜索数据库的方法,包括:
2.根据权利要求1所述的方法,其中,所述基于所述多个初始数据块,生成至少一个索引数据块包括:
3.根据权利要求2所述的方法,其中,所述在所述多个初始数据块中,根据各初始数据块之间的相关程度,确定一个或多个初始块组包括:
4.根据权利要求3所述的方法,其中,所述迭代操作还包括:
5.根据权利要求2或3所述的方法,其中,初始数据块之间的相关程度通过以下两项中的一项来衡量:
6.根据权利要求1所述的方法,其中,所述基于所述多个初始数据块,生成至少一个索引数据块包括:
7.根据权利要求6所述的方法,其中,所述基于所述多个中间数据块,生成所述至少一个索引数据块包括:
8.根据权利要求1所述的方法,其中,所述基于所述至少一个索引数据块,确定至少一个索引项包括:
9.根据权利要求1所述的方法,其中,所述基于所述多个初始数据块,生成至少一个索引数据块包括:
10.一种使用通过根据权利要求1至9中任一项所述的方法构建的搜索数据库的搜索方法,包括:
...【技术特征摘要】
1.一种用于构建搜索数据库的方法,包括:
2.根据权利要求1所述的方法,其中,所述基于所述多个初始数据块,生成至少一个索引数据块包括:
3.根据权利要求2所述的方法,其中,所述在所述多个初始数据块中,根据各初始数据块之间的相关程度,确定一个或多个初始块组包括:
4.根据权利要求3所述的方法,其中,所述迭代操作还包括:
5.根据权利要求2或3所述的方法,其中,初始数据块之间的相关程度通过以下两项中的一项来衡量:
6.根据权利要求1所述的方法,其中,所述基于所述多个初始数据块,生成至少一个索引数据块包括:
7.根据权利要求6所述的方法,其中,所述基于所述多个中间数据块,生成所述至少一个索引数据块包括:
8.根据权利要求1所述的方法,其中,所述基于所述至少一个索引数据块,确定至少一个索引项包括:
...
【专利技术属性】
技术研发人员:罗钦雨,徐宇,汪国辉,李泽龙,
申请(专利权)人:中国国际金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。