数据检索方法、装置、设备及存储介质制造方法及图纸

技术编号:38071043 阅读:7 留言:0更新日期:2023-07-06 08:39
本发明专利技术属于数据检索领域,公开了一种数据检索方法、装置、设备及存储介质。该方法包括:在接收到文本检索指令时,根据文本检索指令确定待检索文本;对待检索文本进行语义向量召回,获得向量召回结果,并对待检索文本进行文本检索,获得文本倒排索引;根据向量召回结果和文本倒排索引确定待检索文本对应的检索结果。由于本发明专利技术是对待检索文本进行语义向量召回,获得向量召回结果,并对待检索文本进行文本检索,获得文本倒排索引;根据向量召回结果和文本倒排索引确定待检索文本对应的检索结果。相对于现有的通过纯文本或语义向量单独召回的方式,本发明专利技术上述方式通过文本和向量检索的方式实现待检索文本的召回,弥补语义召回的短板,提高召回效率。提高召回效率。提高召回效率。

【技术实现步骤摘要】
数据检索方法、装置、设备及存储介质


[0001]本专利技术涉及数据检索
,尤其涉及一种数据检索方法、装置、设备及存储介质。

技术介绍

[0002]传统的纯文本检索技术,针对语义层面的相关性召回能力偏弱,在业内提出向量检索之后,由于向量的距离计算代价较大,通常会对向量进行压缩,如通过对向量进行分段,将高维向量进行降维,从而粗糙化向量的计算。再通过聚类的方式,将向量数据聚合为“多个中心点”和中心点最近似向量节点倒排链的方式。在此过程会涉及到如下问题:在倒排链链较长的场景下,遍历代价较大;由于是先召回一批n条距离最近的向量结果,在召回阶段无法考虑各种过滤条件,导致在过滤场景下,召回能力受限。因此,如何提高文本检索的效率成为亟待解决的技术问题。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供了一种数据检索方法、装置、设备及存储介质,旨在解决现有技术通过纯文本或语义向量单独召回导致召回效率不高的技术问题。
[0005]为实现上述目的,本专利技术提供了一种数据检索方法,所述方法包括以下步骤:
[0006]在接收到文本检索指令时,根据所述文本检索指令确定待检索文本;
[0007]对所述待检索文本进行语义向量召回,获得向量召回结果,并对所述待检索文本进行文本检索,获得文本倒排索引;
[0008]根据所述向量召回结果和所述文本倒排索引确定所述待检索文本对应的检索结果。
[0009]可选地,所述对所述待检索文本进行语义向量召回,获得向量召回结果,并对所述待检索文本进行文本检索,获得文本倒排索引的步骤,包括:
[0010]根据所述待检索文本确定目标向量,对所述目标向量进行语义向量召回,确定所述目标向量对应的向量中心点;
[0011]根据所述向量中心点确定向量召回结果;
[0012]对所述待检索文本进行文本检索,获得文本倒排索引。
[0013]可选地,所述根据所述向量中心点确定向量召回结果的步骤,包括:
[0014]确定所述向量中心点对应的向量簇;
[0015]基于预设权重分配信息确定所述向量簇中的各个向量与目标向量之间的向量相关性;
[0016]根据所述向量相关性确定向量召回结果。
[0017]可选地,所述根据所述向量相关性确定向量召回结果的步骤,包括:
[0018]获取预设向量截断信息;
[0019]根据所述预设向量截断信息对召回过程进行截断处理,获得向量召回结果。
[0020]可选地,所述根据所述预设向量截断信息对召回过程进行截断处理,获得向量召回结果的步骤,包括:
[0021]在所述预设向量截断信息为根据召回时间截断时,启动预设定时器;
[0022]根据所述向量相关性召回向量簇中的目标向量;
[0023]在计时结束时,终止召回过程,根据召回的目标向量确定向量召回结果。
[0024]可选地,所述根据所述预设向量截断信息对召回过程进行截断处理,获得向量召回结果的步骤,包括:
[0025]获取所述预设向量截断信息中的预设召回链长;
[0026]判断召回过程中的实际召回链长是否大于所述预设召回链长;
[0027]在所述实际召回链长大于所述预设召回链长时,对召回过程进行截断处理,确定向量召回结果。
[0028]可选地,所述对所述待检索文本进行语义向量召回,获得向量召回结果,并对所述待检索文本进行文本检索,获得文本倒排索引的步骤之前,还包括:
[0029]在接收到新增数据时,对所述新增数据进行分段,获得分段数据;
[0030]对所述分段数据进行数据降维,获得降维向量;
[0031]查找所述降维向量所属的目标向量中心点;
[0032]在查找到所述降维向量所属的目标向量中心点时,根据所述目标向量中心点将所述降维向量插入至对应的向量簇。
[0033]可选地,所述查找所述降维向量所属的目标向量中心点的步骤之后,还包括:
[0034]在未查找到所述降维向量所属的目标向量中心点时,根据所述降维向量构建聚类中心点。
[0035]可选地,所述在接收到新增数据时,对所述新增数据进行分段,获得分段数据的步骤,包括:
[0036]在接收到新增数据时,确定所述新增数据的数据大小;
[0037]获取预设分段数据大小;
[0038]根据所述数据大小和所述预设分段数据大小对所述新增数据进行分段,获得分段数据。
[0039]可选地,所述根据所述向量召回结果和所述文本倒排索引确定所述待检索文本对应的检索结果的步骤,包括:
[0040]对所述向量召回结果和所述文本倒排索进行求交处理,获得求交结果;
[0041]根据所述求交结果确定所述待检索文本对应的检索结果。
[0042]可选地,所述根据所述求交结果确定所述待检索文本对应的检索结果的步骤,包括:
[0043]获取所述求交结果中各召回内容对应的语义相关性和文本相关性;
[0044]根据所述语义相关性和所述文本相关性对所述召回内容进行打分,获得打分结果;
[0045]根据所述打分结果确定所述待检索文本对应的检索结果。
[0046]此外,为实现上述目的,本专利技术还提供一种数据检索装置,所述装置包括:
[0047]待检索文本确定模块,用于在接收到文本检索指令时,根据所述文本检索指令确定待检索文本;
[0048]语义向量召回模块,用于对所述待检索文本进行语义向量召回,获得向量召回结果,并对所述待检索文本进行文本检索,获得文本倒排索引;
[0049]检索结果确定模块,用于根据所述向量召回结果和所述文本倒排索引确定所述待检索文本对应的检索结果。
[0050]可选地,所述语义向量召回模块,还用于根据所述待检索文本确定目标向量,对所述目标向量进行语义向量召回,确定所述目标向量对应的向量中心点;根据所述向量中心点确定向量召回结果;对所述待检索文本进行文本检索,获得文本倒排索引。
[0051]可选地,所述语义向量召回模块,还用于确定所述向量中心点对应的向量簇;基于预设权重分配信息确定所述向量簇中的各个向量与目标向量之间的向量相关性;根据所述向量相关性确定向量召回结果。
[0052]可选地,所述语义向量召回模块,还用于获取预设向量截断信息;根据所述预设向量截断信息对召回过程进行截断处理,获得向量召回结果。
[0053]可选地,所述语义向量召回模块,还用于在所述预设向量截断信息为根据召回时间截断时,启动预设定时器;根据所述向量相关性召回向量簇中的目标向量;在计时结束时,终止召回过程,根据召回的目标向量确定向量召回结果。
[0054]可选地,所述语义向量召回模块,还用于获取所述预设向量截断信息中的预设召回链长;判断召回过程中的实际召回链长是否大于所述预设召回链长;在所述实际召回链长大于所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检索方法,其特征在于,所述数据检索方法包括以下步骤:在接收到文本检索指令时,根据所述文本检索指令确定待检索文本;对所述待检索文本进行语义向量召回,获得向量召回结果,并对所述待检索文本进行文本检索,获得文本倒排索引;根据所述向量召回结果和所述文本倒排索引确定所述待检索文本对应的检索结果。2.如权利要求1所述的数据检索方法,其特征在于,所述对所述待检索文本进行语义向量召回,获得向量召回结果,并对所述待检索文本进行文本检索,获得文本倒排索引的步骤,包括:根据所述待检索文本确定目标向量,对所述目标向量进行语义向量召回,确定所述目标向量对应的向量中心点;根据所述向量中心点确定向量召回结果;对所述待检索文本进行文本检索,获得文本倒排索引。3.如权利要求2所述的数据检索方法,其特征在于,所述根据所述向量中心点确定向量召回结果的步骤,包括:确定所述向量中心点对应的向量簇;基于预设权重分配信息确定所述向量簇中的各个向量与目标向量之间的向量相关性;根据所述向量相关性确定向量召回结果。4.如权利要求3所述的数据检索方法,其特征在于,所述根据所述向量相关性确定向量召回结果的步骤,包括:获取预设向量截断信息;根据所述预设向量截断信息对召回过程进行截断处理,获得向量召回结果。5.如权利要求4所述的数据检索方法,其特征在于,所述根据所述预设向量截断信息对召回过程进行截断处理,获得向量召回结果的步骤,包括:在所述预设向量截断信息为根据召回时间截断时,启动预设定时器;根据所述向量相关性召回向量簇中的目标向量;在计时结束时,终止召回过程,根据召回的目标向量确定向量召回结果。6.如权利要求4所述的数据检索方法,其特征在于,所述根据所...

【专利技术属性】
技术研发人员:刘子甲
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1