文本检索方法技术

技术编号:39654027 阅读:9 留言:0更新日期:2023-12-09 11:22
本申请公开了一种文本检索方法

【技术实现步骤摘要】
文本检索方法、装置、电子设备和存储介质


[0001]本申请属于数据挖掘
,具体涉及一种文本检索方法

装置

电子设备和存储介质


技术介绍

[0002]目前,基于文本挖掘
100
的网络运营广泛应用于风险管理
101、
知识管理
102、
网络犯罪预防管理
103、
客户服务
104、
保险索赔
105、
情境广告推荐
106、
商业智能
107、
邮件过滤
108、
社交媒体分析
109
等场景中,如图1中所示,主要是通过文本分析技术和传统统计分析技术的结合了解用户行为,更准确地在网站上提供产品和服务;同时,将文本分析技术用于文本信息处理,将处理过的文本内容直接作为在线服务的输出结果推送给用户

[0003]传统的文本检索方法,多在对文本分词或分字后,从词在句子中或字在句子中的含义出发进行语义分析,形成一层粒度的语义信息,并对一层粒度的语义信息进行检索,但是一层粒度的语义信息存在语义信息丢失的问题,缺乏语义信息之间相关性的考虑,语义层面相关性召回能力偏弱,文本检索精确度较差


技术实现思路

[0004]本申请实施例的目的是提供一种文本检索方法

装置

电子设备和存储介质,基于语义向量检索进行文本检索,提升了文本检索性能与检索结果的精确度

[0005]为了解决上述技术问题,本申请是这样实现的:
[0006]第一方面,本申请实施例提供了一种文本检索方法,包括:
[0007]获取用户搜索请求;
[0008]将用户输入的查询文本通过深度学习模型编码得到第二向量;
[0009]从第一向量索引中查询与所述第二向量相似度最高的第三向量,
[0010]所述第一向量索引通过对待检索文档库拆分为多个独立的子文本后,将拆分的所述子文本利用深度学习模型编码得到;
[0011]将所述第三向量对应的子文本作为目标文本

[0012]可选的,所述的方法还包括:
[0013]生成所述待检索文档库的倒排文件;
[0014]根据所述倒排文件生成所述待检索文档库的第一倒排索引

[0015]可选的,所述从第一向量索引中查询与所述第二向量相似度最高的第三向量,包括:
[0016]将所述查询文本拆分为多个独立的分词;
[0017]在所述第一倒排索引中查询每个分词对应的倒排链数据;
[0018]在所述第一向量索引中找到距离所述第二向量满足预设距离的至少一个中心点,并获取每一个中心点对应的倒排链数据;
[0019]对每个分词的倒排链数据求交集,得到第一权重值;
[0020]对每一个所述中心点对应的倒排链数据求并集,得到第二权重值;
[0021]比较所述第一权重值与所述第二权重值,将权重值大的倒排链数据进行过滤,当满足预设的过滤条件时,存入召回中间结果数据集;
[0022]将所述召回中间结果数据集排序,确定所述第三向量

[0023]可选的,在所述召回中间结果数据集达到预设的第一存储容量阈值,或者
[0024]利用所述查询文本检索的时间超过预设的第一时间阈值的情况下,
[0025]终止收集所述召回中间结果数据集

[0026]可选的,所述将所述召回中间结果数据集排序,确定所述第三向量,包括:
[0027]将所述召回中间结果数据集存储的所有倒排链数据按照分数高低进行排序,截取排名靠前的倒排链数据作为所述第三向量

[0028]可选的,所述在第一倒排索引中查询每一个分词对应的倒排链数据,包括:
[0029]获取每一个所述分词的文档编号
ID
信息;
[0030]将所有所述分词的文档编号
ID
信息以降序方式排列,构成所述倒排链数据

[0031]可选的,所述的方法还包括:
[0032]根据每一个所述分词的文档编号
ID
信息确定每一个分词的权重值;
[0033]根据每一个所述分词权重值的大小,确定每一个分词的召回时间;
[0034]根据所述召回时间,以及每一条倒排链数据的链长,对检索过程做截断处理

[0035]可选的,所述的方法还包括:
[0036]将所述第一向量索引与所述第一倒排索引一起写入内存段,构建临时内存向量索引;
[0037]在所述临时内存向量索引达到预设的第二存储容量阈值,或者构建临时内存向量索引的时间达到预设的第二时间阈值时,
[0038]将所述第一向量索引与所述第一倒排索引一起写入磁盘段,构建持久磁盘向量索引

[0039]第二方面,本申请实施例提供了一种文本检索装置,包括:
[0040]获取模块,用于获取用户搜索请求;
[0041]编码模块,用于将用户输入的查询文本通过深度学习模型编码得到第二向量;
[0042]检索模块,用于从第一向量索引中查询与所述第二向量相似度最高的第三向量,
[0043]所述第一向量索引通过对待检索文档库拆分为多个独立的子文本后,将拆分的所述子文本利用深度学习模型编码得到;
[0044]将所述第三向量对应的子文本作为目标文本

[0045]可选的,所述的装置还包括:
[0046]生成所述待检索文档库的倒排文件;
[0047]根据所述倒排文件生成所述待检索文档库的第一倒排索引

[0048]可选的,所述从第一向量索引中查询与所述第二向量相似度最高的第三向量,包括:
[0049]将所述查询文本拆分为多个独立的分词;
[0050]在所述第一倒排索引中查询每个分词对应的倒排链数据;
[0051]在所述第一向量索引中找到距离所述第二向量满足预设距离的至少一个中心点,
并获取每一个中心点对应的倒排链数据;
[0052]对每个分词的倒排链数据求交集,得到第一权重值;
[0053]对每一个所述中心点对应的倒排链数据求并集,得到第二权重值;
[0054]比较所述第一权重值与所述第二权重值,将权重值大的倒排链数据进行过滤,当满足预设的过滤条件时,存入召回中间结果数据集;
[0055]将所述召回中间结果数据集排序,确定所述第三向量

[0056]可选的,在所述召回中间结果数据集达到预设的第一存储容量阈值,或者
[0057]利用所述查询文本检索的时间超过预设的第一时间阈值的情况下,
[0058]终止收集所述召回中间结果数据集

[0059]可选的,所述将所述召回中间结果数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本检索方法,其特征在于,包括:获取用户搜索请求;将用户输入的查询文本通过深度学习模型编码得到第二向量;从第一向量索引中查询与所述第二向量相似度最高的第三向量,所述第一向量索引通过对待检索文档库拆分为多个独立的子文本后,将拆分的所述子文本利用深度学习模型编码得到;将所述第三向量对应的子文本作为目标文本
。2.
根据权利要求1所述的方法,其特征在于,所述从第一向量索引中查询与所述第二向量相似度最高的第三向量,包括:将所述查询文本拆分为多个独立的分词;在第一倒排索引中查询每个分词对应的倒排链数据,所述第一倒排索引为依据待检索文档库生成的倒排文件得到;在所述第一向量索引中找到距离所述第二向量满足预设距离的至少一个中心点,并获取每一个中心点对应的倒排链数据;对每个分词的倒排链数据求交集,得到第一权重值;对每一个所述中心点对应的倒排链数据求并集,得到第二权重值;比较所述第一权重值与所述第二权重值,将权重值大的倒排链数据进行过滤,当满足预设的过滤条件时,存入召回中间结果数据集;将所述召回中间结果数据集排序,确定所述第三向量
。3.
根据权利要求2所述的方法,其特征在于,在所述召回中间结果数据集达到预设的第一存储容量阈值,或者利用所述查询文本检索的时间超过预设的第一时间阈值的情况下,终止收集所述召回中间结果数据集
。4.
根据权利要求2所述的方法,其特征在于,所述将所述召回中间结果数据集排序,确定所述第三向量,包括:将所述召回中间结果数据集存储的所有倒排链数据按照分数高低进行排序,截取排名靠前的倒排链数据作为所述第三向量
。5.
根据权利要求2所述的方法,其特征在于,所述在第一倒排索引中查询每一个分词对应的倒排链数据,包括:获取每一个所述分词的文档编号
I...

【专利技术属性】
技术研发人员:林伟家刘子甲王志强
申请(专利权)人:天津三六零快看科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1