【技术实现步骤摘要】
文本检索方法、装置、电子设备和存储介质
[0001]本申请属于数据挖掘
,具体涉及一种文本检索方法
、
装置
、
电子设备和存储介质
。
技术介绍
[0002]目前,基于文本挖掘
100
的网络运营广泛应用于风险管理
101、
知识管理
102、
网络犯罪预防管理
103、
客户服务
104、
保险索赔
105、
情境广告推荐
106、
商业智能
107、
邮件过滤
108、
社交媒体分析
109
等场景中,如图1中所示,主要是通过文本分析技术和传统统计分析技术的结合了解用户行为,更准确地在网站上提供产品和服务;同时,将文本分析技术用于文本信息处理,将处理过的文本内容直接作为在线服务的输出结果推送给用户
。
[0003]传统的文本检索方法,多在对文本分词或分字后,从词在句子中或字在句子中的含义出发进行语义分析,形成一层粒度的语义信息,并对一层粒度的语义信息进行检索,但是一层粒度的语义信息存在语义信息丢失的问题,缺乏语义信息之间相关性的考虑,语义层面相关性召回能力偏弱,文本检索精确度较差
。
技术实现思路
[0004]本申请实施例的目的是提供一种文本检索方法
、
装置
、
电子设备和存储介质,基于语义向量检索进行文本检索,提升了文本检索性能与检索 ...
【技术保护点】
【技术特征摘要】
1.
一种文本检索方法,其特征在于,包括:获取用户搜索请求;将用户输入的查询文本通过深度学习模型编码得到第二向量;从第一向量索引中查询与所述第二向量相似度最高的第三向量,所述第一向量索引通过对待检索文档库拆分为多个独立的子文本后,将拆分的所述子文本利用深度学习模型编码得到;将所述第三向量对应的子文本作为目标文本
。2.
根据权利要求1所述的方法,其特征在于,所述从第一向量索引中查询与所述第二向量相似度最高的第三向量,包括:将所述查询文本拆分为多个独立的分词;在第一倒排索引中查询每个分词对应的倒排链数据,所述第一倒排索引为依据待检索文档库生成的倒排文件得到;在所述第一向量索引中找到距离所述第二向量满足预设距离的至少一个中心点,并获取每一个中心点对应的倒排链数据;对每个分词的倒排链数据求交集,得到第一权重值;对每一个所述中心点对应的倒排链数据求并集,得到第二权重值;比较所述第一权重值与所述第二权重值,将权重值大的倒排链数据进行过滤,当满足预设的过滤条件时,存入召回中间结果数据集;将所述召回中间结果数据集排序,确定所述第三向量
。3.
根据权利要求2所述的方法,其特征在于,在所述召回中间结果数据集达到预设的第一存储容量阈值,或者利用所述查询文本检索的时间超过预设的第一时间阈值的情况下,终止收集所述召回中间结果数据集
。4.
根据权利要求2所述的方法,其特征在于,所述将所述召回中间结果数据集排序,确定所述第三向量,包括:将所述召回中间结果数据集存储的所有倒排链数据按照分数高低进行排序,截取排名靠前的倒排链数据作为所述第三向量
。5.
根据权利要求2所述的方法,其特征在于,所述在第一倒排索引中查询每一个分词对应的倒排链数据,包括:获取每一个所述分词的文档编号
I...
【专利技术属性】
技术研发人员:林伟家,刘子甲,王志强,
申请(专利权)人:天津三六零快看科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。