一种向量召回方法和装置制造方法及图纸

技术编号:39399283 阅读:7 留言:0更新日期:2023-11-19 15:52
本发明专利技术公开了一种向量召回方法,属于数据处理技术领域

【技术实现步骤摘要】
一种向量召回方法和装置


[0001]本专利技术属于数据处理
,具体地说,涉及一种向量召回方法和装置


技术介绍

[0002]自然语言处理
(Natural Language Processing

NLP)
是研究人与计算机交互的语言问题的一门学科

一般而言,自然语言处理包括自然语言理解和自然语言生成

自然语言理解是将自然语言变成计算机能够理解的语言,及非结构化文本转变为结构化信息

具体地,
NLP
技术可以完成自然语言的语义识别及推荐

或调用相关服务给用户提供更智能的功能

随着人工智能的发展,
NLP
技术更加成熟

[0003]区别于传统的
ItemCF/UserCF
,向量化召回是为了利用向量检索工具,基于欧式距离在向量空间内进行快速的近邻搜索

离线时,通过模型进行训练,一般的模式是让正样本
pair
的相似度尽量高于负样本
pair
的相似度,模型收敛即可获得
Embedding
,将静态部分
(
被查询
)

embedding
写入
Faiss
工具,建立索引用于线上查询;在线时,针对动态部分
(
主动查询
)
请求模型,输出对应
embedding
,在
Faiss
中查找
TopK
的静态内容,作为
Topk
召回结果使用

[0004]在进行向量化召回时候,一般静态部分的数量从几百到亿级别不等,例如推荐的向量化召回一般物料有几百万
、NLP
的语义相似度召回可能数量从百到万不等,
NLP
在进行文本分类问题时,如果分类数量比较多,使用分类的思路很难达到较高的准确率,此时也可以使用向量化召回的思路进行解决

向量化召回一般面临的静态部分数量都比较多,如果将正样本外的所有负样本都参与计算,工程上难以实现,计算量也会大大增加,所以一般采用负采样的策略进行样本处理

当然,如果静态部分只有几百个,也可以将负样本参与全部计算,实现更好的效果

[0005]图4为现有技术所采用的向量召回方法,与本申请相比,现有技术多仍采用原子策略的排列组合,固化召回策略,效果不佳

平台开发时,明显存在以下问题,召回方式单一,未做到多种形式的召回取长补短;策略颗粒度较粗,局限于渠道维度,无法做到
JD
个性化召回;生产效率低,很难遍历所有有效策略组合,导致召回结果效率慢且效果不佳


技术实现思路

[0006]1、
要解决的问题
[0007]针对上述现有技术存在的问题,本专利技术提供一种向量召回方法,使用
query

title
数据训练双塔结构,使用
title
塔进行计算提供向量,对词模型抽取得到的词,进行向量化表示,封装成批量数据使模型并行计算提升性能

[0008]2、
技术方案
[0009]为解决上述问题,本专利技术采用如下的技术方案

[0010]一种向量召回方法,包括以下步骤:
[0011](1)
构建神经网络,其输入为句子中的某个词或中心词,输出为其他所有词出现在
中心词周围的概率;在输出时,输出的词既有和中心词相邻的词或者是在中心词上下文中附近出现过的词或相关词,也会有不相关的各种词;
[0012](2)
利用向量召回模型训练网络,所述神经网络的参数矩阵为输入文本的特征,输出为词向量;
[0013](3)
通过梯度下降法不断的更新,使得词向量的概率乘积达到数列的最大值,得到了所有词的词向量

[0014]上述所述的向量召回方法,
[0015]步骤
(1)
中构建神经网络前,搭建神经网络库系统,其包括
DGraph
分布式数据库
、Ty pe system
类型系统
、API
应用程序接口
、Graph Engine
引擎;
DGraph
分布式数据库上设置有
MetaData Store
元数据存储区与
Index Store
索引存储区,所述的
DGraph
分布式数据库分别与所述的
MetaData Store
元数据存储区

所述的
Index Store
索引存储区相连;所述的
DGr aph
分布式数据库

所述的
Type system
类型系统

所述的
API
应用程序接口

所述的
Graph Engine
引擎依次相连
[0016]上述所述的向量召回方法,
[0017]步骤
(1)
中概率的计算规则如下:
[0018]设置规则筛选器,其包括规则执行器

入参规则匹配器

场景规划筛选器

规则关系维护器

模型适配器

执行结果分析器;所述的规则执行器分别与所述的入参规则匹配器

所述的场景规划筛选器

所述的规则关系维护器相连,所述的入参规划匹配器

所述的场景规划筛选器

所述的规则关系维护器分别与所述的模型适配器相连,所述的模型适配器与所述的执行结果分析器相连;所述的规则执行器包括简单规则执行器

并行规划执行器

规则执行器选择器
、Droois
规则执行器

基础数据规则执行器及
NLP
规则执行器,所述的简单规则执行器

所述的并行规划执行器

所述的规则执行器选择器

所述的
Droois
规则执行器

所述的基础数据规则执行器

所述的
NLP
规则执行器并列设置

[0019]上述所述的向量召回方法,
[0020]步骤
(1)
中所述的神经网络利用如下的算法进行不同层之间数据传输优化:
[0021][0022]式中,为数据传输优化的参数值,
p0、s...

【技术保护点】

【技术特征摘要】
1.
一种向量召回方法,其特征在于,包括以下步骤:
(1)
构建神经网络,其输入为句子中的某个词或中心词,输出为其他所有词出现在中心词周围的概率;在输出时,输出的词既有和中心词相邻的词或者是在中心词上下文中附近出现过的词或相关词,也会有不相关的各种词;
(2)
利用向量召回模型训练网络,所述神经网络的参数矩阵为输入文本的特征,输出为词向量;
(3)
通过梯度下降法不断的更新,使得词向量的概率乘积达到数列的最大值,得到了所有词的词向量
。2.
根据权利要求1所述的向量召回方法,其特征在于:步骤
(1)
中构建神经网络前,搭建神经网络库系统,其包括
DGraph
分布式数据库
、Ty pe system
类型系统
、API
应用程序接口
、Graph Engine
引擎;其中,
DGraph
分布式数据库上设置有
MetaData Store
元数据存储区与
Index Store
索引存储区;所述的
DGraph
分布式数据库分别与所述的
MetaData Store
元数据存储区

所述的
Index Store
索引存储区相连;所述的
DGraph
分布式数据库

所述的
Type system
类型系统

所述的
API
应用程序接口

所述的
Graph Engine
引擎依次相连
。3.
根据权利要求2所述的向量召回方法,其特征在于:步骤
(1)
中所述概率的计算规则如下:设置规则筛选器,其包括规则执行器

入参规则匹配器

场景规划筛选器

规则关系维护器

模型适配器

执行结果分析器;所述的规则执行器分别与所述的入参规则匹配器

所述的场景规划筛选器

所述的规则关系维护器相连,所述的入参规划匹配器

所述的场景规划筛选器

所述的规则关系维护器分别与所述的模型适配器相连,所述的模型适配器与所述的执行结果分析器相连;所述的规则执行器包括简单规则执行器

并行规划执行器

规则执行器选择器
、Droois
规则执行器

基础数据规则执行器及
NLP
规则执行器;所述的简单规则执行器

所述的并行规划执行器

所述的规则执行器选择器

所述的
Dr oois
规则执行器

所述的基础数据规则执行器

所述的
NLP
规则执行器并列设置
。4.
根据权利要求3所述的向量召回方法,其特征在于:步骤
(1)
中所述的神经网络利用如下的算法进行不同层之间数据传输优化:式中,为数据传输优化的参数值,
p0、

PC
端网络节点的顶点,
s
j

APP
端网络节点的顶点,
s

为第三方应用的网络节点的顶点
。5.
根据权利要求4所述的向量召回方法,其特征在于:步骤
(2)
中所述的向量召回模型利用双塔模型,其对于数据索引的模式如下:对数据的数据内容进行
Hash
计算,获得数据的数据标识;根据数据标识来构建索引节点匹配层,用于将索引节点匹配层中的匹配主键值与匹配
索引节点对应起来,索引节点匹配层由多个索引节点匹配表构成,每个索引节点匹配表由相关的主键值和键值对构成;数据的数据标识作为指针块的主键值,数据的索...

【专利技术属性】
技术研发人员:时迎超王杨
申请(专利权)人:北京网聘信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1