【技术实现步骤摘要】
一种向量召回方法和装置
[0001]本专利技术属于数据处理
,具体地说,涉及一种向量召回方法和装置
。
技术介绍
[0002]自然语言处理
(Natural Language Processing
,
NLP)
是研究人与计算机交互的语言问题的一门学科
。
一般而言,自然语言处理包括自然语言理解和自然语言生成
。
自然语言理解是将自然语言变成计算机能够理解的语言,及非结构化文本转变为结构化信息
。
具体地,
NLP
技术可以完成自然语言的语义识别及推荐
、
或调用相关服务给用户提供更智能的功能
。
随着人工智能的发展,
NLP
技术更加成熟
。
[0003]区别于传统的
ItemCF/UserCF
,向量化召回是为了利用向量检索工具,基于欧式距离在向量空间内进行快速的近邻搜索
。
离线时,通过模型进行训练,一般的模式是让正样本
pair
的相似度尽量高于负样本
pair
的相似度,模型收敛即可获得
Embedding
,将静态部分
(
被查询
)
的
embedding
写入
Faiss
工具,建立索引用于线上查询;在线时,针对动态部分
(
主动查询
)
请求模型,输出对应
【技术保护点】
【技术特征摘要】
1.
一种向量召回方法,其特征在于,包括以下步骤:
(1)
构建神经网络,其输入为句子中的某个词或中心词,输出为其他所有词出现在中心词周围的概率;在输出时,输出的词既有和中心词相邻的词或者是在中心词上下文中附近出现过的词或相关词,也会有不相关的各种词;
(2)
利用向量召回模型训练网络,所述神经网络的参数矩阵为输入文本的特征,输出为词向量;
(3)
通过梯度下降法不断的更新,使得词向量的概率乘积达到数列的最大值,得到了所有词的词向量
。2.
根据权利要求1所述的向量召回方法,其特征在于:步骤
(1)
中构建神经网络前,搭建神经网络库系统,其包括
DGraph
分布式数据库
、Ty pe system
类型系统
、API
应用程序接口
、Graph Engine
引擎;其中,
DGraph
分布式数据库上设置有
MetaData Store
元数据存储区与
Index Store
索引存储区;所述的
DGraph
分布式数据库分别与所述的
MetaData Store
元数据存储区
、
所述的
Index Store
索引存储区相连;所述的
DGraph
分布式数据库
、
所述的
Type system
类型系统
、
所述的
API
应用程序接口
、
所述的
Graph Engine
引擎依次相连
。3.
根据权利要求2所述的向量召回方法,其特征在于:步骤
(1)
中所述概率的计算规则如下:设置规则筛选器,其包括规则执行器
、
入参规则匹配器
、
场景规划筛选器
、
规则关系维护器
、
模型适配器
、
执行结果分析器;所述的规则执行器分别与所述的入参规则匹配器
、
所述的场景规划筛选器
、
所述的规则关系维护器相连,所述的入参规划匹配器
、
所述的场景规划筛选器
、
所述的规则关系维护器分别与所述的模型适配器相连,所述的模型适配器与所述的执行结果分析器相连;所述的规则执行器包括简单规则执行器
、
并行规划执行器
、
规则执行器选择器
、Droois
规则执行器
、
基础数据规则执行器及
NLP
规则执行器;所述的简单规则执行器
、
所述的并行规划执行器
、
所述的规则执行器选择器
、
所述的
Dr oois
规则执行器
、
所述的基础数据规则执行器
、
所述的
NLP
规则执行器并列设置
。4.
根据权利要求3所述的向量召回方法,其特征在于:步骤
(1)
中所述的神经网络利用如下的算法进行不同层之间数据传输优化:式中,为数据传输优化的参数值,
p0、
为
PC
端网络节点的顶点,
s
j
为
APP
端网络节点的顶点,
s
′
为第三方应用的网络节点的顶点
。5.
根据权利要求4所述的向量召回方法,其特征在于:步骤
(2)
中所述的向量召回模型利用双塔模型,其对于数据索引的模式如下:对数据的数据内容进行
Hash
计算,获得数据的数据标识;根据数据标识来构建索引节点匹配层,用于将索引节点匹配层中的匹配主键值与匹配
索引节点对应起来,索引节点匹配层由多个索引节点匹配表构成,每个索引节点匹配表由相关的主键值和键值对构成;数据的数据标识作为指针块的主键值,数据的索...
【专利技术属性】
技术研发人员:时迎超,王杨,
申请(专利权)人:北京网聘信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。