基于向量空间算法进行前端检索的方法技术

技术编号：39395583 阅读：5 留言：0更新日期：2023-11-19 15:50

本发明专利技术公开了一种基于向量空间算法进行前端检索的方法，属于数据处理技术领域。本发明专利技术包括以下步骤：通过针对不同行业和职类设置不同的KG空间，通过描述、段落和句子进行不同维度的重复提取和计算，再与实际场景进行匹配提取命中率最高的关键词，然后将关键词维护到集中的KG空间中，抽取得到编码词库并用于前端检索和推荐。使用transforme r模型层记忆全局信息，使每个字都含有全局信息，经过transformer模型后，将文章分并打包成batch，批量送入序列模型RNN，使RNN并行对文章每句话进行编码，达到高性能记忆的效果。达到高性能记忆的效果。达到高性能记忆的效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于向量空间算法进行前端检索的方法

[0001]本专利技术属于数据处理
，具体地说，涉及一种基于向量空间算法进行前端检索的方法，更具体地说，涉及一种基于分场景长词链向量空间算法进行前端检索的方法
。

技术介绍

[0002]大数据的技术和应用价值已被广泛认可，而其未来核心技术之一知识图谱
(Knowledge Graph)
也随着互联网技术巨头公司的应用得到迅速发展
。
亚马逊运用大数据为客户推荐商品信息，形成了人与商品的全面关系；微软开发了“人立方”，形成了人与人的立体化关系，真正实现人和人的六度空间搜索；百度开发了“百度大脑”，在国内重新定义了搜索引擎，为用户提供全面扩展的搜索结果；谷歌更是早就开始了用大数据思维“接管世界”，最早开发了互联网搜索引擎，开启了互联网时代，并基于此开发了
Google Brain
，引领了知识图谱的概念及技术普及
。
知识图谱是一种图结构的知识库，属于知识工程的范畴
。
不同于普通知识库，知识图谱融合所有学科，将不同来源
、
不同类型
、
不同结构的知识单元通过链接关联成图，基于各学科的元数据，为用户提供更广度
、
更深度的知识体系并不断扩充，其本质上是将领域知识数据体系化
、
关系化，并以图的方式将知识可视化
。
简单来说，可以将知识图谱理解成基于信息系统建立的知识体系，通过数据采集
、
数据挖掘...

【技术保护点】

【技术特征摘要】
1.
基于向量空间算法进行前端检索的方法，其特征在于，包括以下步骤：
S1
：通过针对不同行业和职类设置不同的
KG
空间，通过描述
、
段落和句子进行不同维度的重复提取和计算；
S2
：与实际场景进行匹配提取命中率最高的关键词；
S3
：将关键词维护到集中的
KG
空间中，抽取得到编码词库并用于前端检索和推荐
。2.
根据权利要求1所述的基于向量空间算法进行前端检索的方法，其特征在于：所述步骤
S1
中，所述的
KG
空间内内核数据为不同行业和职类，内核数据未经历启动时刻的内核初始化，需重定位到原内核数据，内核进行正常执行；依据内核代码及数据与原内核代码及数据相对位置不变这一原理，有：
D
actual
‑
D
actual
‑
imageBase
＝
D
ddefault
‑
D
default
‑
imageBase
ꢀꢀꢀ
(I)
式
(I)
中，
D
actual
‑
imageBase
是原内核加载基地址；
D
actual
是原内核中数据的正确值地址，也是内核重定向数据指向的数据位置；
D
default_imageBase
是内核加载基地址；
D
default
是重定向表给出的需要修复的重定向数据地址
。3.
根据权利要求2所述的基于向量空间算法进行前端检索的方法，其特征在于：修复内核系统调用表中系统调用的地址，使其指向
GPU
层内核纯净的可执行代码；根据内核加载基地址与原内核加载基地址之间的偏移，可依据确定每一个系统调用函数地址：
NewSSDTFuncAddr
＝
OrigSSDTFuncAddr+
Δ
ꢀꢀꢀꢀꢀ
(II)
式
(II)
中，
NewSSDTFuncAddr
是内核
SSDT
表中的某个系统调用函数地址；
OrigSSDTFuncAddr
是原内核
SSDT
表中对应的系统调用函数地址；
Δ
是内核加载基地址与原内核加载基地址之间的偏移量
。4.
根据权利要求3所述的基于向量空间算法进行前端检索的方法，其特征在于：所述的
GPU
层中集约管理的调度算法如下：式
(III)
中，其中
FD
Qk
代表集约管理的量化复杂性程度值，其中
d
kij
代表集约管理的第
k
个构件集的列向上与行向上的知识图谱数据，其中
p
ki
代表集约管理的第
k
个构件集的列向上的知识图谱数据的复杂度值，其中
p
kj
代表集约管理的第
k
个构件集的行向上的知识图谱数据的复杂度值
。5.
根据权利要求3所述的基于向量空间算法进行前端检索的方法，其特征在于：所述步骤
S1
中，所述的重复提取和计算的方法如下：将结构化的数据
、
半结构化的数据进行特征表示化处理，其中数据为描述
、
段落和句子，其中特征表示化时需将第
i
组关键词的权重值进行如下算法的处理：式
(IV)

【专利技术属性】
技术研发人员：时迎超，王杨，陈家栋，
申请(专利权)人：北京网聘信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人