【技术实现步骤摘要】
基于向量空间算法进行前端检索的方法
[0001]本专利技术属于数据处理
,具体地说,涉及一种基于向量空间算法进行前端检索的方法,更具体地说,涉及一种基于分场景长词链向量空间算法进行前端检索的方法
。
技术介绍
[0002]大数据的技术和应用价值已被广泛认可,而其未来核心技术之一知识图谱
(Knowledge Graph)
也随着互联网技术巨头公司的应用得到迅速发展
。
亚马逊运用大数据为客户推荐商品信息,形成了人与商品的全面关系;微软开发了“人立方”,形成了人与人的立体化关系,真正实现人和人的六度空间搜索;百度开发了“百度大脑”,在国内重新定义了搜索引擎,为用户提供全面扩展的搜索结果;谷歌更是早就开始了用大数据思维“接管世界”,最早开发了互联网搜索引擎,开启了互联网时代,并基于此开发了
Google Brain
,引领了知识图谱的概念及技术普及
。
知识图谱是一种图结构的知识库,属于知识工程的范畴
。
不同于普通知识库,知识图谱融合所有学科,将不同来源
、
不同类型
、
不同结构的知识单元通过链接关联成图,基于各学科的元数据,为用户提供更广度
、
更深度的知识体系并不断扩充,其本质上是将领域知识数据体系化
、
关系化,并以图的方式将知识可视化
。
简单来说,可以将知识图谱理解成基于信息系统建立的知识体系,通过数据采集
、
数据挖掘 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
基于向量空间算法进行前端检索的方法,其特征在于,包括以下步骤:
S1
:通过针对不同行业和职类设置不同的
KG
空间,通过描述
、
段落和句子进行不同维度的重复提取和计算;
S2
:与实际场景进行匹配提取命中率最高的关键词;
S3
:将关键词维护到集中的
KG
空间中,抽取得到编码词库并用于前端检索和推荐
。2.
根据权利要求1所述的基于向量空间算法进行前端检索的方法,其特征在于:所述步骤
S1
中,所述的
KG
空间内内核数据为不同行业和职类,内核数据未经历启动时刻的内核初始化,需重定位到原内核数据,内核进行正常执行;依据内核代码及数据与原内核代码及数据相对位置不变这一原理,有:
D
actual
‑
D
actual
‑
imageBase
=
D
ddefault
‑
D
default
‑
imageBase
ꢀꢀꢀ
(I)
式
(I)
中,
D
actual
‑
imageBase
是原内核加载基地址;
D
actual
是原内核中数据的正确值地址,也是内核重定向数据指向的数据位置;
D
default_imageBase
是内核加载基地址;
D
default
是重定向表给出的需要修复的重定向数据地址
。3.
根据权利要求2所述的基于向量空间算法进行前端检索的方法,其特征在于:修复内核系统调用表中系统调用的地址,使其指向
GPU
层内核纯净的可执行代码;根据内核加载基地址与原内核加载基地址之间的偏移,可依据确定每一个系统调用函数地址:
NewSSDTFuncAddr
=
OrigSSDTFuncAddr+
Δ
ꢀꢀꢀꢀꢀ
(II)
式
(II)
中,
NewSSDTFuncAddr
是内核
SSDT
表中的某个系统调用函数地址;
OrigSSDTFuncAddr
是原内核
SSDT
表中对应的系统调用函数地址;
Δ
是内核加载基地址与原内核加载基地址之间的偏移量
。4.
根据权利要求3所述的基于向量空间算法进行前端检索的方法,其特征在于:所述的
GPU
层中集约管理的调度算法如下:式
(III)
中,其中
FD
Qk
代表集约管理的量化复杂性程度值,其中
d
kij
代表集约管理的第
k
个构件集的列向上与行向上的知识图谱数据,其中
p
ki
代表集约管理的第
k
个构件集的列向上的知识图谱数据的复杂度值,其中
p
kj
代表集约管理的第
k
个构件集的行向上的知识图谱数据的复杂度值
。5.
根据权利要求3所述的基于向量空间算法进行前端检索的方法,其特征在于:所述步骤
S1
中,所述的重复提取和计算的方法如下:将结构化的数据
、
半结构化的数据进行特征表示化处理,其中数据为描述
、
段落和句子,其中特征表示化时需将第
i
组关键词的权重值进行如下算法的处理:式
(IV)
技术研发人员:时迎超,王杨,陈家栋,
申请(专利权)人:北京网聘信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。