基于向量空间算法进行前端检索的方法技术

技术编号:39395583 阅读:5 留言:0更新日期:2023-11-19 15:50
本发明专利技术公开了一种基于向量空间算法进行前端检索的方法,属于数据处理技术领域。本发明专利技术包括以下步骤:通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算,再与实际场景进行匹配提取命中率最高的关键词,然后将关键词维护到集中的KG空间中,抽取得到编码词库并用于前端检索和推荐。使用transforme r模型层记忆全局信息,使每个字都含有全局信息,经过transformer模型后,将文章分并打包成batch,批量送入序列模型RNN,使RNN并行对文章每句话进行编码,达到高性能记忆的效果。达到高性能记忆的效果。达到高性能记忆的效果。

【技术实现步骤摘要】
基于向量空间算法进行前端检索的方法


[0001]本专利技术属于数据处理
,具体地说,涉及一种基于向量空间算法进行前端检索的方法,更具体地说,涉及一种基于分场景长词链向量空间算法进行前端检索的方法


技术介绍

[0002]大数据的技术和应用价值已被广泛认可,而其未来核心技术之一知识图谱
(Knowledge Graph)
也随着互联网技术巨头公司的应用得到迅速发展

亚马逊运用大数据为客户推荐商品信息,形成了人与商品的全面关系;微软开发了“人立方”,形成了人与人的立体化关系,真正实现人和人的六度空间搜索;百度开发了“百度大脑”,在国内重新定义了搜索引擎,为用户提供全面扩展的搜索结果;谷歌更是早就开始了用大数据思维“接管世界”,最早开发了互联网搜索引擎,开启了互联网时代,并基于此开发了
Google Brain
,引领了知识图谱的概念及技术普及

知识图谱是一种图结构的知识库,属于知识工程的范畴

不同于普通知识库,知识图谱融合所有学科,将不同来源

不同类型

不同结构的知识单元通过链接关联成图,基于各学科的元数据,为用户提供更广度

更深度的知识体系并不断扩充,其本质上是将领域知识数据体系化

关系化,并以图的方式将知识可视化

简单来说,可以将知识图谱理解成基于信息系统建立的知识体系,通过数据采集

数据挖掘

信息处理

知识计量和图形绘制等技术把复杂的知识领域系统地显示出来,揭示知识领域的动态发展规律

[0003]在招聘求职行业中最关键的知识图谱元素是
JD

CV
,其大多以文本形式对自身的属性进行描述,同时其自身带有明确的行业特征和用户属性

如图1所示,是在招聘求职行业中带有最关键的元素
JD

CV
的知识图谱示意图,为了更加精准和快速的提供
JDCV
的检索和推荐,基于现有数据进行关键词提取

数据挖掘形成一个完整

准确的知识图谱至关重要

[0004]当前知识图谱系统已经就
JD
进行了
NLP
的解析,但是其语义分析不够准确,尤其是对于三级职类的理解还有很大的歧义和误差,包括职位名称

公司名称

技能关键词等,导致下游在召回和排序等场景下,准确度下降

知识图谱对于
JD

CV
的信息不一致,导致前端搜索和推荐算法的准确度非常低,尤其是在特定行业的专有岗位
(
三级职类
)
上,这种现象更加严重

基于
JD

CV
的沟通场景,目前的非结构化数据挖掘做的不够,基于聊天频次

聊天内容

匹配度等关键信息的挖掘和分析不足,导致了数据资产的浪费与闲置

[0005]如图2所示,传统实体抽取常为短文本的抽取任务

基于词图模型的关键词提取算法主要有
PageRank

TextRank。PageRank

TextRank
算法的思想基础,
TextRank

PageRank
在文本上的应用

其来源于
Google
创始人拉里
·
佩奇和谢尔盖
·
布林于
1997
年构建早期的搜索系统原型时提出的链接分析算法,通过计算网页链接的数量和质量来粗略估计网页的重要性

主要应用在在谷歌的搜索引擎中,是谷歌搜索的核心算法,对网页进行排名,从而解决互联网网页的价值排序问题

其核心思想是关注词链的链接数量和链接质量

链接数量:如果一个网页被很多其他网页链接到,说明这个网页比较重要,也就是
PageRank
值会相对较高

链接质量:如果一个
PageRank
值很高的网页链接到一个其他的网页,那么被链接到的网页的
PageRank
值会相应地因此而提高

[0006]对应于在招聘求职行业中,通过整个
JD

CV
集合看作一张有向图,所有的关键词构成了图中的节点

任务是从图中挖掘每个节点的权重作为其重要性的度量

一个节点如果由很多个其他节点指向它,那么这个节点应该就很重要

同样,如果有多个高权重的节点指向某一节点,且这个节点指向外部的链接数很少,那么这个被链接的点显然非常重要

[0007]但是常规算法针对我们当前的应用场景有以下缺点:词链长度有限制,当词链长度过长后,其效率下降明显

词链分析缺少上下文环境支持,融合
NLP

KG
标签使标签体系精细且层次分明,但数据需求量庞大,所以导致不同行业和职类的匹配算法难以支撑
290
类实体使模型难以拟合或者过拟合

[0008]为了提高数据资产的应用价值,提高
NLP
分析准确性,并且提升知识图谱的一致性,我们计划对当前的
NLP

KG(knowledge graph,
知识图谱
)
进行升级和改造,以提高检索效率和匹配的准确度

[0009]针对以上问题,我们创新的提出了分场景长词链向量空间算法,通过针对不同行业和职类设置不同的
KG
空间,通过描述

段落和句子不同维度的重复提取和计算,再与实际场景进行匹配提取命中率最高的关键词

然后将关键词维护到集中的
KG
空间中,用于前端检索和推荐


技术实现思路

[0010]解决的问题
[0011]针对上述现有技术存在的问题,本专利技术提供一种基于分场景长词链向量空间算法进行前端检索的方法

[0012]技术方案
[0013]为解决上述问题,本专利技术采用如下的技术方案

[0014]图3为本专利技术的基于向量空间算法进行前端检索的方法的流程图;
[0015]如图3所示,本专利技术的基于向量空间算法进行前端检索的方法,包括以下步骤:
[0016]S1
:通过针对不同行业和职类设置不同的
KG
空间,通过描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于向量空间算法进行前端检索的方法,其特征在于,包括以下步骤:
S1
:通过针对不同行业和职类设置不同的
KG
空间,通过描述

段落和句子进行不同维度的重复提取和计算;
S2
:与实际场景进行匹配提取命中率最高的关键词;
S3
:将关键词维护到集中的
KG
空间中,抽取得到编码词库并用于前端检索和推荐
。2.
根据权利要求1所述的基于向量空间算法进行前端检索的方法,其特征在于:所述步骤
S1
中,所述的
KG
空间内内核数据为不同行业和职类,内核数据未经历启动时刻的内核初始化,需重定位到原内核数据,内核进行正常执行;依据内核代码及数据与原内核代码及数据相对位置不变这一原理,有:
D
actual

D
actual

imageBase

D
ddefault

D
default

imageBase
ꢀꢀꢀ
(I)

(I)
中,
D
actual

imageBase
是原内核加载基地址;
D
actual
是原内核中数据的正确值地址,也是内核重定向数据指向的数据位置;
D
default_imageBase
是内核加载基地址;
D
default
是重定向表给出的需要修复的重定向数据地址
。3.
根据权利要求2所述的基于向量空间算法进行前端检索的方法,其特征在于:修复内核系统调用表中系统调用的地址,使其指向
GPU
层内核纯净的可执行代码;根据内核加载基地址与原内核加载基地址之间的偏移,可依据确定每一个系统调用函数地址:
NewSSDTFuncAddr

OrigSSDTFuncAddr+
Δ
ꢀꢀꢀꢀꢀ
(II)

(II)
中,
NewSSDTFuncAddr
是内核
SSDT
表中的某个系统调用函数地址;
OrigSSDTFuncAddr
是原内核
SSDT
表中对应的系统调用函数地址;
Δ
是内核加载基地址与原内核加载基地址之间的偏移量
。4.
根据权利要求3所述的基于向量空间算法进行前端检索的方法,其特征在于:所述的
GPU
层中集约管理的调度算法如下:式
(III)
中,其中
FD
Qk
代表集约管理的量化复杂性程度值,其中
d
kij
代表集约管理的第
k
个构件集的列向上与行向上的知识图谱数据,其中
p
ki
代表集约管理的第
k
个构件集的列向上的知识图谱数据的复杂度值,其中
p
kj
代表集约管理的第
k
个构件集的行向上的知识图谱数据的复杂度值
。5.
根据权利要求3所述的基于向量空间算法进行前端检索的方法,其特征在于:所述步骤
S1
中,所述的重复提取和计算的方法如下:将结构化的数据

半结构化的数据进行特征表示化处理,其中数据为描述

段落和句子,其中特征表示化时需将第
i
组关键词的权重值进行如下算法的处理:式
(IV)

【专利技术属性】
技术研发人员:时迎超王杨陈家栋
申请(专利权)人:北京网聘信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1