一种职位知识图谱生成方法和系统技术方案

技术编号:31755499 阅读:15 留言:0更新日期:2022-01-05 16:38
本发明专利技术涉及一种职位知识图谱生成方法和系统,其中所述方法包括以下步骤:基于职位描述数据集、个人简历数据集和百科知识数据集建立具有不同数据状态的语料库;通过实体召回模型从所述语料库召回实体以得到图谱实体,其中,所述实体为名词或名词性词组;通过关系抽取模型从百科知识数据集中抽取实体之间的关系,其中,所述实体之间的关系为包含或相似;以及根据实体之间的关系建立实体与实体之间的映射关系。利用本发明专利技术的图谱,以求职用户的简历、招聘用户的职位描述为基础信息,通过语义提取出基础信息的关键词,并为关键词匹配本发明专利技术提供的图谱中的实体,从而可以深层理解用户的需求,获得需求信息中的隐含信息。获得需求信息中的隐含信息。获得需求信息中的隐含信息。

【技术实现步骤摘要】
一种职位知识图谱生成方法和系统


[0001]本专利技术涉及知识图谱,特别地涉及一种应用于招聘平台的职位知识图谱生成方法和系统。

技术介绍

[0002]招聘平台是在现代信息社会中被人们广泛使用的一个信息平台。一方面,求职者可通过招聘平台中的搜索引擎查询与其预期相符的职位,通常,搜索引擎提供单一选项或多个选项来确定搜索条件。这些搜索选项通常为求职者最为关心的一些选项。例如,“行业”、“职能”、“薪酬范围”、“公司性质”“工作地点”等等。而实际上,由这些已确定的搜索选项确定的搜索条件相应于海量信息来说过于宽范,首先可能会搜索得到大量的职位信息,对于这些大量的职位信息需要求职者自己手动筛选,或者再进行二次搜索。其次是现有的有限几个搜索选项并不能很好地体现求职者的真正意愿,因而搜索结果并不能满足求职者的搜索目的。为了使求职者能够输入其特定的搜索词条,通常在搜索选项中包括一项关键词选项,求职者可以在此选项中输入关键词进行搜索。由于求职者的个体表达差异,对于同一个意思,求职者输入的关键词可能是多种多样,这使得搜索引擎无法正确理解关键词,从而在搜索时出现偏差。在另一方面,大部分的招聘平台具有职位推荐功能,基于求职者的简历和招聘者招聘信息,对求职者和招聘者进行匹配以得到符合求职者需求的职位。然而,由于求职者在其简历或相关求职需求等文件中和招聘者在其招聘信息中对职位、技能等关键信息的描述多种多样,同样的意思可能采用不同的词汇、不同的语式,这为职位的搜索和匹配增加了难度。

技术实现思路

[0003]针对现有技术中存在的技术问题,本专利技术提出了一种职位知识图谱生成方法和系统,用于提供与职位相关的同一维度上多个不同详细程度的内容。
[0004]为了解决上述技术问题,根据本专利技术的一个方面,本专利技术提供了一种职位知识图谱生成方法,其中包括以下步骤:基于职位描述数据集、个人简历数据集和百科知识数据集建立语料库;通过实体召回模型从所述语料库召回实体以得到图谱实体,其中,所述实体为名词或名词性词组;通过关系抽取模型从百科知识数据集中抽取实体之间的关系,其中,所述实体之间的关系为包含或相似;以及根据实体之间的关系建立实体与实体之间的映射关系。
[0005]根据本专利技术的另一个方面,本专利技术还提供了一种职位知识图谱生成系统,其中包括语料模块、实体召回模块、关系抽取模块以及图谱生成模块;其中,所述语料模块经配置以基于职位描述数据集、个人简历数据集和百科知识数据集建立语料库;所述实体召回模块经配置以通过实体召回模型从所述语料库召回实体以得到图谱实体,其中,所述实体为名词或名词性词组;所述关系抽取模块与所述实体召回模块相连接,经配置以通过关系抽取模型从百科知识数据集中抽取实体之间的关系,其中,所述实体之间的关系为包含或相
似;所述图谱生成模块与所述实体召回模块和关系抽取模块相连接,经配置以实体为节点,以根据实体之间的关系建立节点之间的连接从而生成职位知识图谱。
[0006]本专利技术利用平台中用户上传的数据,如职位描述数据、个人简历以及公共百科数据获得与职位相关的名词或名词性词组作为实体,每个实体具有一至多个属性,基于职位搜索、推荐等业务需求,将实体之间的关系设置为包含和相似关系,通过百科数据可自动获取这些实体在关于某个属性之间的包含或相似关系。当已知一个实体时,通过该实体的属性可以找到同一属性的多个实体,这些实体根据包含关系可表达的语义从详细到抽象,而且所述图谱与职位分类表相匹配,因而,通过本专利技术的图谱,以求职用户的简历、招聘用户的职位描述为基础信息,通过语义提取出基础信息的关键词,并为关键词匹配本专利技术提供的图谱中的实体,从而可以深层理解用户的需求,获得需求信息中的隐含信息。
附图说明
[0007]下面,将结合附图对本专利技术的优选实施方式进行进一步详细的说明,其中:
[0008]图1是根据本专利技术的一个实施例的所述职位知识图谱生成的方法流程图;
[0009]图2是根据本专利技术的一个实施例的实体召回的方法流程图;
[0010]图3是根据本专利技术的一个实施例的得到用于实体召回的数据集的方法流程图;
[0011]图4是根据本专利技术的一个实施例的采用Excel的单字格进行标记的数据展示图;
[0012]图5是根据本专利技术的一个实施例实体关系抽取方法流程图;
[0013]图6是根据本专利技术的一个实施例的所述职位知识图谱生成系统原理框图;
[0014]图7是根据本专利技术的一个实施例的语料模块原理框图;
[0015]图8是根据本专利技术的一个实施例的实体召回模块原理框图;
[0016]图9是根据本专利技术的一个实施例的关系抽取模块的原理框图;
[0017]图10是根据本专利技术的一个实施例的知识图谱中的部分实体及其关系展示图;
[0018]图11是根据本专利技术的一个应用实施例的职位推荐方法流程图;以及
[0019]图12是根据本专利技术的一个应用实施例的生成求职用户第一标签的流程图。
具体实施方式
[0020]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]在以下的详细描述中,可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中,相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述,使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解,还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。
[0022]知识图谱是一种揭示实体之间关系的语义网络,每条知识表示为一个SPO三元组(Subject

Predicate

Object),更接近于人类的认知思维,并为互联网上海量、异构和动态的数据的表达、组织、管理以及利用提供了一种有效的方式。本专利技术提供的应用于招聘平台
的知识图谱系统构从招聘平台内部的招聘信息、简历和一些公用数据库中的职位列表、简历等文件中召回实体,并利用从互联网上抓取的百科词条组成的通用百科知识库抽取出实体间关系,从而建立了求职、招聘领域中的职位知识图谱,所述职位知识图谱的生成的过程如图1所示,该方法包括以下步骤:
[0023]步骤S1,建立语料库。
[0024]步骤S2,实体召回。
[0025]步骤S3,抽取实体关系。
[0026]步骤S4,图谱维护。
[0027]在步骤S1中,首先确定数据来源。本专利技术以招聘平台内部的招聘信息、简历和一些公用数据库中的职位列表、简历等文件中的数据、百科知识(WIKI)数据(包括从中文维基百科Wikipedia网页抓取的语料、从百度百科非隐藏网页抓取的三元组语料、从20本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种职位知识图谱生成方法,其中包括:基于职位描述数据集、个人简历数据集和百科知识数据集建立语料库;通过实体召回模型从所述语料库召回实体以得到图谱实体,其中,所述实体为名词或名词性词组;通过关系抽取模型从百科知识数据集中抽取实体之间的关系,其中,所述实体之间的关系为包含或相似;以及根据实体之间的关系建立实体与实体之间的映射关系以生成所述职位知识图谱。2.根据权利要求1所述的方法,进一步包括基于语料库制备用于实体召回的数据集的步骤:利用特征句式和特定词典从语料库中提取出初筛数据集;对初筛数据集进行标注;以及对语料进行调校以得到实体召回数据集。3.根据权利要求2所述的方法,其中,所述特定词典包括实体词典和标签字典,所述利用特征句式和特定词典从语料库中提取出初筛数据集的步骤包括:利用特征句式从语料库中提取出符合所述特征句式的句子构成第一初选数据集;基于实体词典从语料库中提取出包括实体词典中实体的句子构成第二初选数据集;对标签字典中的标签进行拆分得到标签语素集;将标签语素集中的语素映射到语料库,从中提取出包括标签语素的句子;从包含有标签语素的句子中提取出新的词汇;从语料库中提取出包含新的词汇的句子构成第三初选数据集;以及合并所述第一初选数据集、第二初选数据集和第三初选数据集作为初筛数据集。4.根据权利要求2所述的方法,在对初筛数据集进行标注时,标注出句子中的名词或名词性词组。5.根据权利要求2所述的方法,其中进一步包括:从所述实体召回数据集中分离出预置数量的数据作为训练数据集,剩余数据为预测数据集;所述方法进一步包括:构建实体召回模型;按照模型

数据迭代的方式训练、优化所述实体召回模型和所述训练数据集,直到所述实体召回模型符合要求;利用所述实体召回模型基于所述预测数据集进行实体预测,以得到候选实体;以及按照过滤规则对所述候选实体进行过滤以得到包括多个实体的实体集合。6.根据权利要求5所述的方法,其中进一步包括:利用职位分类表对得到的实体集合中的实体进行筛选,筛除不符合所述职位分类表和/或符合所述职位分类表、用在语料库中出现的次数小于阈值的实体。7.根据权利要求6所述的方法,其中进一步包括:为实体集合中的实体标注分类维度。8.根据权利要求1所述的方法,其中进一步包括:在百科知识数据集中标注出实体;使用特定规则从百科知识数据集筛选出具有两个实体的句子以构成关系抽取数据集,所述特定规则用于表达两个实体具有包含或相似关系;以及利用关系抽取模型从所述关系抽取数据集中预测出两个实体之间的关系。
9.根据权利要求8所述的方法,其中进一步包括:从所述关系抽取数据集取出预置数量的句子作为训练数据集;将所述训练数据集中的句子转化为训练语料格式;所述训练语料格式为:x,y,relation,包含实体和关系的语句;其中,x为实体一,y为实体二,relation为实体一和实体二的实体关系,其为包含关系、相似关系或未知关系;以及按照模型

数据相互迭代的方式训练、优化所述关系抽取模型和训练数据集,直到所述关系抽取模型符合要求。10.根据权利要求1所述的方法,其中,在所述图谱生成后得到新的语料时,还包括以下步骤:通过实体召回模型...

【专利技术属性】
技术研发人员:戴圣骐林自达俞希林
申请(专利权)人:前锦网络信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1