一种职位知识图谱生成方法和系统技术方案

技术编号：31755499 阅读：31 留言：0更新日期：2022-01-05 16:38

本发明专利技术涉及一种职位知识图谱生成方法和系统，其中所述方法包括以下步骤：基于职位描述数据集、个人简历数据集和百科知识数据集建立具有不同数据状态的语料库；通过实体召回模型从所述语料库召回实体以得到图谱实体，其中，所述实体为名词或名词性词组；通过关系抽取模型从百科知识数据集中抽取实体之间的关系，其中，所述实体之间的关系为包含或相似；以及根据实体之间的关系建立实体与实体之间的映射关系。利用本发明专利技术的图谱，以求职用户的简历、招聘用户的职位描述为基础信息，通过语义提取出基础信息的关键词，并为关键词匹配本发明专利技术提供的图谱中的实体，从而可以深层理解用户的需求，获得需求信息中的隐含信息。获得需求信息中的隐含信息。获得需求信息中的隐含信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种职位知识图谱生成方法和系统

[0001]本专利技术涉及知识图谱，特别地涉及一种应用于招聘平台的职位知识图谱生成方法和系统。

技术介绍

[0002]招聘平台是在现代信息社会中被人们广泛使用的一个信息平台。一方面，求职者可通过招聘平台中的搜索引擎查询与其预期相符的职位，通常，搜索引擎提供单一选项或多个选项来确定搜索条件。这些搜索选项通常为求职者最为关心的一些选项。例如，“行业”、“职能”、“薪酬范围”、“公司性质”“工作地点”等等。而实际上，由这些已确定的搜索选项确定的搜索条件相应于海量信息来说过于宽范，首先可能会搜索得到大量的职位信息，对于这些大量的职位信息需要求职者自己手动筛选，或者再进行二次搜索。其次是现有的有限几个搜索选项并不能很好地体现求职者的真正意愿，因而搜索结果并不能满足求职者的搜索目的。为了使求职者能够输入其特定的搜索词条，通常在搜索选项中包括一项关键词选项，求职者可以在此选项中输入关键词进行搜索。由于求职者的个体表达差异，对于同一个意思，求职者输入的关键词可能是多种多样，这使得搜索引擎无法正确理解关键词，从...

【技术保护点】

【技术特征摘要】
1.一种职位知识图谱生成方法，其中包括：基于职位描述数据集、个人简历数据集和百科知识数据集建立语料库；通过实体召回模型从所述语料库召回实体以得到图谱实体，其中，所述实体为名词或名词性词组；通过关系抽取模型从百科知识数据集中抽取实体之间的关系，其中，所述实体之间的关系为包含或相似；以及根据实体之间的关系建立实体与实体之间的映射关系以生成所述职位知识图谱。2.根据权利要求1所述的方法，进一步包括基于语料库制备用于实体召回的数据集的步骤：利用特征句式和特定词典从语料库中提取出初筛数据集；对初筛数据集进行标注；以及对语料进行调校以得到实体召回数据集。3.根据权利要求2所述的方法，其中，所述特定词典包括实体词典和标签字典，所述利用特征句式和特定词典从语料库中提取出初筛数据集的步骤包括：利用特征句式从语料库中提取出符合所述特征句式的句子构成第一初选数据集；基于实体词典从语料库中提取出包括实体词典中实体的句子构成第二初选数据集；对标签字典中的标签进行拆分得到标签语素集；将标签语素集中的语素映射到语料库，从中提取出包括标签语素的句子；从包含有标签语素的句子中提取出新的词汇；从语料库中提取出包含新的词汇的句子构成第三初选数据集；以及合并所述第一初选数据集、第二初选数据集和第三初选数据集作为初筛数据集。4.根据权利要求2所述的方法，在对初筛数据集进行标注时，标注出句子中的名词或名词性词组。5.根据权利要求2所述的方法，其中进一步包括：从所述实体召回数据集中分离出预置数量的数据作为训练数据集，剩余数据为预测数据集；所述方法进一步包括：构建实体召回模型；按照模型
‑
数据迭代的方式训练、优化所述实体召回模型和所述训练数据集，直到所述实体召回模型符合要求；利用所述实体召回模型基于所述预测数据集进行实体预测，以得到候选实体；以及按照过滤规则对所述候选实体进行过滤以得到包括多个实体的实体集合。6.根据权利要求5所述的方法，其中进一步包括：利用职位分类表对得到的实体集合中的实体进行筛选，筛除不符合所述职位分类表和/或符合所述职位分类表、用在语料库中出现的次数小于阈值的实体。7.根据权利要求6所述的方法，其中进一步包括：为实体集合中的实体标注分类维度。8.根据权利要求1所述的方法，其中进一步包括：在百科知识数据集中标注出实体；使用特定规则从百科知识数据集筛选出具有两个实体的句子以构成关系抽取数据集，所述特定规则用于表达两个实体具有包含或相似关系；以及利用关系抽取模型从所述关系抽取数据集中预测出两个实体之间的关系。
9.根据权利要求8所述的方法，其中进一步包括：从所述关系抽取数据集取出预置数量的句子作为训练数据集；将所述训练数据集中的句子转化为训练语料格式；所述训练语料格式为：x，y，relation，包含实体和关系的语句；其中，x为实体一，y为实体二，relation为实体一和实体二的实体关系，其为包含关系、相似关系或未知关系；以及按照模型
‑
数据相互迭代的方式训练、优化所述关系抽取模型和训练数据集，直到所述关系抽取模型符合要求。10.根据权利要求1所述的方法，其中，在所述图谱生成后得到新的语料时，还包括以下步骤：通过实体召回模型...

【专利技术属性】
技术研发人员：戴圣骐，林自达，俞希林，
申请(专利权)人：前锦网络信息技术上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人