招聘领域知识图谱构建的打标签方法和系统技术方案

技术编号：38394588 阅读：12 留言：0更新日期：2023-08-07 11:09

本发明专利技术涉及在线招聘领域，具体涉及招聘领域知识图谱构建的打标签方法、和系统。该方法为通过获取招聘领域知识图谱构建的职类知识数据源，对职类知识数据源进行聚类分析后，利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别，输出识别的实体结果，并对所述初步分类结果进行分词，将分词结果与知识树的知识匹配，输出知识标签；将实体结果与知识标签进行相似度计算及过滤后合并，得到打标结果，发送至应用端后可应用于搜索推荐场景中，在应用中可以通过职位描述、简历描述、识别出简历和职位的核心内容，确定出职位招聘所需人才的能力、简历、以及能适应的职位，实现对简历和职位做精准的匹配推荐。实现对简历和职位做精准的匹配推荐。实现对简历和职位做精准的匹配推荐。

全部详细技术资料下载

【技术实现步骤摘要】
招聘领域知识图谱构建的打标签方法和系统

[0001]本专利技术涉及在线招聘领域，尤其涉及一种招聘领域知识图谱构建的打标签方法和系统。

技术介绍

[0002]在数字化改革的背景下，数据应用能力的强弱也关乎企业在资本市场中竞争能力的强弱。尤其是在求职招聘的应用中。相对于传统线下招聘，线上招聘在便利性、信息透明度方面体现了巨大的优势。
[0003]而线上招聘的招聘网站或者APP客户端会沉淀和积累大量招聘领域数据资源，如何应用数据资源为企业创造更多的价值。其中知识图谱的应用时不可缺少的一部分，知识图谱的应用体现在多个方面，如：帮助企业精准找到所需人才；也可帮助企业定位需要哪些岗位；帮助求职者找到心仪的工作机会；也可为求职者提供职业发展路线图等。
[0004]对于竞争日益增加的招聘行业，需要对繁杂的招聘信息和简历信息进行筛选，并生成有效的标签信息，从而快速构建知识图谱，对招聘要求和简历信息的编写提供明确的引导，实现求职者和企业之间高契合度的匹配，助力企业提升核心竞争力，同时也为企业多元化发展提供了必备的条件。
[0005]而在构建招聘领域知识图谱的过程中，如何对应用在个人履历或工作描述的职类知识打标签，确保知识标签的准确率，以便发送至应用端后可以应用在搜索推荐场景中，成为招聘领域知识图谱构建中亟需解决的技术问题之一。

技术实现思路

[0006]鉴于此，本专利技术提供了一种招聘领域知识图谱构建的打标签方法和系统。
[0007]为实现上述目的，本专利技术提供了如下的技术方案：
>[0008]第一方面，在本专利技术提供了一种招聘领域知识图谱构建的打标签方法，包括以下步骤：
[0009]获取招聘领域知识图谱构建的职类知识数据源，其中，所述职类知识数据源包括职位内容文本数据；
[0010]利用分类模型对输入的所述职类知识数据源进行聚类分析，得到所属领域文本数据的初步分类结果；
[0011]利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别，输出识别的实体结果，并对所述初步分类结果进行分词，将分词结果与知识树的知识匹配，输出知识标签；
[0012]将所述实体结果与所述知识标签进行相似度计算，滤除相似度低于预设阈值的实体，将过滤后的实体结果与知识标签合并后输出，得到打标结果。
[0013]作为本专利技术的进一步方案，获取招聘领域知识图谱构建的职类知识数据源，还包括职类知识的实时变更，所述职类知识的实时变更包括在线变更信息、离线变更信息以及
自定义样本信息。
[0014]作为本专利技术的进一步方案，所述职位内容文本数据包括职位描述的职位文本数据，利用分类模型进行聚类分析后得到的初步分类结果包含职位内容分类文本信息，所述职位内容分类文本信息包括简历文本分类结果、岗位职责分类结果、岗位要求分类结果、职位信息分类结果。
[0015]作为本专利技术的进一步方案，所述分类模型为应用BERT预训练的语言模型，用于将职位内容分为岗位职责、岗位要求、简历文本、福利待遇在内的分类模块，所述分类模型还用于将所述职位文本数据中简历工作经历拆分为个人职责以及项目职责。
[0016]作为本专利技术的进一步方案，所述实体识别模型为基于BERT模型、BiLSTM模型以及CRF模型相结合训练的识别模型，所述实体识别模型的第一层为BERT模型，用于获取字向量，提取职类知识数据源的文本特征；所述实体识别模型的第二层为双向LSTM层，用于深度学习上下文特征信息，进行命名实体识别；所述实体识别模型的第三层为CRF层，用于对LSTM层输出序列处理，求取进行目标函数最优化的序列，并输出实体结果。
[0017]作为本专利技术的进一步方案，对所述初步分类结果进行分词包括：对初步分类结果进行NLP分词，得到分词结果，并将分词结果与知识树的知识匹配。
[0018]作为本专利技术的进一步方案，输出知识标签之前，还包括对分词结果与知识树的知识匹配后，进行位置过滤，利用过滤策略及过滤筛选规则进行过滤处理，得到初步分类结果对应的知识标签。
[0019]作为本专利技术的进一步方案，所述招聘领域知识图谱构建的打标签方法，还包括在迭代环境下验证知识标签，在校验知识标签后，将打标结果信息发送至应用端，应用于搜索推荐场景中。
[0020]第二方面，在本专利技术提供的一个方案中，提供了一种招聘领域知识图谱构建的打标签系统，该系统包括数据源获取模块、数据聚类分析模块、实体识别模块、知识匹配模块以及打标处理模块；
[0021]数据源获取模块用于获取招聘领域知识图谱构建的职类知识数据源；数据聚类分析模块用于利用分类模型对输入的所述职类知识数据源进行聚类分析，得到所属领域文本数据的初步分类结果；实体识别模块用于利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别，输出识别的实体结果；知识匹配模块用于对所述初步分类结果进行分词，将分词结果与知识树的知识匹配，输出知识标签；打标处理模块用于将所述实体结果与所述知识标签进行相似度计算，滤除相似度低于预设阈值的实体，将过滤后的实体结果与知识标签合并后输出，得到打标结果。
[0022]第三方面，在本专利技术提供的又一个方案中，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器加载并执行所述计算机程序时实现招聘领域知识图谱构建的打标签方法的步骤。
[0023]第四方面，在本专利技术提供的再一个方案中，提供了一种存储介质，存储有计算机程序，所述计算机程序被处理器加载并执行时实现所述招聘领域知识图谱构建的打标签方法的步骤。
[0024]本专利技术提供的技术方案，具有如下有益效果：
[0025]本专利技术提供的招聘领域知识图谱构建的打标签方法、系统、设备及介质，通过获取
招聘领域知识图谱构建的职类知识数据源，对职类知识数据源进行聚类分析后，利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别，输出识别的实体结果，并对所述初步分类结果进行分词，将分词结果与知识树的知识匹配，输出知识标签；将实体结果与知识标签进行相似度计算及过滤后合并，得到打标结果，发送至应用端后可应用于搜索推荐场景中，在应用中可以通过职位描述、简历描述、识别出简历和职位的核心内容，确定出职位招聘所需人才的能力、简历、以及能适应的职位，实现对简历和职位做精准的匹配推荐。
[0026]本专利技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本专利技术。
附图说明
[0027]为了更清楚地说明本专利技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例。在附图中：
[0028]图1为本专利技术一个实施例的一种招聘领域知识图谱构建的打标签方法的流程图。
[0029]图2为本专利技术一个实施例的一种招聘领域知识图谱构建的打标签方法中linking流程图。
[0030]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种招聘领域知识图谱构建的打标签方法，其特征在于，包括以下步骤：S10:获取招聘领域知识图谱构建的职类知识数据源，其中，所述职类知识数据源包括职位内容文本数据；S20:利用分类模型对输入的所述职类知识数据源进行聚类分析，得到所属领域文本数据的初步分类结果；S30:利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别，输出识别的实体结果；S40:对所述初步分类结果进行分词，将分词结果与知识树的知识匹配，输出知识标签；S50:将所述实体结果与所述知识标签进行相似度计算，滤除相似度低于预设阈值的实体，将过滤后的实体结果与知识标签合并后输出，得到打标结果。2.如权利要求1所述的招聘领域知识图谱构建的打标签方法，其特征在于，步骤S10中获取招聘领域知识图谱构建的职类知识数据源，还包括职类知识的实时变更，所述职类知识的实时变更包括在线变更信息、离线变更信息以及自定义样本信息。3.如权利要求2所述的招聘领域知识图谱构建的打标签方法，其特征在于，所述职位内容文本数据包括职位描述的职位文本数据，利用分类模型进行聚类分析后得到的初步分类结果包含职位内容分类文本信息，所述职位内容分类文本信息包括简历文本分类结果、岗位职责分类结果、岗位要求分类结果、职位信息分类结果。4.如权利要求3所述的招聘领域知识图谱构建的打标签方法，其特征在于，所述分类模型为应用BERT预训练的语言模型，用于将职位内容分为岗位职责、岗位要求、简历文本、福利待遇在内的分类模块，所述分类模型还用于将所述职位文本数据中简历工作经历拆分为个人职责以及项目职责。5.如权利要求1所述的招聘领域知识图谱构建的打标签方法，其特征在于，所述实体识别模型为基于BERT模型、BiLSTM模型以及CRF模型相结合训练的识别模型，所述实体识别模型的第一层为BERT模型，用于获取字向量，提取职类知识数据源的文本特征；所述实体识别模型的第二层为双向LSTM层，用于深度学习上下文特征信息，进行命名实体识别；所述实体识别模型的第三层为CRF层，用于对LSTM层输出序列处理，求取进行目标函数最优化的序列，...

【专利技术属性】
技术研发人员：孙波，沈玉军，辛姿敬，杜建君，何娟娟，谢菲，
申请(专利权)人：北京网聘咨询有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人