基于工作说明书解析的岗位画像标签提取方法及装置制造方法及图纸

技术编号:38715592 阅读:10 留言:0更新日期:2023-09-08 14:58
本申请涉及一种基于工作说明书解析的岗位画像标签提取方法及装置。所述方法包括:获取相关企业岗位的工作说明书;对工作说明书进行预处理,得到预处理后的工作说明书;根据自然语言处理技术对预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书;对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子;利用模糊因子设置模糊聚类的损失函数,根据损失函数对关键词进行分配,得到每个关键词所属的初始类别;根据基于密度的DBSCAN算法对分配初始类别后的关键词进行密度聚类,得到每个类别的中心以及中心对应的关键词集合;将关键词集合作为岗位的画像标签。采用本方法能够实现岗位画像标签提取。标签。采用本方法能够实现岗位画像标签提取。标签。采用本方法能够实现岗位画像标签提取。

【技术实现步骤摘要】
基于工作说明书解析的岗位画像标签提取方法及装置


[0001]本申请涉及数据处理
,特别是涉及一种基于工作说明书解析的岗位画像标签提取方法及装置。

技术介绍

[0002]近年来,随着大数据和人工智能技术的不断发展和普及,岗位画像成为了企业招聘、人才培养和职业规划等领域的重要工具。基于岗位画像,企业可以更准确地了解各种岗位的需求和特点,从而制定更有效的招聘策略。同时,在求职者方面,岗位画像也可以帮助他们更好地了解自己适合的岗位,并提高求职成功率。
[0003]然而,目前已有的专利申请中,CN201910068512

一种岗位画像设置方法、岗位画像设置装置及终端设备,CN201910744021

一种岗位画像生成方法、岗位画像生成装置及电子设备,CN201910192576

岗位画像和简历信息的匹配方法、装置、设备及存储介质,CN202011286200

岗位画像生成方法、装置、设备及存储介质,主要解决的是岗位画像的生成和设置问题,没有提供相关岗位画像标签的提取方法。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够实现岗位画像标签提取的基于工作说明书解析的岗位画像标签提取方法、装置、计算机设备和存储介质。
[0005]一种基于工作说明书解析的岗位画像标签提取方法,所述方法包括:获取相关企业岗位的工作说明书;对工作说明书进行预处理,得到预处理后的工作说明书;根据自然语言处理技术对预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书;对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子;利用模糊因子设置模糊聚类的损失函数,根据损失函数对关键词进行分配,得到每个关键词所属的初始类别;根据基于密度的DBSCAN算法对分配初始类别后的关键词进行密度聚类,得到每个类别的中心以及中心对应的关键词集合;将关键词集合作为岗位的画像标签。
[0006]在其中一个实施例中,对工作说明书进行预处理,得到预处理后的工作说明书,包括:对工作说明书进行文本清洗,去除工作说明书中的无用信息,再根据jieba分词工具对清洗后的工作说明书进行分词和词性标注并进行停用词过滤,得到预处理后的工作说明书。
[0007]在其中一个实施例中,根据自然语言处理技术对预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书,包括:根据TF

IDF算法对预处理后的工作说明书进行关键词提取,再根据词袋模型对提
取后的句子或短语进行向量化,得到向量化后的句子;对所有向量化后的句子进行加权平均,得到向量化后的工作说明书。
[0008]在其中一个实施例中,根据TF

IDF算法对预处理后的工作说明书进行关键词提取,包括:根据TF

IDF算法对预处理后的工作说明书进行关键词提取,得到提取后的句子或短语为;其中,w表示单词,表示工作说明书文本中的一个句子或短语,D表示整篇工作说明书,表示单词w在句子或短语中的出现频率,表示单词w在整篇工作说明书中的逆文档频率。
[0009]在其中一个实施例中,对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子,包括:对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子为;其中,表示关键词到第j个类别中心的距离,表示关键词到第k个类别中心的距离,m表示类别总数,b是模糊因子的指数。
[0010]在其中一个实施例中,利用模糊因子设置模糊聚类的损失函数,包括:利用模糊因子设置模糊聚类的损失函数为;其中,表示关键词总数。
[0011]在其中一个实施例中,根据基于密度的DBSCAN算法对分配初始类别后的关键词进行密度聚类,得到每个类别对应的关键词集合,包括:将分配初始类别后的关键词分为核心点、边界点和噪声点;核心点是指在以自身为圆心,为半径的邻域内至少包含个点的数据点,其中是一个预设的参数;边界点是指在以核心点为圆心,为半径的邻域内但不是核心点的数据点;噪声点是指既不是核心点也不是边界点的数据点;随机选择一个的关键词x,判断其是否为核心点,如果是核心点,则创建一个新的簇,并将核心点以及其密度可达的所有点归为新的簇;如果x不是核心点,但是x是某个核心点的边界点,则将x归为对应核心点所在的簇;如果x既不是核心点也不是边界点,则将x标记为噪声点,直到所有关键词都被分类为止,得到每个类别对应的关键词集合;其中,对于每个关键词,定义以其为圆心,为半径的邻域为,如果某个关键词在关键词的邻域内,即,则称是的直接密度可达点,如果存在一个关键词序列,满足,且是的直接密度可达点,则称
是的密度可达点。
[0012]一种基于工作说明书解析的岗位画像标签提取装置,所述装置包括:预处理模块,用于获取相关企业岗位的工作说明书;对工作说明书进行预处理,得到预处理后的工作说明书;向量化处理模块,用于根据自然语言处理技术对预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书;模糊聚类模块,用于对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子;利用模糊因子设置模糊聚类的损失函数,根据损失函数对关键词进行分配,得到每个关键词所属的初始类别;密度聚类模块,用于根据基于密度的DBSCAN算法对分配初始类别后的关键词进行密度聚类,得到每个类别的中心以及中心对应的关键词集合;将关键词集合作为岗位的画像标签。
[0013]上述基于工作说明书解析的岗位画像标签提取方法及装置,首先对工作说明书进行预处理,得到预处理后的工作说明书,根据自然语言处理技术对预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书,通过将工作说明书内容向量化,能够高效地处理大量数据,提高算法的效率。再对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子;利用模糊因子设置模糊聚类的损失函数,根据损失函数对关键词进行分配,得到每个关键词所属的初始类别,考虑了关键词之间的模糊性,通过设计工作说明书工作内容与任务模糊因子,相比于传统聚类算法,能够更准确高效地对工作说明书中的内容进行分析和提取,从而实现自动化生成岗位画像标签,最后根据基于密度的DBSCAN算法对分配初始类别后的关键词进行密度聚类,利用最新的聚类算法对每个类别进行进一步的聚类,可以有效地处理数据分布不均匀、聚类形状不规则和噪声等问题,提高聚类准确率,进而提高岗位画像标签的准确率。
附图说明
[0014]图1为一个实施例中一种基于工作说明书解析的岗位画像标签提取方法的流程示意图;图2为一个实施例中一种基于工作说明书解析的岗位画像标签提取装置的结构框图。
具体实施方式
[0015]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0016]在一个实施例中,如图1所示,提供了一种基于工作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于工作说明书解析的岗位画像标签提取方法,其特征在于,所述方法包括:获取相关企业岗位的工作说明书;对所述工作说明书进行预处理,得到预处理后的工作说明书;根据自然语言处理技术对所述预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书;对所述向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子;利用所述模糊因子设置模糊聚类的损失函数,根据所述损失函数对所述关键词进行分配,得到每个关键词所属的初始类别;根据基于密度的DBSCAN算法对分配初始类别后的关键词进行密度聚类,得到每个类别的中心以及中心对应的关键词集合;将所述关键词集合作为岗位的画像标签。2.根据权利要求1所述的方法,其特征在于,对所述工作说明书进行预处理,得到预处理后的工作说明书,包括:对所述工作说明书进行文本清洗,去除工作说明书中的无用信息,再根据jieba分词工具对清洗后的工作说明书进行分词和词性标注并进行停用词过滤,得到预处理后的工作说明书。3.根据权利要求1所述的方法,其特征在于,根据自然语言处理技术对所述预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书,包括:根据TF

IDF算法对所述预处理后的工作说明书进行关键词提取,再根据词袋模型对提取后的句子或短语进行向量化,得到向量化后的句子;对所有向量化后的句子进行加权平均,得到向量化后的工作说明书。4.根据权利要求3所述的方法,其特征在于,根据TF

IDF算法对所述预处理后的工作说明书进行关键词提取,包括:根据TF

IDF算法对所述预处理后的工作说明书进行关键词提取,得到提取后的句子或短语为;其中,w表示单词,表示工作说明书文本中的一个句子或短语,D表示整篇工作说明书,表示单词w在句子或短语中的出现频率,表示单词w在整篇工作说明书中的逆文档频率。5.根据权利要求1所述的方法,其特征在于,对所述向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子,包括:对所述向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子为;其中,表示关键词...

【专利技术属性】
技术研发人员:王涛沈大勇张忠山姚锋刘晓路杜永浩闫俊刚王沛陈英武吕济民何磊陈宇宁陈盈果
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1