一种基于LDA模型、依存句法和深度学习的人岗匹配方法组成比例

技术编号:32776147 阅读:25 留言:0更新日期:2022-03-23 19:32
本发明专利技术涉及匹配方法技术领域,且公开了一种基于LDA模型、依存句法和深度学习的人岗匹配方法,包括以下步骤:S1、将专业名称归类到专业二级分类中;S2、将学校名称统一为正确的表述形式;S3、编辑距离和重复字段对岗位名称进行归一化:通过招聘网站的工作职能的划分制定标准的岗位名称词表,计算文本信息中的岗位名称与预设的标准岗位名称之间的编辑距离和重复字段。本发明专利技术提出一种基于LDA模型、依存句法和深度学习的人岗匹配方法,本发明专利技术本专利的隐含狄利克雷分布模型,依存句法和深度学习模型方法,正是从实用性出发,解决上面所述的耗费人力和时间的缺陷,实现简历信息的有效提取。实现简历信息的有效提取。实现简历信息的有效提取。

【技术实现步骤摘要】
一种基于LDA模型、依存句法和深度学习的人岗匹配方法


[0001]本专利技术涉及匹配方法领域,尤其涉及一种基于LDA模型、依存句法和深度学习的人岗匹配方法。

技术介绍

[0002]目前我们所掌握的同类简历解析技术,主要有如下几种方式:
[0003]1.文本归一化处理,在简历关于岗位名称和学校名称的描述中,往往有多种表达形式,但本质上都指向同一类岗位或同一个学校。从历史招聘数据集合中,根据出现次数由大到小排序,出现次数大于预设阀值的岗位名称或者学校名称定为正确的岗位名称或学校名称;通过正则表达式对简历文本数据进行清洗,在所述的映射词表中通过编辑距离进行匹配,或者构建标准化词表,直接进行匹配,得到岗位名称或学校名称的归一化结果。(备注:专利授权公告号为CN107291715A)。
[0004]2.关键词确定模块,首先根据预设的简历信息训练库对简历信息进行分词处理,得到简历词集合;在预设的简历信息训练库中查找简历词集合中的词对应的权重和关联性;根据查找到的简历词集合中对应的权重和关联性,生成对简历的综合结果,按照综合结果由高到低给简历本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于LDA模型、依存句法和深度学习的人岗匹配方法,其特征在于,包括以下步骤:S1、将专业名称归类到专业二级分类中;S2、将学校名称统一为正确的表述形式;S3、编辑距离和重复字段对岗位名称进行归一化:通过招聘网站的工作职能的划分制定标准的岗位名称词表,计算文本信息中的岗位名称与预设的标准岗位名称之间的编辑距离和重复字段,通过上述编辑距离和重复字段两种方法对岗位名称进行归一化;S4、提取文本关键词:正则化提取,LDA模型,依存句法模型和Roberta模型,在后续的步骤中,综合考虑多种方法提取的关键词,按照词语的权重按大到小排序,输出前20个关键词;依存句法模型,利用pyltp库对文本进行分词,词性标注,依存句法分析:根据核心词表定位关键词,核心词表包括:负责参与等动词,记录这些核心词以及与这些核心词为并列关系(COO)的词语在文本中的位置,再查找与核心词存在定中关系(ATT)、状中关系(ADV)、动宾关系(VOB)、前置宾语(FOB)和主谓关系(SBV)的词语;除去上述核心词以及停用词统计出现频率最高的词语,根据高频次定位关键词,再查找与所述高频词存在ATT或者VOB依存关系的词语;上述的核心词和高频词仅限动词和名词,不考虑其他词性的词语;LDA模型,调用gensim库的LDA模型对简历库里的简历进行无监督的分类:首先对简历库里的简历做文本清理工作,去除没有明显含义的介词、连词等,去除出现频率超过50%的文本的高频词,去除出现频率低于20个文本的低频词,剩下的词构建词典和语料库;再利用LDA模型将所用文本分成25个主题,根据不同主题的词频,从高到低排序,输出概率最高的前200个词;S5、人岗匹配度的计算:学校维度在整体匹配度的计算;专业维度在整体匹配度的计算;重复字段维度在整体匹配度的计算;相关工作经验时长在整体匹配度的计算;相关技能维度在整体匹配度的计算;文本语义相似维度在整体匹配度的计算,将文本词向量化后计算其余弦值,作为文本语义相似度的衡量标准;S6、基于PyTorch深度学习的词嵌入chinese Roberta wwm ext深度学习预训练模型;利用PyTorch构建简历信息解析机器学习框架,为了加速机器学习的效率,我们选用GPU作为加速器的硬件设备,因而选用了Python语言下包含GPU加速的PyTorch版本(torch

gpu)。2.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法,其特征在于,在S1中,根据中普通高等学校本科专业目录的专业分类表,共有93个二级学科,将上述教育部公布的专业目录中740个专业名称通过chinese roberta wwm ext预训练库进行词向量化,再通过最邻近算法(KNN)将740个细分专业分成93个大类。
3.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法,其特征在于,在S2中,根据教育部网站获取公开的全国高等学校名单以及QS500中的正确学校名称,讲应聘者上传的简历做一些简单的文本清理,包括:去除“大学”,“学院”之后的后缀,括号里的其他标注;用去噪后的学校名称与正确学校名称词库做映射。4.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法,其特征在于,在S3中,如果最小编辑距离和最大重复字段指向同一个标准岗位名称,则输出该正确的岗位名称;如果以上两种方法映射的标准岗位名称不统一,则根据不同条件输出对应的标准岗位名称:如果简历岗位名称的某些字符串与最大重复字数映射的标准岗位名称有完全重合的部分,则输出最大重复字数映射的岗位名称;如果简历岗位名称的某些字符串与最小编辑距离映射的标准岗位名称有完全重合的部分,则输出最小编辑距离映射的岗位名称;如果简历岗位名称和所述两种方法映射的标准岗位名称均无完全重复字符串,则输出简历中原本的岗位名称。5.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法,其特征在于,在S4中,调用gensim库的LDA模型对简历库里的简历进行无监督的分类:首先对简历库里的简历做文本清理工作,去除没有明显含义的介词、连词等,去除出现频率超过50%的文本的高频词,去除出现频率低于20个文本的低频词,剩下的词构建词典和语料库;再利用LDA模型将所用文本分成25个主题,根据不同主题的词频,从高到低排序,输出概率最高的前200个词;LDA模型生成主题分类的方式如下:文档1:词11,词12,
……
,词1n文档2:词21,词22,
……
,词2n
……
文档m:词m1,词m2,
……
,词mn见附图2其中α是一个k维向量,αk=1

K表示对于任一文档d,主题的先验概率:αk;θ对于任一文档d,其主题分布为θd,即文档d属于主题k的概率是θ
d
;θ
d
~Dirichlet k(α),θd服从狄利克雷分布;Z为从1到k的N维向量,即对于文档...

【专利技术属性】
技术研发人员:许芷琪王永发张再响钟实陈少燕潘志锋
申请(专利权)人:深圳市前海欢雀科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1