一种电子简历的筛选方法及装置制造方法及图纸

技术编号:26792105 阅读:14 留言:0更新日期:2020-12-22 17:07
本发明专利技术提供了一种电子简历的筛选方法及装置,通过对待筛选电子简历进行解析,得到待筛选电子简历对应的目标岗位以及多个预设字段数据,多个预设字段可以被配置为最反映招聘需求的字段。通过根据每个预设字段数据的类型,分别对每个预设字段数据进行结构化特征提取和/或半结构化特征提取和/或非结构化特征提取,进一步得到全面、准确反映应聘人特征的特征数据,然后将待筛选电子简历的特征数据输入到以通过目标岗位筛选的电子简历的特征数据为正样本、以未通过目标岗位筛选的电子简历的特征数据为负样本训练得到的简历筛选模型中进行处理,根据简历筛选模型的处理结果实现对电子简历的快速、准确筛选,提高了电子简历的筛选效率。

【技术实现步骤摘要】
一种电子简历的筛选方法及装置
本专利技术涉及计算机
,更具体的,涉及一种电子简历的筛选方法及装置。
技术介绍
近年来,随着信息化技术的发展,职位招聘的过程变得互联网化和数字化,借助网络技术和相应招聘平台,各组织通过发布招聘信息可以迅速获得大量电子简历。但是,面对海量的电子简历,若采用人工筛选的方式,工作量大且效率低下。因此,如何从海量电子简历中快速、准确的筛选出满足岗位要求的电子简历成为本领域亟待解决的技术问题。
技术实现思路
有鉴于此,本专利技术提供了一种电子简历的筛选方法及装置,提高了电子简历的筛选效率。为了实现上述专利技术目的,本专利技术提供的具体技术方案如下:一种电子简历的筛选方法,包括:获取待筛选电子简历;对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据;根据每个所述预设字段数据的类型对应的特征提取方式,分别对每个所述预设字段数据进行特征提取,得到所述待筛选电子简历的特征数据,所述特征提取方式包括:结构化特征提取、半结构化特征提取和非结构化特征提取;将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,所述目标岗位对应的简历筛选模型的训练数据中的正样本为通过所述目标岗位筛选的电子简历的特征数据,负样本为未通过所述目标岗位筛选的电子简历的特征数据。可选的,所述对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据,包括:提取所述待筛选电子简历的文本信息;从所述文本信息中提取岗位数据,确定所述待筛选电子简历对应的所述目标岗位;判断所述文本信息的格式是否满足预设简历格式;若满足所述预设简历格式,根据所述预设简历格式中预设字段与位置之间的对应关系,从所述文本信息中提取多个所述预设字段数据;若不满足所述预设简历格式,采用基于规则与关键字的方式从所述文本信息中提取多个所述预设字段数据。可选的,当所述预设字段数据的类型为结构化数据时,对所述预设字段数据进行结构化特征提取,包括:提取所述预设字段数据中的预设属性特征数据;对所述预设属性特征数据进行特征编码,得到所述预设字段数据的特征数据。可选的,当所述预设字段数据的类型为半结构化数据时,对所述预设字段数据进行半结构化特征提取,包括:对所述预设字段数据进行命名实体识别,得到多个实体;根据预先设定的实体与特征名称的对应关系以及实体与特征值的对应关系,确定每个特征名称对应的特征值;对每个特征名称对应的特征值进行特征编码,得到所述预设字段数据的特征数据。可选的,当所述预设字段数据的类型为非结构化数据时,对所述预设字段数据进行非结构化特征提取,包括:对所述预设字段进行分词处理、新词发现处理和去停用词处理,得到多个成词;对多个成词进行聚类处理,得到多个词类;对每个词类进行正负样本上的分布统计,根据每个词类的分布统计结果剔除低区分度词;根据JS散度算法,计算剔除低区分度词后的每个词类的JS散度,并将JS散度大于预设值的词类确定为待提取词类;分别计算每个待提取词类的词频得分,得到所述预设字段的特征数据。可选的,所述将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,包括:判断所述待筛选电子简历的特征数据是否符合预先设定的前置规则;若符合所述前置规则,将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果。一种电子简历的筛选装置,包括:简历获取单元,用于获取待筛选电子简历;简历解析单元,用于对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据;特征提取单元,用于根据每个所述预设字段数据的类型对应的特征提取方式,分别对每个所述预设字段数据进行特征提取,得到所述待筛选电子简历的特征数据,所述特征提取方式包括:结构化特征提取、半结构化特征提取和非结构化特征提取;简历筛选单元,用于将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,所述目标岗位对应的简历筛选模型的训练数据中的正样本为通过所述目标岗位筛选的电子简历的特征数据,负样本为未通过所述目标岗位筛选的电子简历的特征数据。可选的,所述简历解析单元,具体用于:提取所述待筛选电子简历的文本信息;从所述文本信息中提取岗位数据,确定所述待筛选电子简历对应的所述目标岗位;判断所述文本信息的格式是否满足预设简历格式;若满足所述预设简历格式,根据所述预设简历格式中预设字段与位置之间的对应关系,从所述文本信息中提取多个所述预设字段数据;若不满足所述预设简历格式,采用基于规则与关键字的方式从所述文本信息中提取多个所述预设字段数据。可选的,当所述预设字段数据的类型为结构化数据时,所述特征提取单元,具体用于:提取所述预设字段数据中的预设属性特征数据;对所述预设属性特征数据进行特征编码,得到所述预设字段数据的特征数据。可选的,当所述预设字段数据的类型为半结构化数据时,所述特征提取单元,具体用于:对所述预设字段数据进行命名实体识别,得到多个实体;根据预先设定的实体与特征名称的对应关系以及实体与特征值的对应关系,确定每个特征名称对应的特征值;对每个特征名称对应的特征值进行特征编码,得到所述预设字段数据的特征数据。可选的,当所述预设字段数据的类型为非结构化数据时,所述特征提取单元,具体用于:对所述预设字段进行分词处理、新词发现处理和去停用词处理,得到多个成词;对多个成词进行聚类处理,得到多个词类;对每个词类进行正负样本上的分布统计,根据每个词类的分布统计结果剔除低区分度词;根据JS散度算法,计算剔除低区分度词后的每个词类的JS散度,并将JS散度大于预设值的词类确定为待提取词类;分别计算每个待提取词类的词频得分,得到所述预设字段的特征数据。可选的,所述简历筛选单元,具体用于:判断所述待筛选电子简历的特征数据是否符合预先设定的前置规则;若符合所述前置规则,将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果。相对于现有技术,本专利技术的有益效果如下:本专利技术公开的一种电子简历的筛选方法,通过对待筛选电子简历进行解析,得到待筛选电子简历对应的目标岗位以及多个预设字段数据,多个预设字段可以被配置为最反映招聘需求的字段。通过根据每个预设字段数据的类型,分别对每个预设字段数据进行结构化特征提取本文档来自技高网...

【技术保护点】
1.一种电子简历的筛选方法,其特征在于,包括:/n获取待筛选电子简历;/n对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据;/n根据每个所述预设字段数据的类型对应的特征提取方式,分别对每个所述预设字段数据进行特征提取,得到所述待筛选电子简历的特征数据,所述特征提取方式包括:结构化特征提取、半结构化特征提取和非结构化特征提取;/n将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,所述目标岗位对应的简历筛选模型的训练数据中的正样本为通过所述目标岗位筛选的电子简历的特征数据,负样本为未通过所述目标岗位筛选的电子简历的特征数据。/n

【技术特征摘要】
1.一种电子简历的筛选方法,其特征在于,包括:
获取待筛选电子简历;
对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据;
根据每个所述预设字段数据的类型对应的特征提取方式,分别对每个所述预设字段数据进行特征提取,得到所述待筛选电子简历的特征数据,所述特征提取方式包括:结构化特征提取、半结构化特征提取和非结构化特征提取;
将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,所述目标岗位对应的简历筛选模型的训练数据中的正样本为通过所述目标岗位筛选的电子简历的特征数据,负样本为未通过所述目标岗位筛选的电子简历的特征数据。


2.根据权利要求1所述的方法,其特征在于,所述对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据,包括:
提取所述待筛选电子简历的文本信息;
从所述文本信息中提取岗位数据,确定所述待筛选电子简历对应的所述目标岗位;
判断所述文本信息的格式是否满足预设简历格式;
若满足所述预设简历格式,根据所述预设简历格式中预设字段与位置之间的对应关系,从所述文本信息中提取多个所述预设字段数据;
若不满足所述预设简历格式,采用基于规则与关键字的方式从所述文本信息中提取多个所述预设字段数据。


3.根据权利要求1所述的方法,其特征在于,当所述预设字段数据的类型为结构化数据时,对所述预设字段数据进行结构化特征提取,包括:
提取所述预设字段数据中的预设属性特征数据;
对所述预设属性特征数据进行特征编码,得到所述预设字段数据的特征数据。


4.根据权利要求1所述的方法,其特征在于,当所述预设字段数据的类型为半结构化数据时,对所述预设字段数据进行半结构化特征提取,包括:
对所述预设字段数据进行命名实体识别,得到多个实体;
根据预先设定的实体与特征名称的对应关系以及实体与特征值的对应关系,确定每个特征名称对应的特征值;
对每个特征名称对应的特征值进行特征编码,得到所述预设字段数据的特征数据。


5.根据权利要求1所述的方法,其特征在于,当所述预设字段数据的类型为非结构化数据时,对所述预设字段数据进行非结构化特征提取,包括:
对所述预设字段进行分词处理、新词发现处理和去停用词处理,得到多个成词;
对多个成词进行聚类处理,得到多个词类;
对每个词类进行正负样本上的分布统计,根据每个词类的分布统计结果剔除低区分度词;
根据JS散度算法,计算剔除低区分度词后的每个词类的JS散度,并将JS散度大于预设值的词类确定为待提取词类;
分别计算每个待提取词类的词频得分,得到所述预设字段的特征数据。


6.根据权利要求1所述的方法,其特征在于,所述将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,包括:
判断所述待筛选电子简历的特征数据是否符合预先设定的前置规则;
若符合所述前置规则,将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选...

【专利技术属性】
技术研发人员:井玉欣崔妲珅张炜
申请(专利权)人:普信恒业科技发展北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1