一种简历筛选方法及装置制造方法及图纸

技术编号:18972958 阅读:23 留言:0更新日期:2018-09-19 03:52
公开了一种简历筛选方法及装置。一种简历筛选方法,该方法包括:获得预先存储的需求特征集合;根据所述预设划分规则,对任一备选简历的文本进行划分,得到划分的文本片段构成的简历特征集合;确定需求特征子集;确定简历特征子集;计算所述需求特征子集与简历特征子集的Jaccard相似性系数,并在计算结果大于预设阈值的情况下,确定所述备选简历为符合所述给定的职位需求信息的简历。

【技术实现步骤摘要】
一种简历筛选方法及装置
本说明书实施例涉及信息处理
,尤其涉及一种简历筛选方法及装置。
技术介绍
在招聘过程中,招聘方将针对招聘的职位给出职位要求,而应聘者则针对该职位投递个人简历,招聘方需要筛选出符合职位要求的简历。为了节省人力,可以采用自动筛选的方式,现有的自动筛选简历的方案,可以通过逗号与句号等标点符号,将职位要求与待筛选简历的文本划分为语句,以划分后的语句分别形成2个集合,并计算2个集合的Jaccard相似性系数,根据计算结果决定是否选择该简历。一般情况下,应聘者投递的简历中的字数,均远大于招聘方给出的职位需求,因而划分后将得到较多的用于计算Jaccard相似性系数的语句,且如果收到大量简历,则划分得到的语句数量也将成倍增长,使上述自动筛选的方式需要消耗大量的计算资源,筛选效率较低。
技术实现思路
针对上述技术问题,本说明书实施例提供一种简历筛选方法及装置,技术方案如下:一种简历筛选方法,该方法包括:获得预先存储的需求特征集合,所述需求特征集合为:根据预设划分规则,对给定的职位需求信息的文本进行划分得到的文本片段的集合;根据所述预设划分规则,对任一备选简历的文本进行划分,得到划分的文本片段构成的简历特征集合;确定需求特征子集,所述需求特征子集中包括:所述需求特征集合中的k1个具有最小哈希值的需求特征,k1为预设值且不大于所述需求特征集合中特征个数;确定简历特征子集,所述简历特征子集中包括:所述简历特征集合中的k2个具有最小哈希值的简历特征,k2为预设值且小于所述简历特征集合中特征个数;计算所述需求特征子集与简历特征子集的Jaccard相似性系数,并在计算结果大于预设阈值的情况下,确定所述备选简历为符合所述给定的职位需求信息的简历。一种简历筛选装置,该装置包括:需求特征集合获得模块,用于获得预先存储的需求特征集合,所述需求特征集合为:根据预设划分规则,对给定的职位需求信息的文本进行划分得到的文本片段的集合;简历特征集合获得模块,还用于根据所述预设划分规则,对任一备选简历的文本进行划分,得到划分的文本片段构成的简历特征集合;需求特征子集确定模块,用于确定需求特征子集,所述需求特征子集中包括:所述需求特征集合中的k1个具有最小哈希值的需求特征,k1为预设值并不大于所述需求特征集合中特征个数;简历特征子集确定模块,用于确定简历特征子集,所述简历特征子集中包括:所述简历特征集合中的k2个具有最小哈希值的简历特征,k2为预设值并小于所述简历特征集合中特征个数;相似性计算模块,用于计算所述需求特征子集与简历特征子集的Jaccard相似性系数,并在计算结果大于预设阈值的情况下,确定所述备选简历为符合所述给定的职位需求信息的简历。本说明书实施例所提供的技术方案,将职位要求及待筛选简历划分后,以划分的文本片段作为元素,分别构成2个特征集合,在计算2个集合的Jaccard相似性系数之前,通过哈希函数分别确定2个集合中k1与k2个具有最小哈希值的元素,分别构成2个子集并计算Jaccard相似性系数,通过控制k1与k2的取值,使得子集中的元素数量远小于原集合,即对原集合进行降维,从而减小计算Jaccard相似性系数时的计算量,并且根据Minhash算法的特性,可以保证降维后的计算结果的准确度,即在不影响筛选的准确度的前提下提高筛选效率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本说明书实施例的简历筛选方法的流程示意图;图2是本说明书实施例的简历筛选装置的结构示意图;图3是用于配置本说明书实施例装置的一种设备的结构示意图。具体实施方式为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。招聘方在为某一职位招聘人才时,首先将给出该职位的职位需求,例如,在招聘网站中发布职位名称、职位需求等信息,而应聘者则可以通过邮件或站内信等方式,针对该职位投递个人简历。招聘方收到一份或者多份备选简历后,需要对备选简历进行筛选,确定每份备选简历中的内容,是否符合给出的职位需求。通常,可以由招聘方的人力资源员工或招聘职位的负责人,人工进行备选简历的筛选。但这种方式将耗费一定的人力与时间,增加招聘过程的人力成本,并且对筛选人的经验与主观判断较为依赖,缺乏客观统一的标准。因此,在一些招聘场景中,招聘方越发倾向于自动筛选简历。在自动筛选简历的方案中,可以将给定的职位需求看作1个集合,并将每份备选简历,分别看作1个集合,从而使对某份备选简历是否符合职位需求的判断,可以看作对该备选简历与职位需求这2个集合的相似性的比较。具体地,对于给定的职位需求信息的文本,可以通过文本中的逗号、句号、顿号等标点符号,将文本段落划分为语句,并以划分得到的每个语句作为1个元素,构成职位需求对应的集合。例如,针对“软件工程师”职位,招聘方给定的职位需求为:“本科学历,30岁以下,有1年相关工作经验;具备Java编程能力,精通eclipse或androidstudio工具系列;熟练掌握TCP、HTTP等网络传输协议,熟悉数据库、XML等常用技术。”则根据上述规则划分后,将得到“本科学历”、“30岁以下”、“有1年相关工作经验”、“具备Java编程能力”及“精通eclipse或androidstudio工具系列”等等9个语句,并可以构成1个包括9个元素的语句集合。同样的,对于某份备选简历,也可以通过简历的文本中的标点符号,将文本划分为语句并构成该简历对应的语句集合。Jaccard相似性系数常用于衡量有限样本集之间的相似性,例如,给定2个集合A、B,其中分别包括有限个数的元素,2个集合中存在相同的元素,也存在不同的元素,则集合A与集合B的Jaccard相似性系数为,集合A与集合B中相同元素个数与全部元素个数的比值,计算公式为:其中,J(A,B)即为集合A与集合B的Jaccard相似性系数,显然其数值应该在区间[0,1]内,如假设集合A={a,b,c,d,e},集合B={b,d,e,f},则集合A、B中相同元素的个数为3,全部元素的个数为9,即:计算得到J(A,B)的值后,即可以此衡量集合A与集合B的相似性。因此,衡量职位需求对应的语句集合、与备选简历对应的语句集合的相似性时,需要统计2个集合中的全部元素的个数、及相同元素的个数。通过将职位需求对应集合中的每个语句,分别与备选简历对应集合中的每个语句进行两两比较,可以统计2个集合中的相同语句及其个数,从而求得2个集合的Jaccard相似性系数。然而,在多数情况下,与招聘方给出的职位需求相比,应聘者投递的简历的内容更为丰本文档来自技高网...

【技术保护点】
1.一种简历筛选方法,该方法包括:获得预先存储的需求特征集合,所述需求特征集合为:根据预设划分规则,对给定的职位需求信息的文本进行划分得到的文本片段的集合;根据所述预设划分规则,对任一备选简历的文本进行划分,得到划分的文本片段构成的简历特征集合;确定需求特征子集,所述需求特征子集中包括:所述需求特征集合中的k1个具有最小哈希值的需求特征,k1为预设值且不大于所述需求特征集合中特征个数;确定简历特征子集,所述简历特征子集中包括:所述简历特征集合中的k2个具有最小哈希值的简历特征,k2为预设值且小于所述简历特征集合中特征个数;计算所述需求特征子集与简历特征子集的Jaccard相似性系数,并在计算结果大于预设阈值的情况下,确定所述备选简历为符合所述给定的职位需求信息的简历。

【技术特征摘要】
1.一种简历筛选方法,该方法包括:获得预先存储的需求特征集合,所述需求特征集合为:根据预设划分规则,对给定的职位需求信息的文本进行划分得到的文本片段的集合;根据所述预设划分规则,对任一备选简历的文本进行划分,得到划分的文本片段构成的简历特征集合;确定需求特征子集,所述需求特征子集中包括:所述需求特征集合中的k1个具有最小哈希值的需求特征,k1为预设值且不大于所述需求特征集合中特征个数;确定简历特征子集,所述简历特征子集中包括:所述简历特征集合中的k2个具有最小哈希值的简历特征,k2为预设值且小于所述简历特征集合中特征个数;计算所述需求特征子集与简历特征子集的Jaccard相似性系数,并在计算结果大于预设阈值的情况下,确定所述备选简历为符合所述给定的职位需求信息的简历。2.根据权利要求1所述的方法,所述预设划分规则包括:基于预设词库对文本进行分词,得到文本中的词条的规则。3.根据权利要求2所述的方法,所述计算所述需求特征子集与简历特征子集的Jaccard相似性系数,包括:确定所述需求特征集合中的任一词条是否包含于所述简历特征集合中;根据确定的结果,得到所述需求特征子集的词条中,包含于所述简历特征子集的词条的个数l;计算所述需求特征子集与简历特征子集的Jaccard相似性系数:4.根据权利要求3所述的方法,所述确定所述需求特征集合中的任一词条是否包含于所述简历特征集合中,包括:基于预设语料库,对所述需求特征集合及所述简历特征集合中的词条进行语义识别;针对所述需求特征集合中的任一词条,查找所述简历特征集合中是否存在与该词条具有相同语义的词条;若是,则确定该词条包含于所述简历特征集合中;若否,则确定该词条不包含于所述简历特征集合中。5.根据权利要求3所述的方法,所述确定所述需求特征集合中的任一词条是否包含于所述简历特征集合中后,该方法还包括:获得预先构建的词条矩阵,所述词条矩阵的任一行对应所述需求特征集合中的1个词条,任一列对应1个备选简历;在确定该词条包含于所述简历特征集合中的情况下,将所述词条矩阵中该词条与该简历对应的元素置为1;在确定该词条不包含于所述简历特征集合中的情况下,将该词条与该简历对应的元素置为0。6.根据权利要求1所述的方法,所述确定需求特征子集,包括:基于预设的n个哈希函数,获得所述需求特征集合的k1个具有最小哈希值的需求特征,构成需求特征子集,1≤n≤k1;其中,第i个函数对应k1i个具有最小哈希值的需求特征,k1i为预设值且7.根据权利要求1所述的方法,所述确定简历特征子集,包括:基于预设的m个哈希函数,获得所述简历特征集合的k2个具有最小哈希值的简历特征,构成简历特征子集,1≤m≤k2;其中,第j个函数对应k2j个具有最小哈希值的简历特征,k2j为预设值且8.一种简历筛选装置,该装置包括:需求特征集合获得模块,用于获得预先存储的需求特征集合,所述需求特征集合为:根据预设划分规则,对给定的职位需求信息...

【专利技术属性】
技术研发人员:王胜
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1