基于机器学习的岗位招聘数据筛选方法、系统及存储介质技术方案

技术编号:18894778 阅读:31 留言:0更新日期:2018-09-08 11:05
本发明专利技术公开了基于机器学习的岗位招聘数据筛选方法、系统及存储介质,包括:步骤(1):岗位招聘数据采集;得到疑似岗位招聘信息;步骤(2):利用疑似岗位招聘信息的岗位招聘信息和非岗位招聘信息,对分类器进行训练,得到分类器;步骤(3):利用分类器对所有的疑似岗位招聘信息进行分类,得到岗位招聘信息库和非岗位招聘信息库。本发明专利技术能够高速、准确地筛选出符合用户需求的专业技术岗位招聘数据。

Method, system and storage medium for post recruitment data screening based on machine learning

The invention discloses a method, a system and a storage medium for job recruitment data screening based on machine learning, which comprises the following steps: (1) job recruitment data collection; obtaining suspected job recruitment information; and (2) training the classifier by using job recruitment information and non-job recruitment information of suspected job recruitment information, and obtaining the job classification information. To the classifier; Step (3): Use the classifier to classify all the suspected job recruitment information, get the job recruitment information database and non-job Recruitment Information database. The invention can quickly and accurately screen professional and technical post recruitment data that meet users' needs.

【技术实现步骤摘要】
基于机器学习的岗位招聘数据筛选方法、系统及存储介质
本专利技术涉及基于机器学习的岗位招聘数据筛选方法、系统及存储介质。
技术介绍
随着全球范围内网络安全事件的日益增加,一系列配套政策法规的逐步落地实施,国内机构对网络安全人才的需求出现爆发式增长。据统计数据显示,人才市场上有经验的相关人才非常稀缺,企业只能放低要求来填补岗位空缺。比如某个培训机构想培训一些准备从事网络安全方向的学员,为了更好的促进学员就业,就要深入了解企业发布的招聘信息中的技能要求,而且现在的网络安全技术不断更新,培训机构需要对一些招聘动态进行实时筛选,才能够保证培训机构第一时间了解当前招聘信息的更新动态。同样的,企业如果想招聘网络安全方向的人才,也需要了解掌握哪些技能可以胜任该工作以及市场的薪资情况。目前对于如何从重多的招聘信息中筛选出岗位,例如:网络安全岗位的数据,只能通过人工的方式或一些简单的筛选方式过滤数据,通过这种方式不是耗费过多的人力成本就是准确度不高,无法快速高效准确的采集大量相关数据。
技术实现思路
为了解决现有技术的不足,本专利技术提供了基于机器学习的岗位招聘数据筛选方法、系统及存储介质,其并通过图形化的形式预测调整分类,保证数据的准确性;作为本专利技术的第一方面,提供了:基于机器学习的岗位招聘数据筛选方法,包括:步骤(1):岗位招聘数据采集;步骤(101):设定招聘岗位,将招聘岗位存储到招聘岗位数据库中;设定企业名称,将企业名称存储到企业名称数据库中;步骤(102):根据招聘岗位数据库中的招聘岗位,抓取互联网公开的企业名称和招聘岗位的任职要求;将新的企业名称存储到企业名称数据库中;将招聘岗位的任职要求存储到任职要求数据库中;步骤(103):根据企业名称数据库,抓取每个企业名称在互联网公开的所有招聘岗位;将与设定招聘岗位相似的新的招聘岗位存储到招聘岗位数据库中;返回步骤(102);步骤(104):重复步骤(102)和步骤(103)直至不再产生新的企业名称和新的招聘岗位为止;将任职要求数据库中的数据进行去重处理,去重后的任职要求数据库中的数据被称之为疑似岗位招聘信息;步骤(2):利用疑似岗位招聘信息的岗位招聘信息和非岗位招聘信息,对分类器进行训练,得到分类器;步骤(3):利用分类器对所有的疑似岗位招聘信息进行分类,得到岗位招聘信息库和非岗位招聘信息库。进一步的,所述步骤(102)中:若抓取的企业名称与企业名称数据库的企业名称不一致,那么将抓取的企业名称作为新企业名称存储到企业名称数据库中;同时,将新企业名称对应的设定招聘岗位的任职要求存储到任职要求数据库中;若抓取的企业名称与企业名称数据库的企业名称均一致,那么将抓取的设定招聘岗位的任职要求存储到任职要求数据库中。进一步的,所述步骤(102)中:互联网公开的企业名称和招聘岗位的任职要求均是采用网络爬虫进行抓取。进一步的,所述岗位招聘数据为专业技术岗位招聘数据。并不是普通岗位的招聘数据,专业技术岗位招聘数据存在的特殊问题是,专业性较强,而且,技术更新迭代速度快,普通的人力资源部门很难及时了解目前软件研发部门专业技术岗位的特殊需求,而且,培训机构想要培训出符合企业需求的专业技术岗位人才,也需要实时了解专业技术岗位招聘更新数据;否则,培训机构培训出的人才可能不是企业想要的人才。进一步的,所述步骤(103)中:如果抓取的招聘岗位与设定的招聘岗位名称相似,那么将抓取的招聘岗位作为新的招聘岗位存储到招聘岗位数据库中;返回步骤(102);如果抓取的招聘岗位与设定的招聘岗位名称不相似,那么将抓取的招聘岗位和招聘岗位的任职要求均剔除。进一步的,所述步骤(103)相似与不相似的判断,均采用文本相似度算法进行判断。进一步的,所述步骤(2)包括:步骤(201):将疑似岗位招聘信息随机抽取N条岗位招聘信息和N条非岗位招聘信息,从N条岗位招聘信息中选择n条作为岗位招聘信息训练数据,将N-n条作为岗位招聘信息测试数据;从N条非岗位招聘信息中选择n条作为非岗位招聘信息训练数据,将N-n条作为非岗位招聘信息测试数据;步骤(202):对岗位招聘信息和非岗位招聘信息的训练数据均进行文本预处理:步骤(203):根据文本预处理结果,计算每个词的卡方统计量,根据卡方统计量的值从大到小进行排序,选出最大的前设定个数的词,将岗位招聘信息的最大的前设定个数的词进行合并,将非岗位招聘信息的最大的前设定个数的词进行合并,得到岗位招聘信息最终的特征向量和非岗位招聘信息最终的特征向量;步骤(204):计算岗位招聘信息中每个招聘信息文档与对应的最终的特征向量的相关性指标,即岗位招聘信息的词频逆向文件频率TF-IDF值,对岗位招聘信息训练数据进行归一化处理;同样的,计算非岗位招聘信息中每个招聘信息文档与对应的最终的特征向量的相关性指标,即非岗位招聘信息的词频逆向文件频率TF-IDF值,对非岗位招聘信息训练数据进行归一化处理;步骤(205):利用归一化处理后的岗位招聘信息训练数据和非岗位招聘信息训练数据对分类器进行训练,获取训练好的分类器;利用岗位招聘信息测试数据和非岗位招聘信息测试数据对分类器进行分类精度的验证。进一步的,所述步骤(202)的步骤为:首先,使用ICTCLAS分词器将训练数据的文本进行分词处理;然后,对分词后的结果进行词性标注,删除量词、叹词和过滤停用词;最后,存储文本、分词处理结果和词性三者之间的关系。基于机器学习的岗位招聘数据筛选方法,还包括:步骤(4):采集新的招聘企业和新的岗位信息,重复步骤(1)-(2)对分类器进行更新,利用更新后的分类器对待分类的数据进行分类,得到更新后的岗位招聘信息库和非岗位招聘信息库。作为本专利技术的第二方面,提供了:基于机器学习的岗位招聘数据筛选系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。作为本专利技术的第三方面,提供了:一种计算机可读存储介质,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。与现有技术相比,本专利技术的有益效果是:本专利技术提供了一种在采集网络公开数据时如何自动识别某类不能通过常规手段区分信息的方案,该方案可以极大的减少人工识别的成本,有效提高识别效率;相比简单的通过个别关键字过滤更加准确。本专利技术的步骤(1)通过企业名称和招聘岗位不断更新,满足了数据采集的时候可以相互补充,不断的增加数据;本专利技术的步骤(2),可以分批次根据分类器的效果相应的增加样本数据,这样可以避免耗费过多的人力进行标记样本数据,提高效率。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为本专利技术的流程图。具体实施方式应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包本文档来自技高网
...

【技术保护点】
1.基于机器学习的岗位招聘数据筛选方法,其特征是,包括:步骤(1):岗位招聘数据采集;步骤(101):设定招聘岗位,将招聘岗位存储到招聘岗位数据库中;设定企业名称,将企业名称存储到企业名称数据库中;步骤(102):根据招聘岗位数据库中的招聘岗位,抓取互联网公开的企业名称和招聘岗位的任职要求;将新的企业名称存储到企业名称数据库中;将招聘岗位的任职要求存储到任职要求数据库中;步骤(103):根据企业名称数据库,抓取每个企业名称在互联网公开的所有招聘岗位;将与设定招聘岗位相似的新的招聘岗位存储到招聘岗位数据库中;返回步骤(102);步骤(104):重复步骤(102)和步骤(103)直至不再产生新的企业名称和新的招聘岗位为止;将任职要求数据库中的数据进行去重处理,去重后的任职要求数据库中的数据被称之为疑似岗位招聘信息;步骤(2):利用疑似岗位招聘信息的岗位招聘信息和非岗位招聘信息,对分类器进行训练,得到分类器;步骤(3):利用分类器对所有的疑似岗位招聘信息进行分类,得到岗位招聘信息库和非岗位招聘信息库。

【技术特征摘要】
1.基于机器学习的岗位招聘数据筛选方法,其特征是,包括:步骤(1):岗位招聘数据采集;步骤(101):设定招聘岗位,将招聘岗位存储到招聘岗位数据库中;设定企业名称,将企业名称存储到企业名称数据库中;步骤(102):根据招聘岗位数据库中的招聘岗位,抓取互联网公开的企业名称和招聘岗位的任职要求;将新的企业名称存储到企业名称数据库中;将招聘岗位的任职要求存储到任职要求数据库中;步骤(103):根据企业名称数据库,抓取每个企业名称在互联网公开的所有招聘岗位;将与设定招聘岗位相似的新的招聘岗位存储到招聘岗位数据库中;返回步骤(102);步骤(104):重复步骤(102)和步骤(103)直至不再产生新的企业名称和新的招聘岗位为止;将任职要求数据库中的数据进行去重处理,去重后的任职要求数据库中的数据被称之为疑似岗位招聘信息;步骤(2):利用疑似岗位招聘信息的岗位招聘信息和非岗位招聘信息,对分类器进行训练,得到分类器;步骤(3):利用分类器对所有的疑似岗位招聘信息进行分类,得到岗位招聘信息库和非岗位招聘信息库。2.如权利要求1所述的基于机器学习的岗位招聘数据筛选方法,其特征是,所述步骤(102)中:若抓取的企业名称与企业名称数据库的企业名称不一致,那么将抓取的企业名称作为新企业名称存储到企业名称数据库中;同时,将新企业名称对应的设定招聘岗位的任职要求存储到任职要求数据库中;若抓取的企业名称与企业名称数据库的企业名称均一致,那么将抓取的设定招聘岗位的任职要求存储到任职要求数据库中。3.如权利要求1所述的基于机器学习的岗位招聘数据筛选方法,其特征是,所述岗位招聘数据为专业技术岗位招聘数据。4.如权利要求2所述的基于机器学习的岗位招聘数据筛选方法,其特征是,所述步骤(103)中:如果抓取的招聘岗位与设定的招聘岗位名称相似,那么将抓取的招聘岗位作为新的招聘岗位存储到招聘岗位数据库中;返回步骤(102);如果抓取的招聘岗位与设定的招聘岗位名称不相似,那么将抓取的招聘岗位和招聘岗位的任职要求均剔除。5.如权利要求1所述的基于机器学习的岗位招聘数据筛选方法,其特征是,所述步骤(103)相似与不相似的判断,均采用文本相似度算法进行判断。6.如权利要求1所述的基于机器学习的岗位招聘数据筛选方法,其特征是,所述步骤(2)包括:步骤(201):将疑似岗位招聘信息...

【专利技术属性】
技术研发人员:董超段文良王可鑫
申请(专利权)人:山东合天智汇信息技术有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1