基于机器学习的招聘信息解析系统及其方法技术方案

技术编号:13537428 阅读:35 留言:0更新日期:2016-08-17 10:26
本发明专利技术涉及基于机器学习的招聘信息解析系统及其方法,解析系统包括数据采集模型和机器学习模型;所述数据采集模型爬取互联网招聘网站的不规则的招聘网页信息进行解析并生成训练数据;机器学习模型包括单信息源模型以及处理各类信息源的综合模型,单信息源模型是由训练数据中的单信息源模块分类数据训练所得,综合模型是由训练数据中的综合信息详细分类数据训练所得,互联网招聘网站、数据采集模型与机器学习模型连接,所采用的机器学习模型为条件随机场模型。招聘网页信息经过分析后得到训练数据后详细分类,采用机器学习模型中的条件随机场模型来对招聘信息中的具体语句块与短语进行分类标注,处理正则表达式不能匹配的数据,有效处理复杂或者新型职位的招聘信息解析与分析问题。

【技术实现步骤摘要】
201610251667

【技术保护点】
基于机器学习的招聘信息解析系统,其特征在于,包括数据采集模型和机器学习模型;所述数据采集模型爬取互联网招聘网站的不规则的招聘网页信息进行解析并生成训练数据;所述机器学习模型包括单信息源模型以及处理各类信息源的综合模型,所述单信息源模型是由所述训练数据中的单信息源模块分类数据训练所得,所述综合模型是由所述训练数据中的综合信息详细分类数据训练所得,所述互联网招聘网站、数据采集模型分别与所述机器学习模型连接,所采用的所述机器学习模型为输入不规则的文本信息后输出所要提取的有信息的程序,该程序是根据实际情况采用条件随机场模型。

【技术特征摘要】
1.基于机器学习的招聘信息解析系统,其特征在于,包括数据采集模型和机器学习模型;所述数据采集模型爬取互联网招聘网站的不规则的招聘网页信息进行解析并生成训练数据;所述机器学习模型包括单信息源模型以及处理各类信息源的综合模型,所述单信息源模型是由所述训练数据中的单信息源模块分类数据训练所得,所述综合模型是由所述训练数据中的综合信息详细分类数据训练所得,所述互联网招聘网站、数据采集模型分别与所述机器学习模型连接,所采用的所述机器学习模型为输入不规则的文本信息后输出所要提取的有信息的程序,该程序是根据实际情况采用条件随机场模型。2.根据权利要求1所述的基于机器学习的招聘信息解析系统,其特征在于,所述训练数据包括模块分类数据以及详细分类数据,所述单信息源模型由所述模块分类数据训练所得,所述综合模型由所述详细分类数据训练得到。3.根据权利要求2所述的基于机器学习的招聘信息解析系统,其特征在于,所述模块分类数据包括岗位职责,任职要求,薪酬福利,公司介绍以及联系方式。4.根据权利要求3所述的基于机器学习的招聘信息解析系统,其特征在于,所述详细分类数据是所述模块分类数据的子分类。5.根据权利要求4所述的基于机器学习的招聘信息解析系统,其特征在于,所述综合模型包含一个模块分类模型与一个详细分类模型;所述模块分类模型由所述模块分类数据训练得到,且所述模块分类模型与所述详细分类机器学习模型连接。6.基于机器学习的招聘信息解析系统的搭建方法,其特征在于,搭建具体步骤如下:步骤1.通过互联网招聘网站,网络爬虫对预先指定的网站进行搜索,抓取其中的招聘网页信息,对网页的文本信息进行正则表达式搜索,通过正则表达式搜索相关的信息,并按已有标签分类存储;步骤2.如果网页中无法通过正则表达式搜索到相关信息,或者通过正则表达式搜索出来的信息不够全面,将同一来源...

【专利技术属性】
技术研发人员:杨洋杨雪峰赵泛舟李训耕
申请(专利权)人:广州爱拼信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1