一种基于垂直搜索引擎的简历解析系统技术方案

技术编号:21630270 阅读:42 留言:0更新日期:2019-07-17 11:31
本发明专利技术公开了一种基于垂直搜索引擎的简历解析系统,包括简历文件文本抽取单元、简历内容分割单元和简历内容分析优化单元;简历文件文本抽取单元,对于一些渠道的简历,邮件中没有实际的简历内容而只有链接,通过打开链接获取真实简历的内容;简历内容分割单元用于设定简历解析信息集的关键字,例如工作经历、教育经历,使用这些关键字区分简历的大类别;简历内容分析优化单元用于解析多条记录的内容项,如工作经历、教育经历首先进行记录划分;本发明专利技术可以自动识别不同格式的简历,使用文本转换技术,统一转换成文本,然后将文本内容解析成格式化的简历,用统一的格式将简历内容展现出来。

A Resume Analysis System Based on Vertical Search Engine

【技术实现步骤摘要】
一种基于垂直搜索引擎的简历解析系统
本专利技术涉及信息检索领域,具体为一种基于垂直搜索引擎的简历解析系统。
技术介绍
目前招聘的效率不高,主要原因在候选人和企业不能很好的匹配,求职者需要在不同的招聘网站投递职位,而且相同的职位有好几十上百页,由于信息大致相同,候选人为了省事,因此简历“海投”,公司HR则“海选”,双方都费时费力,效率低下。缺点一、不同格式的简历,需要不同的工具查看,例如使用Office查看word、excel格式的简历,使用Re1der查看pdf的简历,使用浏览器查看html、mht格式的简历等等。缺点二、简历内容、简历格式多种多样,例如联系方式、年龄、工作年限、求职意向等关键信息,有些在简历内容的最后,有些夹杂在自我评价中,有些甚至没有直接描述。缺点三、简历存储分散,文件格式多样,不易管理、不易查找。缺点四、经常收到同一个人的不同渠道的简历,不易判断这个人是否投递过职位,是否已经在该职位上被淘汰。
技术实现思路
本专利技术的目的在于提供一种基于垂直搜索引擎的简历解析系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于垂直搜索引擎的简历解析系统,包括简历文件文本抽取单元、简历内容分割单元和简历内容分析优化单元;简历文件文本抽取单元,对于一些渠道的简历,邮件中没有实际的简历内容而只有链接,通过打开链接获取真实简历的内容;简历内容分割单元:设定简历解析信息集的关键字,例如工作经历、教育经历,使用这些关键字区分简历的大类别;简历内容分析优化单元:解析多条记录的内容项,如工作经历、教育经历首先进行记录划分。优选的,所述简历文件文本抽取单元连接至简历内容分割单元,简历内容分割单元连接至简历内容分析优化单元。优选的,所述简历文件文本抽取单元包括Office文本及图片抽取模块,pdf文本及图片抽取模块,图片OCR文字识别模块,HTML文本及图片抽取模块;其中:Office文本及图片抽取模块,对于Word、excel格式的简历,直接读取文件里面的文本内容;pdf文本及图片抽取模块,对于pdf格式的简历,直接读取文件里面的文本内容;图片OCR文字识别模块,对于图片格式的简历,通过OCR文字识别技术,识别文字内容;HTML文本及图片抽取模块,可自动访问邮件服务器,获取邮件内容,邮件内容包括正文和附件,简历也可能在正文或附件中;获取所有邮件正文及附件格式信息,优先读取HTML格式的内容。优选的,所述简历内容分割单元包括多人简历、多语言简历分割模块,简历信息集分割模块,简历信息项分割模块;其中:多人简历及多语言简历分割模块,用于分割多语言简历内容,一份简历内容可能同时包含多种语言的简历:设定简历各种语言的起始关键字,通过查找到的起始关键字划分不同语言的简历内容,然后根据简历文字的语言类型,区分不同语言的简历内容;简历信息集分割模块,遍历全文,查找文本中存在的关键字,并记录关键字所在位置,按照关键字位置的先后顺序分割段落;简历信息项分割模块;设定简历解析信息项的关键字,例如姓名、性别等,使用这些关键字划分不同项目的内容。优选的,所述简历内容分析优化单元包括简历内容分析模块,简历内容优化模块,简历内容验证模块;其中:简历内容分析模块,设定区分多条记录的条件,如起止时间,查找符合条件的内容进行记录分割,对分割出的记录内容逐条进行处理,处理过程与划分段落的过程相同;简历内容优化模块,没有关键字的项目,在段落内全文查罩,然后对内容做优化处理;简历内容验证模块,通过接口与企业招聘系统进行集成,将整合与筛选后的简历数据传递给企业招聘管理系统。优选的,所述简历文件文本抽取单元支持从本地上传各种格式的中英文简历文件,如word、excel、pdf、txt、html、eml、msg等;也支持将简历文件打包批量上传。优选的,所述简历内容分割单元可自动排除被列入黑名单的简历,可以自动收取白名单的简历。优选的,所述简历内容分析优化单元可对应聘相同职位的重复简历进行合并,并保留最新一份简历。可创建招聘职位并一键发布到主流招聘网站以及各类社交网站、微博等招聘渠道。优选的,所述简历内容分割单元可对招聘渠道进行管理,简历解析时可自动识别渠道来源,以便于通过报表对简历的渠道效果进行分析。与现有技术相比,本专利技术的有益效果是:本专利技术可以自动识别不同格式的简历,使用文本转换技术,统一转换成文本,然后将文本内容解析成格式化的简历,用统一的格式将简历内容展现出来;包括以下优点:1、本地不需要安装任何软件,就可以在云端查看各种格式的简历;系统可通过自动计算筛选出企业简历库中匹配的简历推荐给HR,提高简历筛选工作效率200%以上(约每天至少节省1.5小时以上的工作时长),盘活企业人才库,在企业发出职位需求时,第一时间从企业人才库挖掘出匹配的候选人简历;系统自动根据应聘者简历计算出匹配的职位推荐其应聘,规避应聘者海投浪费大量时间,3秒内推送匹配职位,提高应聘者自信心,加快双方意向达成。2、简历格式统一,方便查看、筛选。支持通过解析候选人简历中各内容,能够智能提取出简历关键信息,并且以基础数据为基础,根据简历信息关键词能将解析简历分解为各种需求条件,比如现居住地、期望工作地点、期望薪资、期望行业、学历、工作年限等条件,系统则根据这些简历条件进行算法推荐。3、一些没有直接描述的信息,解析技术会自动计算出来。例如工作年限。搭建职位、简历所涉及到的基础数据平台,持续将职位、简历中的行业、公司、工作年限、标准职位名称、学校、专业、语言、技能、专业词汇等信息维护进入平台中,以便能建立完善的职位模型与简历模型,后续的职位数据分析、简历数据分析和推荐算法才能进行。4、解析后的简历,已经有了姓名、联系方式等关键信息,可以判断是否重复投递。简历解析为云招聘平台核心技术,通过分词技术、垂直搜索,基于平台庞大的关键词和特殊字段设置,对简历内容进行比对分析,按照平台规范设定自动生成统一化格式简历;并能判断前期是否有重复操作,并由平台将结果推送呈现形成提醒建议。5、邮件解析,会自动解析职位名称,匹配到相应的职位下。已有的大量数据源(职位数据,简历数据)提供给智能推荐系统,智能推荐系统通过自然语言、大数据分析、智能筛选等技术开展详细分析,形成推荐结果推送给平台进行展示,供招聘企业及候选人参考使用。6、自动读取邮箱的简历邮件,简历自动解析进入系统,简历收取延迟时间短,无需人为干预。推荐的准确度是智能招聘的关键,该项目的优势在于基于云招聘平台,平台已经沉淀了数亿计的招聘行为数据,推荐算法不光要基于岗位本身的匹配度,还要基于用户行为的偏好,例如什么样的数据通过了筛选,进入了面试,以及最后入职的又是哪些数据;同时又要智能化的理解企业的职位需求,提取出有效、关键的词加于分析,剔除无效信息。推荐的第二步是基于推荐结果的反馈,当推荐了之后,根据用户的处理结果,反馈给推荐系统,推荐系统对数据模型再学习,从而准确度越来越高。附图说明图1为本专利技术的工作流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性本文档来自技高网...

【技术保护点】
1.一种基于垂直搜索引擎的简历解析系统,其特征在于:包括简历文件文本抽取单元、简历内容分割单元和简历内容分析优化单元;简历文件文本抽取单元,对于一些渠道的简历,邮件中没有实际的简历内容而只有链接,通过打开链接获取真实简历的内容;简历内容分割单元:设定简历解析信息集的关键字,例如工作经历、教育经历,使用这些关键字区分简历的大类别;简历内容分析优化单元:解析多条记录的内容项,如工作经历、教育经历首先进行记录划分。

【技术特征摘要】
1.一种基于垂直搜索引擎的简历解析系统,其特征在于:包括简历文件文本抽取单元、简历内容分割单元和简历内容分析优化单元;简历文件文本抽取单元,对于一些渠道的简历,邮件中没有实际的简历内容而只有链接,通过打开链接获取真实简历的内容;简历内容分割单元:设定简历解析信息集的关键字,例如工作经历、教育经历,使用这些关键字区分简历的大类别;简历内容分析优化单元:解析多条记录的内容项,如工作经历、教育经历首先进行记录划分。2.根据权利要求1所述的一种基于垂直搜索引擎的简历解析系统,其特征在于:所述简历文件文本抽取单元连接至简历内容分割单元,简历内容分割单元连接至简历内容分析优化单元。3.根据权利要求1所述的一种基于垂直搜索引擎的简历解析系统,其特征在于:所述简历文件文本抽取单元包括Office文本及图片抽取模块,pdf文本及图片抽取模块,图片OCR文字识别模块,HTML文本及图片抽取模块;其中:Office文本及图片抽取模块,对于Word、excel格式的简历,直接读取文件里面的文本内容;pdf文本及图片抽取模块,对于pdf格式的简历,直接读取文件里面的文本内容;图片OCR文字识别模块,对于图片格式的简历,通过OCR文字识别技术,识别文字内容;HTML文本及图片抽取模块,可自动访问邮件服务器,获取邮件内容,邮件内容包括正文和附件,简历也可能在正文或附件中;获取所有邮件正文及附件格式信息,优先读取HTML格式的内容。4.根据权利要求1所述的一种基于垂直搜索引擎的简历解析系统,其特征在于:所述简历内容分割单元包括多人简历、多语言简历分割模块,简历信息集分割模块,简历信息项分割模块;其中:多人简历及多语言简历分割模块,用于分割多语言简历内容,一份简历内容可能同时包含多种语言的简历:设定简历各种语言的起始关键字,通过查找到的起始关键字划分不同语...

【专利技术属性】
技术研发人员:申刚正
申请(专利权)人:上海大易云计算股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1