一种简历信息的结构化方法及装置制造方法及图纸

技术编号:22387289 阅读:17 留言:0更新日期:2019-10-29 06:29
本申请提供了一种简历信息的结构化方法及装置,其中,所述方法包括:转化待结构化简历的文件格式为标准文件格式,得到处理后简历;解析所述处理后简历,获得所述处理后简历中的前置信息;结合所述前置信息与提取项目名称,确定处理后简历中的待提取内容;按照预设技术关键词词表,抽取所述待提取内容中对应的关键词;根据各关键词,生成结构化简历。本申请所提供的表格式简历的结构化方法及装置,能够有效解决现有简历结构化方法所提取的信息不准确的问题,通过本申请的方法所获的结构化简历能够更加便于招聘人员审阅以及简历信息管理平台的管理工作。

【技术实现步骤摘要】
一种简历信息的结构化方法及装置
本申请涉及信息处理
,尤其涉及一种简历信息的结构化方法及装置。
技术介绍
简历信息是招聘公司判定求职者是否符合职位要求的重要依据。招聘人员会通过接收邮件、登录招聘网站等方式浏览大量的简历信息,而这些简历信息往往是采用不同的表格模板制作的,因此,简历信息的格式具有一定的多样性,令招聘人员难以以统一的标准进行查找和审阅。为了解决上述问题,简历管理平台会选择将简历信息结构化,进而得到具有统一格式的简历信息,以便网站管理和招聘人员审阅。具体地,首先,简历管理平台会指定几个关键词,例如公司名称、薪资范围、工作地点,自我评价等;然后,从各个简历信息中提取与这些关键词对应的内容,并将其整理为预设的顺序,进行重新发布。这样,各种各样的简历信息就具有了统一的格式。但是,简历信息仅具有统一的格式,也不能满足招聘人员的审阅需要。简历信息中通常包括可结构化信息,例如姓名、薪资要求、工作地点等,这些信息比较简短和简单,便于审阅;同时,简历信息中还包括非结构化信息,例如自我评价等,这些信息不仅篇幅较长,句式结构和语义更加复杂,难以通过简单地整理和分析,提取出其中所包含的关键信息。因此,极易遗漏简历信息中包含的关键信息,令结构化后的简历信息不准确。
技术实现思路
本申请提供了一种简历信息的结构化方法及装置,以解决现有简历结构化方法提取信息不准确的问题。第一方面,本申请实施例提供了一种简历信息的结构化方法,包括:转化待结构化简历的文件格式为标准文件格式,得到处理后简历,所述待结构化简历为表格式简历,所述标准文件格式为符合代码操作标准的格式;解析所述处理后简历,获得所述处理后简历中的前置信息,所述前置信息为代表处理后简历中内容按照属性分类的信息;结合所述前置信息与提取项目名称,确定处理后简历中的待提取内容;按照预设技术关键词词表,抽取所述待提取内容中对应的关键词;根据各所述关键词,生成结构化简历。第二方面,本申请实施例提供了一种简历信息的结构化装置,包括:格式转化单元,用于转化待结构化简历的文件格式为标准文件格式,得到处理后简历,所述待结构化简历为表格式简历,所述标准文件格式为符合代码操作标准的格式;文件解析单元,用于解析所述处理后简历,获得所述处理后简历中的前置信息,所述前置信息为代表处理后简历中内容按照属性分类的信息;待提取内容确定单元,用于结合所述前置信息与提取项目名称,确定处理后简历中的待提取内容;关键词抽取单元,用于按照预设技术关键词词表,抽取所述待提取内容中对应的关键词;简历生成单元,用于根据各所述关键词,生成结构化简历。由以上技术可知,本申请提供了一种简历信息的结构化方法及装置,首先,将待结构化简历的文件格式转化为符合代码操作标准的标准文件格式,以便于后续对待结构化简历中内容的解析和提取。通过解析处理后简历,能够获得处理后简历中的前置信息,进而结合前置信息和结构化简历模板中的各个提取项目名称,确定处理后简历中的待提取内容。然后,根据预设技术关键词词表,能够确定并对应抽取出待提取内容中的关键词,该关键词即为待结构化简历中的关键信息。最后,将得到的关键词对应填写至结构化简历模板中的可填写区域内,能够得到具有形式统一、信息完整、准确的结构化简历。可见,本申请所提供的表格式简历的结构化方法及装置,能够有效解决现有简历结构化方法所提取的信息不准确的问题,通过本申请的方法所获的结构化简历能够更加便于招聘人员审阅以及简历信息管理平台的管理工作。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种简历信息的结构化方法的流程图;图2为本申请实施例提供的一种转化文件格式的方法的流程图;图3为本申请实施例提供的一种确定前置信息的方法的流程图;图4为本申请实施例提供的一种表格式简历的示意图;图5为本申请实施例提供的一种结构化简历模板的示意图;图6为本申请实施例提供的一种确定待提取内容的方法的流程图;图7为本申请实施例提供的另一种表格式简历的示意图;图8为本申请实施例提供的一种确定寻获项目名称的方法的流程图;图9为本申请实施例提供的一种表格级别示意图;图10为本申请实施例提供的一种同类待提取内容的封装方法的流程图;图11为本申请实施例提供的一种确定关键词的方法的流程图;图12为本申请实施例提供的一种更新预设技术关键词词表的方法的流程图;图13为本申请实施例提供的一种模板填写方法的流程图;图14为本申请实施例提供的一种结构化简历的示意图;图15为本申请实施例提供的一种简历信息的结构化装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。简历信息是招聘公司判定求职者是否符合职位要求的重要依据。招聘人员会通过接收邮件、登录招聘网站等方式浏览大量的简历信息,而这些简历信息往往是采用不同的表格模板制作的,因此,简历信息的格式具有一定的多样性,令招聘人员难以以统一的标准进行查找和审阅。为了解决上述问题,简历管理平台会选择将简历信息结构化,进而得到具有统一格式的简历信息,以便网站管理和招聘人员审阅。具体地,首先,简历管理平台会指定几个关键词,例如公司名称、薪资范围、工作地点,自我评价等;然后,从各个简历信息中提取与这些关键词对应的内容,并将其整理为预设的顺序,进行重新发布。这样,各种各样的简历信息就具有了统一的格式。但是,简历信息仅具有统一的格式,并不能真正便于招聘人员的审阅。简历信息中通常包括可结构化信息,例如姓名、薪资要求、工作地点等,这些信息比较简短和简单,便于审阅;同时,简历信息中还包括非结构化信息,例如自我评价等,这些信息不仅篇幅较长,句式结构和语义更加复杂,难以通过简单地整理和分析,提取出其中所包含的关键信息。由此可见,现有的简历结构化方法极易遗漏简历信息中包含的关键信息,令结构化后的简历信息不准确。为了解决上述问题,本申请实施例提供了一种简历信息的结构化方法及装置。下面是本申请的方法实施例。图1为本申请实施例提供的一种简历信息的结构化方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多个可操作设备中。请参阅图1,该方法包括以下步骤:S1、转化待结构化简历的文件格式为标准文件格式,得到处理后简历,所述待结构化简历为表格式简历,所述标准文件格式为符合代码操作标准的格式。本申请中的待结构化简历即为各个需要结构化的简历信息,由于简历信息的制作者不同,因此,简历信息会具有不同的文件格式。例如,有的人使用word制作简历信息,则待结构化简历的文件格式即为doc或者docx格式;有的人使用pdf制作简历信息,则待结构化简历的文件格式即为pdf格式;有的人使用绘图软件制作简历信息,则待结构化简历的文件格式即为jpg格式等。在这些待结构化简历中本文档来自技高网
...

【技术保护点】
1.一种简历信息的结构化方法,其特征在于,所述方法包括:转化待结构化简历的文件格式为标准文件格式,得到处理后简历,所述待结构化简历为表格式简历,所述标准文件格式为符合代码操作标准的格式;解析所述处理后简历,获得所述处理后简历中的前置信息,所述前置信息为代表处理后简历中内容按照属性分类的信息;结合所述前置信息与提取项目名称,确定处理后简历中的待提取内容;按照预设技术关键词词表,抽取所述待提取内容中对应的关键词;根据各所述关键词,生成结构化简历。

【技术特征摘要】
1.一种简历信息的结构化方法,其特征在于,所述方法包括:转化待结构化简历的文件格式为标准文件格式,得到处理后简历,所述待结构化简历为表格式简历,所述标准文件格式为符合代码操作标准的格式;解析所述处理后简历,获得所述处理后简历中的前置信息,所述前置信息为代表处理后简历中内容按照属性分类的信息;结合所述前置信息与提取项目名称,确定处理后简历中的待提取内容;按照预设技术关键词词表,抽取所述待提取内容中对应的关键词;根据各所述关键词,生成结构化简历。2.根据权利要求1所述的方法,其特征在于,所述转化待结构化简历的文件格式为标准文件格式,得到处理后简历包括:根据待转化简历的文件名后缀,确定所述待转化简历的当前文件格式;确定标准文件格式,所述标准文件格式为预设标准文件格式集中与当前文件格式的语言格式最接近的文件格式;转化所述待结构化简历的文件格式为标准文件格式,得到处理后简历。3.根据权利要求1所述的方法,其特征在于,所述解析处理后简历,获得处理后简历中的前置信息包括:划分所述处理后简历,得到简历分词;划分相似简历分词,得到简历分词分类,所述相似简历分词为语义相似度计算值大于预设相似阈值的简历分词,所述语义相似度计算值为任意两个简历分词之间的语义相似度值;确定前置信息,所述前置信息为同一简历分词分类中,与其余相似简历分词的语义相似度值均大于或者等于预设相似度阈值的相似简历分词。4.根据权利要求1所述的方法,其特征在于,所述结合前置信息与结构化简历模板中的提取项目名称,确定处理后简历中的待提取内容包括:确定目标前置信息,所述目标前置信息为与提取项目名称的语义相似度大于预设相似度阈值的前置信息;确定所述目标前置信息在处理后简历中的位置信息;根据所述位置信息,生成查询语句,所述查询语句为具有逐级查询功能的语句;按照所述查询语句,确定对应的寻获项目名称;根据所述提取项目名称,从全部所述寻获项目名称中确定待提取项目名称,所述待提取项目名称为与所述提取项目名称的语义相似度高于预设提取阈值的寻获项目名称;确定待提取内容,所述待提取内容为与所述待提取项目名称对应的简历内容。5.根据权利要求4所述的方法,其特征在于,所述按照查询语句,确定对应的寻获项目名称包括:以所述目标前置信息的位置信息为起点,利用所述查询语句,确定子目标表格,所述子目标表格为包含所述目标前置信息,且表格标签的级别低于目标...

【专利技术属性】
技术研发人员:李德彦刘大双晋耀红
申请(专利权)人:中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1