一种简历处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31995536 阅读:25 留言:0更新日期:2022-01-22 18:07
本申请实施例提供了一种简历处理方法、装置、电子设备及存储介质,该方法包括:获取待转换的简历;对所述待转换的简历进行格式转换,得到格式转换后的简历;对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接;对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别;根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。采用本申请,可以使得最终生成的简历的信息更加完善且更加准确。本申请涉及区块链技术,如可将目标简历中的关键信息写入区块链。中的关键信息写入区块链。中的关键信息写入区块链。

【技术实现步骤摘要】
一种简历处理方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种简历处理方法、装置、电子设备及存储介质。

技术介绍

[0002]互联网招聘时代,企业每天都会收到大量的电子简历,这些简历来自于招聘网站、猎头等各种不同的渠道,简历文件格式和内容表达形式多种多样,由于简历文本内容和格式上的多样性,使得阅读和筛选合适的简历需要耗费大量的人力和资源;同时,由于人工智能技术的发展,企业的招聘系统也越来越智能化,可以实现线上的人岗匹配,人才搜索,智能面试等功能,这些功能需要先从简历中提取出有效的结构化信息。因此,从简历中快速解析出有价值的结构化信息,具有很高的商业价值和实用价值。
[0003]现有的简历解析方法一般为基于规则的信息抽取方法。这种方法一般根据关键字,词典或文本位置来匹配字段信息,虽然在特定的简历格式上能取得不错的效果,但是需要依赖人工建立抽取模型和抽取规则,适用于在某个有限知识领域的信息抽取场景。这种方法难以穷举信息抽取的常用表达式,导致信息抽取的召回率偏低,并且,人工先验知识获取的疏漏也会导致信息抽取的准确率偏低。采用这种方法生成简历,将导致最终解析生成的简历的信息不够完善并且不够准确。

技术实现思路

[0004]本申请实施例提供了一种简历处理方法、装置、电子设备及存储介质,可以使得最终解析生成的简历的信息更加完善且更加准确。
[0005]第一方面,本申请实施例提供了一种简历处理方法,包括:
[0006]获取待转换的简历;
[0007]对所述待转换的简历进行格式转换,得到格式转换后的简历;
[0008]对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接;
[0009]对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别;
[0010]根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。
[0011]可选的,所述预处理包括文本替换,所述对所述格式转换后的简历进行预处理,得到预处理后的简历,包括:
[0012]对所述格式转换后的简历进行分词处理,得到第一分词结果,所述第一分词结果包括至少一个存在对应的标准词的词组;
[0013]从词集合中确定出所述第一分词结果中各词组对应的标准词;所述词集合包括多个标准词以及所述多个标准词中每个标准词对应的词组,每个标准词对应的词组包括至少
一个非标准词,所述非标准词与所述标准词同义;
[0014]利用所述第一分类结果中各词组的标准词,替换所述格式转换后的简历中的所述词组中各个词,得到执行了文本替换操作的简历;
[0015]根据所述执行了文本替换操作的简历获得预处理后的简历。
[0016]可选的,所述根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历前,所述方法还包括:
[0017]在所述预处理后的简历的排版方式为单列排版时,根据所述各个文本对应的标题分割所述各个文本;
[0018]在所述预处理后的简历的排版方式为两列排版且有简历分割线时,根据所述各个文本的位置信息确定出简历分割线,并根据所述各个文本对应的标题分割所述简历分割线两边的文本;
[0019]在所述预处理后的简历的排版方式为两列排版且没有简历分割线时,在所述预处理后的简历中按照垂直坐标查找距离第一标题最近的第二标题作为下边界,并在所述第一标题和所述第二标题之间的文本行中按水平坐标查找距离所述第一标题最近的第三标题作为左右边界,根据下边界和左右边界分割所述第一标题对应的文本。
[0020]可选的,所述对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别,包括:
[0021]对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,所述第二分词结果包括所述各个文本对应的词组;
[0022]确定所述第二分类结果包括的各词组的类别;
[0023]根据所述各个文本对应的词组的类别确定所述各个文本对应的类别。
[0024]可选的,所述根据所述各个文本对应的词组的类别确定所述各个文本对应的类别,包括:
[0025]根据所述各个文本对应的词组的类别,从所述各个文本中确定出第一文本以及第二文本,所述第一文本对应的词组的类别为一个,所述第二文本对应的词组对应的类别为多个;
[0026]在所述第二文本对应的词组的类别包括目标类别时,从所述第二文本对应的词组的类别中删除所述目标类别,得到所述第二文本对应的类别,所述目标类别为所述第一文本对应的类别。
[0027]可选的,所述对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,包括:
[0028]对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体;
[0029]根据所述各个文本对应的命名实体对所述各个文本进行分词处理,得到第二分词结果。
[0030]可选的,所述对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体,包括:
[0031]利用命名实体识别模型对预处理后的简历包括的目标文本进行命名实体识别;
[0032]在对所述目标文本进行命名实体识别失败时,计算其它预处理后的简历包括的目
标文本对应的第一命名实体和第二命名实体之间的距离;
[0033]计算距离的众数,根据距离的众数确定所述预处理后的简历包括的目标文本对应的第一命名实体。
[0034]第二方面,本申请实施例提供了一种简历处理装置,包括:
[0035]获取模块,用于获取待转换的简历;
[0036]格式转换模块,用于对所述待转换的简历进行格式转换,得到格式转换后的简历;
[0037]处理模块,用于对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接;
[0038]分类模块,用于对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别;
[0039]所述处理模块,还用于根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。
[0040]第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面所述的方法。
[0041]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面所述的方法。
[0042]综上所述,电子设备可以对该待转换的简历进行格式转换,得到格式转换后的简历以进行预处理,得到预处理后的简历;电子设备对该预处理后的简历包括的各个文本进行分类,得到该各个文本对应的类别,并根据该各个文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种简历处理方法,其特征在于,包括:获取待转换的简历;对所述待转换的简历进行格式转换,得到格式转换后的简历;对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接;对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别;根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。2.根据权利要求1所述的方法,其特征在于,所述预处理包括文本替换,所述对所述格式转换后的简历进行预处理,得到预处理后的简历,包括:对所述格式转换后的简历进行分词处理,得到第一分词结果,所述第一分词结果包括至少一个存在对应的标准词的词组;从词集合中确定出所述第一分词结果中各词组对应的标准词;所述词集合包括多个标准词以及所述多个标准词中每个标准词对应的词组,每个标准词对应的词组包括至少一个非标准词,所述非标准词与所述标准词同义;利用所述第一分类结果中各词组的标准词,替换所述格式转换后的简历中的所述词组中各个词,得到执行了文本替换操作的简历;根据所述执行了文本替换操作的简历获得预处理后的简历。3.根据权利要求1所述的方法,其特征在于,所述根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历前,所述方法还包括:在所述预处理后的简历的排版方式为单列排版时,根据所述各个文本对应的标题分割所述各个文本;在所述预处理后的简历的排版方式为两列排版且有简历分割线时,根据所述各个文本的位置信息确定出简历分割线,并根据所述各个文本对应的标题分割所述简历分割线两边的文本;在所述预处理后的简历的排版方式为两列排版且没有简历分割线时,在所述预处理后的简历中按照垂直坐标查找距离第一标题最近的第二标题作为下边界,并在所述第一标题和所述第二标题之间的文本行中按水平坐标查找距离所述第一标题最近的第三标题作为左右边界,根据下边界和左右边界分割所述第一标题对应的文本。4.根据权利要求1

3任一项所述的方法,其特征在于,所述对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别,包括:对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,所述第二分词结果包括所述各个文本对应的词组;确定所述第二分类结果包括的各词组的类别;根据所述各个文本对应的词组的类别确定所述各个文本对应的类别...

【专利技术属性】
技术研发人员:曾蓉黎奉薪罗晓生钱勇
申请(专利权)人:深圳平安智汇企业信息管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1