简历识别方法、装置、设备及存储介质制造方法及图纸

技术编号:24939055 阅读:40 留言:0更新日期:2020-07-17 21:09
本申请实施例公开了一种简历识别方法、装置、设备及存储介质,涉及数据处理技术领域,其包括:将各待识别的简历转换成统一格式的简历文件;对简历文件进行分段,以得到分段文本,每个分段文本对应一个类别;根据分段文本的类别将分段文本输入至对应的文本识别模型中得到分段文本的文本识别结果;根据文本识别结果得到简历文件的简历识别结果。采用上述方法可以解决现有技术中由于简历的格式、框架结构不同导致神经网络模型识别简历时的准确度低的技术问题,将简历转换成统一的格式,便于后续的统一处理,并且,文本识别模型仅需要学习相同类别的文本,可以提高文本识别模型的泛化能力,进而提高了简历识别结果的准确性。

【技术实现步骤摘要】
简历识别方法、装置、设备及存储介质
本申请实施例涉及数据处理
,尤其涉及一种简历识别方法、装置、设备及存储介质。
技术介绍
通常,许多公司的人力资源部门在招聘时会收到大量的简历,这些简历可能是应聘者自行投递的简历,也可能是相关招聘平台推送的简历。同时,为了便于人才信息的掌握及管理,人力资源部门会基于接收到的简历构建人才库。无论是从接收的简历中筛选合适的简历还是构建人才库,均需要先对简历进行识别。在识别简历时,采用人工的方式提取并记录简历中有效的字段,会耗费大量的人力且效率很低。因此,如何对简历进行自动识别,以提取出有效的字段成为了亟需解决的技术问题。现有技术中,为了自动识别简历,可以利用深度学习技术,即构建神经网络模型,并通过神经网络模型对简历中的文本内容进行识别。专利技术人在实现本专利技术的过程中,发现现有技术存在如下缺陷:由于简历的来源不同,会使得简历的格式、框架结构等均不相同。此时,基于不同格式、框架结构的简历训练得到的神经网络模型具有较低的泛化能力,进而在神经网络模型识别简历的文本内容时,会降低识别的准确度。
技术实现思路
本申请提供了一种简历识别方法、装置、设备及存储介质,以解决现有技术中由于简历的格式、框架结构不同导致神经网络模型识别简历时的准确度低的技术问题。第一方面,本申请实施例提供了一种简历识别方法,包括:将各待识别的简历转换成统一格式的简历文件;对所述简历文件进行分段,以得到分段文本,每个所述简历文件对应至少两个分段文本且每个分段文本对应一个类别;根据所述分段文本的类别将所述分段文本输入至对应的文本识别模型中,以得到所述分段文本的文本识别结果,每个所述类别对应一个文本识别模型;根据所述文本识别结果得到所述简历文件的简历识别结果。进一步的,所述对所述简历文件进行分段,以得到分段文本包括:利用关键词正则表达式识别所述简历文件中的关键词,每个类别对应一组关键词正则表达式;基于识别到的关键词对所述简历文件进行分块,并将分块后的每个块状文本作为一个分段文本。进一步的,所述对所述简历文件进行分段,以得到分段文本之前,还包括:对所述简历文件进行数据清洗,以剔除所述简历文件中的无效数据。进一步的,所述根据所述分段文本的类别将所述分段文本输入至对应的文本识别模型中,以得到所述分段文本的文本识别结果之后,还包括:判断所述文本识别结果中是否存在未被识别的文本;若存在未被识别的文本,则基于所述文本识别结果对所述未被识别的文本进行标记,并根据标记结果更新所述文本识别结果。进一步的,所述根据所述分段文本的类别将所述分段文本输入至对应的文本识别模型中,以得到所述分段文本的文本识别结果包括:利用特征正则表达式在所述分段文本中匹配具有相应特征的第一字段;根据所述分段文本的类别将所述分段文本输入至对应的文本识别模型中,并获取所述文本识别模型的输出结果;将所述输出结果、所述第一字段以及所述第一字段对应的特征作为对应分段文本的文本识别结果。进一步的,还包括:获取训练数据集,所述训练数据集中包含多个相同类别的训练分段文本;为所述训练分段文本添加标签;根据所述训练分段文本以及对应的标签训练所述类别对应的文本识别模型。进一步的,所述为所述训练分段文本添加标签包括:根据各所述训练分段文本的简历来源将各所述训练分段文本划分成至少一个已知来源训练分段文本集和未知来源训练分段文本集,每个所述已知来源训练分段文本集对应一种简历来源;剔除所述已知来源训练分段文本集及所述未知来源训练分段文本集中各训练分段文本内的第二字段,得到更新后的已知来源训练分段文本集和更新后的未知来源训练分段文本集,所述第二字段通过特征正则表达式匹配得到;根据所述简历来源确认更新后的已知来源训练分段文本集对应的简历结构,每种所述简历来源对应一种简历结构;根据所述简历结构对所述更新后的已知来源训练分段文本集中各训练分段文本添加标签;显示所述更新后的未知来源训练分段文本集中的各训练分段文本,以获取用户根据所述训练分段文本输入的标签。进一步的,所述文本识别模型采用Bert-Bilstm-Crf模型。第二方面,本申请实施例还提供了一种简历识别装置,包括:格式转换模块,用于将各待识别的简历转换成统一格式的简历文件;文件分段模块,用于对所述简历文件进行分段,以得到分段文本,每个所述简历文件对应至少两个分段文本且每个分段文本对应一个类别;模型识别模块,用于根据所述分段文本的类别将所述分段文本输入至对应的文本识别模型中,以得到所述分段文本的文本识别结果,每个所述类别对应一个文本识别模型;结果获取模块,用于根据所述文本识别结果得到所述简历文件的简历识别结果。第三方面,本申请实施例还提供了一种简历识别设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的简历识别方法。第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的简历识别方法。上述简历识别方法、装置、设备及存储介质,通过将各待识别的简历转换成统一格式的简历文件,之后,对简历文件进行分段,每个分段文本对应一个类别,并将分段文本按照所属类别输入至对应的文本识别模型中,以得到文本识别结果,进而基于文本识别结果得到简历文件的简历识别结果的技术手段,可以解决现有技术中由于简历的格式、框架结构不同导致神经网络模型识别简历时的准确度低的技术问题。先将简历转换成统一的格式,便于后续的统一处理,之后,根据类别对简历文件进行分段,且每个类别的分段文本对应一个用于识别的文本识别模型,即文本识别模型仅需要学习相同类别的文本,可以提高文本识别模型的泛化能力,进而提高了简历识别结果的准确性。进一步的,对简历文件进行数据清洗,剔除简历文件中的无效数据,以避免无效数据影响后续处理过程。进一步的,在分段文本中匹配出第一字段,以减小文本识别模型的数据处理量。进一步的,若分段文本中包含未被识别的文本,则可以基于文本识别结果对未被识别的文本进行标记,以进一步保证文本识别结果的准确度,进而保证简历识别结果的准确度。附图说明图1为本申请一个实施例提供的一种简历识别方法的流程图;图2为本申请实施例提供的标签添加过程示意图;图3为本申请另一个实施例提供的一种简历识别方法的流程图;图4为本申请实施例提供的分段文本示意图;图5为本申请实施例提供的第一文本识别结果示意图;图6为本申请实施例提供的第二文本识别结果示意图;图7为本申请实施例提供的简历识别方法示例流程图;图8为本申请一个实施例提供的一种简历识别装置的结构示意图;图9为本申请一个实施例提本文档来自技高网...

【技术保护点】
1.一种简历识别方法,其特征在于,包括:/n将各待识别的简历转换成统一格式的简历文件;/n对所述简历文件进行分段,以得到分段文本,每个所述简历文件对应至少两个分段文本且每个分段文本对应一个类别;/n根据所述分段文本的类别将所述分段文本输入至对应的文本识别模型中,以得到所述分段文本的文本识别结果,每个所述类别对应一个文本识别模型;/n根据所述文本识别结果得到所述简历文件的简历识别结果。/n

【技术特征摘要】
1.一种简历识别方法,其特征在于,包括:
将各待识别的简历转换成统一格式的简历文件;
对所述简历文件进行分段,以得到分段文本,每个所述简历文件对应至少两个分段文本且每个分段文本对应一个类别;
根据所述分段文本的类别将所述分段文本输入至对应的文本识别模型中,以得到所述分段文本的文本识别结果,每个所述类别对应一个文本识别模型;
根据所述文本识别结果得到所述简历文件的简历识别结果。


2.根据权利要求1所述的简历识别方法,其特征在于,所述对所述简历文件进行分段,以得到分段文本包括:
利用关键词正则表达式识别所述简历文件中的关键词,每个类别对应一组关键词正则表达式;
基于识别到的关键词对所述简历文件进行分块,并将分块后的每个块状文本作为一个分段文本。


3.根据权利要求1所述的简历识别方法,其特征在于,所述对所述简历文件进行分段,以得到分段文本之前,还包括:
对所述简历文件进行数据清洗,以剔除所述简历文件中的无效数据。


4.根据权利要求1所述的简历识别方法,其特征在于,所述根据所述分段文本的类别将所述分段文本输入至对应的文本识别模型中,以得到所述分段文本的文本识别结果之后,还包括:
判断所述文本识别结果中是否存在未被识别的文本;
若存在未被识别的文本,则基于所述文本识别结果对所述未被识别的文本进行标记,并根据标记结果更新所述文本识别结果。


5.根据权利要求1所述的简历识别方法,其特征在于,所述根据所述分段文本的类别将所述分段文本输入至对应的文本识别模型中,以得到所述分段文本的文本识别结果包括:
利用特征正则表达式在所述分段文本中匹配具有相应特征的第一字段;
根据所述分段文本的类别将所述分段文本输入至对应的文本识别模型中,并获取所述文本识别模型的输出结果;
将所述输出结果、所述第一字段以及所述第一字段对应的特征作为对应分段文本的文本识别结果。


6.根据权利要求1所述的简历识别方法,其特征在于,还包括:
获取训练数据集,所述训练数据集中包含多个相同类别的训练分段文本;
为所述训练分段文本添加标签;...

【专利技术属性】
技术研发人员:李首贤
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1