【技术实现步骤摘要】
简历文档识别方法、装置、计算设备及存储介质
[0001]本申请涉及文档识别
,特别涉及一种简历文档识别方法。本申请同时涉及一种简历文档识别装置、一种计算设备,以及一种计算机可读存储介质。
技术介绍
[0002]随着互联网技术的发展,简历智能管理在招聘中得到了广泛应用,极大地提高了求职者和招聘方的处理效率,其中,简历智能管理是简历解析、人岗匹配、自动整合简历资源、简历智能查重、简历筛选等一系列应用的统称。简历文档识别是进行简历智能管理的重要前提,如何提高简历文档识别的准确性成为实现简历智能管理的关键。
技术实现思路
[0003]有鉴于此,本申请实施例提供了一种简历文档识别方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种简历文档识别装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种简历文档识别方法,包括:
[0005]获取待识别的目标文档;
[0006]从目标文档中提取文档信息;
[0007]基于文档信息,对目 ...
【技术保护点】
【技术特征摘要】
1.一种简历文档识别方法,其特征在于,包括:获取待识别的目标文档;从所述目标文档中提取文档信息;基于所述文档信息,对所述目标文档进行简历文档识别处理,得到所述目标文档是否为简历文档的识别结果,其中,所述简历文档识别处理包括规则验证和基于神经网络的分类识别。2.根据权利要求1所述的方法,其特征在于,所述从所述目标文档中提取文档信息的步骤,包括:识别所述目标文档的文档格式;若所述目标文档的文档格式为文本格式,则从所述目标文档中提取字符串类型的文本内容;所述基于所述文档信息,对所述目标文档进行简历文档识别处理,得到所述目标文档是否为简历文档的识别结果的步骤,包括:利用预设的简历文本验证规则,对所述文本内容进行规则验证;在所述文本内容的规则验证成功的情况下,将所述文本内容输入第一简历识别模型,得到所述目标文档是否为简历文档的识别结果,其中,所述第一简历识别模型为预先利用多个样本简历文本对预设神经网络进行训练得到的文本分类模型。3.根据权利要求2所述的方法,其特征在于,在所述从所述目标文档中提取字符串类型的文本内容的步骤之后,所述方法还包括:若提取失败,则将所述目标文档的文档格式转换为图像格式。4.根据权利要求3所述的方法,其特征在于,在所述将所述目标文档的文档格式转换为图像格式的步骤之后,所述方法还包括:从所述目标文档中提取每一张图像的图像信息;所述基于所述文档信息,对所述目标文档进行简历文档识别处理,得到所述目标文档是否为简历文档的识别结果的步骤,包括:将所述每一张图像的图像信息分别输入第二简历识别模型,得到所述每一张图像是否为简历图像的识别结果,所述第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型;根据所述每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到所述目标文档是否为简历文档的识别结果。5.根据权利要求2所述的方法,其特征在于,在所述利用预设的简历文本验证规则,对所述文本内容进行规则验证的步骤之后,所述方法还包括:在所述文本内容的规则验证失败的情况下,确定所述目标文档为非简历文档。6.根据权利要求2或5所述的方法,其特征在于,所述利用预设的简历文本验证规则,对所述文本内容进行规则验证的步骤,包括:从所述文本内容中提取各关键词;将所述各关键词分别与预设核心关键词库中的核心关键词进行匹配;若与所述核心关键词匹配成功的关键词数目达到第一预设阈值,则确定所述文本内容的规则验证成功。
...
【专利技术属性】
技术研发人员:王得贤,李长亮,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。