简历文档识别模型训练方法、简历文档识别方法及装置制造方法及图纸

技术编号:32480202 阅读:15 留言:0更新日期:2022-03-02 09:43
本申请提供简历文档识别模型训练方法、简历文档识别方法及装置,其中所述简历文档识别模型的训练方法包括:获取样本集,其中,样本集中包括多个样本文档,提取任一样本文档,对该样本文档进行分词,基于分词结果,得到该样本文档的分词特征,基于各样本文档的分词特征,对预设模型进行训练,得到简历文档识别模型,通过对样本文档进行分词、提取样本文档的分词特征,能够有效获取样本信息,避免造成信息丢失,利用各样本文档的分词特征对预设模型进行训练,得到简历文档识别模型,从而提高了简历文档识别的效率和准确率。文档识别的效率和准确率。文档识别的效率和准确率。

【技术实现步骤摘要】
简历文档识别模型训练方法、简历文档识别方法及装置


[0001]本申请涉及计算机
,特别涉及一种简历文档识别模型训练方法。本申请同时涉及一种简历文档识别模型训练装置,一种简历文档识别方法,一种简历文档识别装置、一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,日常办公中识别简历文档越来越多地依赖于互联网进行,简历文档识别是对文档进行智能识别,从而判断该文档是否属于简历文档的过程,可有效提高办公效率。
[0003]当前,通常采用基于规则的方法对简历文档进行识别:人工预先设置包含用户学历信息、工作信息、获奖信息等类别的关键词的数据库,提取待识别文档的所有关键词,如果所有关键词中存在数据库中每个类别包含的至少一个关键词,则识别该待识别文档为简历文档。
[0004]然而,上述基于规则的方法中,需要人工设置大量规则,人工势必会引入不确定因素,导致简历文档识别结果的准确性较差,并且关键词一个一个匹配的过程,会导致简历文档识别的效率较低。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种简历文档识别模型训练方法及一种简历文档识别方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种简历文档识别模型训练装置,一种简历文档识别装置,一种计算设备,以及一种计算机可读存储介质。
[0006]根据本申请实施例的第一方面,提供了一种简历文档识别模型训练方法,包括:
[0007]获取样本集,其中,样本集中包括多个样本文档,样本文档包括简历样本文档;
[0008]提取样本集中的第一样本文档,对第一样本文档进行分词,基于分词结果,得到第一样本文档的分词特征,其中,第一样本文档为样本集中的任一样本文档;
[0009]基于样本集中各样本文档的分词特征,对预设模型进行训练,得到简历文档识别模型。
[0010]可选地,样本文档还包括非简历样本文档,其中,简历样本文档携带有表征是简历文档的正样本标签,非简历样本文档携带有表征是非简历文档的负样本标签;
[0011]基于样本集中各样本文档的分词特征,对预设模型进行训练,得到简历文档识别模型的步骤,包括:
[0012]提取第一样本文档的分词特征,将第一样本文档的分词特征输入预设模型,得到第一样本文档是否为简历文档的识别结果;
[0013]根据第一样本文档的识别结果和第一样本文档携带的标签,计算损失值;
[0014]若损失值大于预设阈值,则调整预设模型的模型参数,并返回执行提取第一样本文档的分词特征,将第一样本文档的分词特征输入预设模型,得到第一样本文档是否为简
历文档的识别结果的步骤;
[0015]若损失值小于或等于预设阈值,则停止训练,确定当前的预设模型为简历文档识别模型。
[0016]可选地,根据第一样本文档的识别结果和第一样本文档携带的标签,计算损失值的步骤,包括:
[0017]根据第一样本文档的识别结果和第一样本文档携带的标签,利用交叉熵损失函数,计算第一样本文档的识别结果与第一样本文档携带的标签之间的交叉熵作为损失值。
[0018]可选地,预设模型为逻辑回归模型。
[0019]可选地,对第一样本文档进行分词的步骤,包括:
[0020]调用预设分词组件,利用预设分词组件,对第一样本文档进行分词,得到第一样本文档中的各词语。
[0021]可选地,分词特征包括第一样本文档中各词语的特征;
[0022]基于分词结果,得到第一样本文档的分词特征的步骤,包括:
[0023]统计分词结果中各词语在第一样本文档中出现的次数、第一样本文档中的总词语数、样本集中的样本文档总数、针对任一词语,样本集中包含该词语的样本文档的数目;
[0024]根据各词语在第一样本文档中出现的次数以及总词语数,计算各词语的词频特征;
[0025]根据样本集中的样本文档总数以及针对任一词语,样本集中包含该词语的样本文档的数目,计算各词语的反文档频率特征;
[0026]针对任一词语,根据该词语的词频特征与反文档频率特征,确定该词语的特征。
[0027]根据本申请实施例的第二方面,提供了一种简历文档识别方法,包括:
[0028]获取待识别的目标文档;
[0029]将目标文档输入利用本申请实施例第一方面提供的方法训练得到的简历文档识别模型,得到目标文档是否为简历文档的识别结果。
[0030]根据本申请实施例的第三方面,提供了一种简历文档识别模型训练装置,包括:
[0031]第一获取模块,被配置为获取样本集,其中,样本集中包括多个样本文档,样本文档包括简历样本文档;
[0032]分词模块,被配置为提取样本集中的第一样本文档,对第一样本文档进行分词,基于分词结果,得到第一样本文档的分词特征,其中,第一样本文档为样本集中的任一样本文档;
[0033]训练模块,被配置为基于样本集中各样本文档的分词特征,对预设模型进行训练,得到简历文档识别模型。
[0034]可选地,样本文档还包括非简历样本文档,其中,简历样本文档携带有表征是简历文档的正样本标签,非简历样本文档携带有表征是非简历文档的负样本标签;
[0035]训练模块,进一步被配置为提取第一样本文档的分词特征,将第一样本文档的分词特征输入预设模型,得到第一样本文档是否为简历文档的识别结果;根据第一样本文档的识别结果和第一样本文档携带的标签,计算损失值;若损失值大于预设阈值,则调整预设模型的模型参数,并返回执行提取第一样本文档的分词特征,将第一样本文档的分词特征输入预设模型,得到第一样本文档是否为简历文档的识别结果的步骤;若损失值小于或等
于预设阈值,则停止训练,确定当前的预设模型为简历文档识别模型。
[0036]可选地,训练模块,进一步被配置为根据第一样本文档的识别结果和第一样本文档携带的标签,利用交叉熵损失函数,计算第一样本文档的识别结果与第一样本文档携带的标签之间的交叉熵作为损失值。
[0037]可选地,预设模型为逻辑回归模型。
[0038]可选地,分词模块,进一步被配置为调用预设分词组件,利用预设分词组件,对第一样本文档进行分词,得到第一样本文档中的各词语。
[0039]可选地,分词特征包括第一样本文档中各词语的特征;
[0040]分词模块,进一步被配置为统计分词结果中各词语在第一样本文档中出现的次数、第一样本文档中的总词语数、样本集中的样本文档总数、针对任一词语样本集中包含该词语的样本文档的数目;根据各词语在第一样本文档中出现的次数以及总词语数,计算各词语的词频特征;根据样本集中的样本文档总数以及针对任一词语样本集中包含该词语的样本文档的数目,计算各词语的反文档频率特征;针对任一词语,根据该词语的词频特征与反文档频率特征,确定该词语的特征。
[0041]根据本申请实施例的第四方面,提供了一种简历文档识别装置,包括:
[0042]第二获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种简历文档识别模型训练方法,其特征在于,包括:获取样本集,所述样本集中包括多个样本文档,所述样本文档包括简历样本文档;提取所述样本集中的第一样本文档,对所述第一样本文档进行分词,基于分词结果,得到所述第一样本文档的分词特征,所述第一样本文档为所述样本集中的任一样本文档;基于所述样本集中各样本文档的分词特征,对预设模型进行训练,得到简历文档识别模型。2.根据权利要求1所述的方法,其特征在于,所述样本文档还包括非简历样本文档,其中,所述简历样本文档携带有表征是简历文档的正样本标签,所述非简历样本文档携带有表征是非简历文档的负样本标签;所述基于所述样本集中各样本文档的分词特征,对预设模型进行训练,得到简历文档识别模型的步骤,包括:提取所述第一样本文档的分词特征,将所述第一样本文档的分词特征输入预设模型,得到所述第一样本文档是否为简历文档的识别结果;根据所述第一样本文档的识别结果和所述第一样本文档携带的标签,计算损失值;若所述损失值大于预设阈值,则调整所述预设模型的模型参数,并返回执行所述提取所述第一样本文档的分词特征,将所述第一样本文档的分词特征输入预设模型,得到所述第一样本文档是否为简历文档的识别结果的步骤;若所述损失值小于或等于所述预设阈值,则停止训练,确定当前的所述预设模型为简历文档识别模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一样本文档的识别结果和所述第一样本文档携带的标签,计算损失值的步骤,包括:根据所述第一样本文档的识别结果和所述第一样本文档携带的标签,利用交叉熵损失函数,计算所述第一样本文档的识别结果与所述第一样本文档携带的标签之间的交叉熵作为损失值。4.根据权利要求1或2所述的方法,其特征在于,所述预设模型为逻辑回归模型。5.根据权利要求1或2所述的方法,其特征在于,所述对所述第一样本文档进行分词的步骤,包括:调用预设分词组件,利用所述预设分词组件,对所述第一样本文档进行分词,得到所述第一样本文档中的各词语。6.根据权利要求1或2所述的方法,其特征在于,所述分词特征包括所述第一样本文档中各...

【专利技术属性】
技术研发人员:王得贤李长亮毛璐
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1