简历文档识别模型训练方法、简历文档识别方法及装置制造方法及图纸

技术编号：32480202 阅读：15 留言：0更新日期：2022-03-02 09:43

本申请提供简历文档识别模型训练方法、简历文档识别方法及装置，其中所述简历文档识别模型的训练方法包括：获取样本集，其中，样本集中包括多个样本文档，提取任一样本文档，对该样本文档进行分词，基于分词结果，得到该样本文档的分词特征，基于各样本文档的分词特征，对预设模型进行训练，得到简历文档识别模型，通过对样本文档进行分词、提取样本文档的分词特征，能够有效获取样本信息，避免造成信息丢失，利用各样本文档的分词特征对预设模型进行训练，得到简历文档识别模型，从而提高了简历文档识别的效率和准确率。文档识别的效率和准确率。文档识别的效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
简历文档识别模型训练方法、简历文档识别方法及装置

[0001]本申请涉及计算机
，特别涉及一种简历文档识别模型训练方法。本申请同时涉及一种简历文档识别模型训练装置，一种简历文档识别方法，一种简历文档识别装置、一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展，日常办公中识别简历文档越来越多地依赖于互联网进行，简历文档识别是对文档进行智能识别，从而判断该文档是否属于简历文档的过程，可有效提高办公效率。
[0003]当前，通常采用基于规则的方法对简历文档进行识别：人工预先设置包含用户学历信息、工作信息、获奖信息等类别的关键词的数据库，提取待识别文档的所有关键词，如果所有关键词中存在数据库中每个类别包含的至少一个关键词，则识别该待识别文档为简历文档。
[0004]然而，上述基于规则的方法中，需要人工设置大量规则，人工势必会引入不确定因素，导致简历文档识别结果的准确性较差，并且关键词一个一个匹配的过程，会导致简历文档识别的效率较低。

技术实现思路

[0005]有鉴于此，本申请实施例提供了一种简历文档识别模型训练方法及一种简历文档识别方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种简历文档识别模型训练装置，一种简历文档识别装置，一种计算设备，以及一种计算机可读存储介质。
[0006]根据本申请实施例的第一方面，提供了一种简历文档识别模型训练方法，包括：
[0007]获取样本集，其中，样本集中包括多个样本文档，样本文档包括简...

【技术保护点】

【技术特征摘要】
1.一种简历文档识别模型训练方法，其特征在于，包括：获取样本集，所述样本集中包括多个样本文档，所述样本文档包括简历样本文档；提取所述样本集中的第一样本文档，对所述第一样本文档进行分词，基于分词结果，得到所述第一样本文档的分词特征，所述第一样本文档为所述样本集中的任一样本文档；基于所述样本集中各样本文档的分词特征，对预设模型进行训练，得到简历文档识别模型。2.根据权利要求1所述的方法，其特征在于，所述样本文档还包括非简历样本文档，其中，所述简历样本文档携带有表征是简历文档的正样本标签，所述非简历样本文档携带有表征是非简历文档的负样本标签；所述基于所述样本集中各样本文档的分词特征，对预设模型进行训练，得到简历文档识别模型的步骤，包括：提取所述第一样本文档的分词特征，将所述第一样本文档的分词特征输入预设模型，得到所述第一样本文档是否为简历文档的识别结果；根据所述第一样本文档的识别结果和所述第一样本文档携带的标签，计算损失值；若所述损失值大于预设阈值，则调整所述预设模型的模型参数，并返回执行所述提取所述第一样本文档的分词特征，将所述第一样本文档的分词特征输入预设模型，得到所述第一样本文档是否为简历文档的识别结果的步骤；若所述损失值小于或等于所述预设阈值，则停止训练，确定当前的所述预设模型为简历文档识别模型。3.根据权利要求2所述的方法，其特征在于，所述根据所述第一样本文档的识别结果和所述第一样本文档携带的标签，计算损失值的步骤，包括：根据所述第一样本文档的识别结果和所述第一样本文档携带的标签，利用交叉熵损失函数，计算所述第一样本文档的识别结果与所述第一样本文档携带的标签之间的交叉熵作为损失值。4.根据权利要求1或2所述的方法，其特征在于，所述预设模型为逻辑回归模型。5.根据权利要求1或2所述的方法，其特征在于，所述对所述第一样本文档进行分词的步骤，包括：调用预设分词组件，利用所述预设分词组件，对所述第一样本文档进行分词，得到所述第一样本文档中的各词语。6.根据权利要求1或2所述的方法，其特征在于，所述分词特征包括所述第一样本文档中各...

【专利技术属性】
技术研发人员：王得贤，李长亮，毛璐，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人