一种简历文档信息提取方法及相关装置制造方法及图纸

技术编号:35270179 阅读:20 留言:0更新日期:2022-10-19 10:39
本申请公开了一种简历文档信息提取方法,包括:根据原始简历文档数据进行训练语料构建处理,得到训练数据;根据多特征Embedding层构建Transformer模型,并作为初始信息提取模型;其中,多特征Embedding层由位置特征、布局特征、图像特征、页码特征构建得到;根据训练数据对初始信息提取模型进行训练,得到信息提取模型;采用信息提取模型对待处理简历文档进行处理,得到信息提取结果;其中,信息提取结果包括多个实体、每个实体的信息以及多个实体的分类结果。以提高对建立文档信息进行信息提取的准确性和精度。本申请还公开了一种简历文档信息提取装置、终端设备以及计算机可读存储介质,具有以上有益效果。具有以上有益效果。具有以上有益效果。

【技术实现步骤摘要】
一种简历文档信息提取方法及相关装置


[0001]本申请涉及数据处理
,特别涉及一种简历文档信息提取方法、简历文档信息提取装置、终端设备以及计算机可读存储介质。

技术介绍

[0002]随着信息技术的不断发展,简历文档信息越来越复杂,现有的信息提取技术没有办法准确且快速的提取出简历中的信息。
[0003]相关技术中,一般采用的信息提取方式在抽取信息中,如工作经历(或教育经历、项目经历)往往包含多段经历,每段经历包括起始时间、终止时间、工作单位、工作岗位等信息,那么在信息结构化过程中,往往需要将一段经历的若干工作信息对应分组输出,而用常规方法就近原则的规则判断,往往会造成错误、规则泛滥以及难以扩展等问题。也就是说,现有的简历信息中由于文档复杂性的不断提高,导致对文档进行分析的准确性和精度下降,出现提取不准确的问题。
[0004]因此,如何提高对简历文档进行信息提取的准确性和精度是本领域技术人员关注的重点问题。

技术实现思路

[0005]本申请的目的是提供一种简历文档信息提取方法、简历文档信息提取装置、终端设备以及计算机可读存储介质,以提高对建立文档信息进行信息提取的准确性和精度,提高提取的效果。
[0006]为解决上述技术问题,本申请提供一种简历文档信息提取方法,包括:
[0007]根据原始简历文档数据进行训练语料构建处理,得到训练数据;
[0008]根据多特征Embedding层构建Transformer模型,并作为初始信息提取模型;其中,多特征Embedding层由位置特征、布局特征、图像特征、页码特征构建得到;
[0009]根据所述训练数据对所述初始信息提取模型进行训练,得到信息提取模型;
[0010]采用所述信息提取模型对待处理简历文档进行处理,得到信息提取结果;其中,所述信息提取结果包括多个实体、每个实体的信息以及所述多个实体的分类结果。
[0011]可选的,根据原始简历文档数据进行训练语料构建处理,得到训练数据,包括:
[0012]对所述始简历文档数据进行文本框提取,得到多个文本框;
[0013]基于每个所述文本框的信息和对应的实体分类进行训练语料构建,得到所述训练数据。
[0014]可选的,根据多特征Embedding层构建Transformer模型,并作为初始信息提取模型,包括:
[0015]分别构建位置特征嵌入层、布局特征嵌入层、图像特征嵌入层以及页码特征嵌入层;
[0016]将所述位置特征嵌入层、所述布局特征嵌入层、所述图像特征嵌入层以及所述页
码特征嵌入层融合至Transformer模型中,得到所述初始信息提取模型。
[0017]可选的,根据所述训练数据对所述初始信息提取模型进行训练,得到信息提取模型,包括:
[0018]分别构建区域分类的损失函数、实体抽取的损失函数以及实体关系分类的损失函数;
[0019]基于所述区域分类的损失函数、所述实体抽取的损失函数、所述实体关系分类的损失函数以及所述训练数据对所述初始信息提取模型进行训练,得到所述信息提取模型。
[0020]本申请还提供一种简历文档信息提取装置,包括:
[0021]训练数据获取模块,用于根据原始简历文档数据进行训练语料构建处理,得到训练数据;
[0022]模型构建模块,用于根据多特征Embedding层构建Transformer模型,并作为初始信息提取模型;其中,多特征Embedding层由位置特征、布局特征、图像特征、页码特征构建得到;
[0023]模型训练模块,用于根据所述训练数据对所述初始信息提取模型进行训练,得到信息提取模型;
[0024]文档信息提取模块,用于采用所述信息提取模型对待处理简历文档进行处理,得到信息提取结果;其中,所述信息提取结果包括多个实体、每个实体的信息以及所述多个实体的分类结果。
[0025]可选的,所述训练数据获取模块,具体用于对所述始简历文档数据进行文本框提取,得到多个文本框;基于每个所述文本框的信息和对应的实体分类进行训练语料构建,得到所述训练数据。
[0026]可选的,所述模型构建模块,具体用于分别构建位置特征嵌入层、布局特征嵌入层、图像特征嵌入层以及页码特征嵌入层;将所述位置特征嵌入层、所述布局特征嵌入层、所述图像特征嵌入层以及所述页码特征嵌入层融合至Transformer模型中,得到所述初始信息提取模型。
[0027]可选的,所述模型训练模块,具体用于分别构建区域分类的损失函数、实体抽取的损失函数以及实体关系分类的损失函数;基于所述区域分类的损失函数、所述实体抽取的损失函数、所述实体关系分类的损失函数以及所述训练数据对所述初始信息提取模型进行训练,得到所述信息提取模型。
[0028]本申请还提供一种终端设备,包括:
[0029]存储器,用于存储计算机程序;
[0030]处理器,用于执行所述计算机程序时实现如上所述的简历文档信息提取方法的步骤。
[0031]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的简历文档信息提取方法的步骤。
[0032]本申请所提供的一种简历文档信息提取方法,包括:根据原始简历文档数据进行训练语料构建处理,得到训练数据;根据多特征Embedding层构建Transformer模型,并作为初始信息提取模型;其中,多特征Embedding层由位置特征、布局特征、图像特征、页码特征构建得到;根据所述训练数据对所述初始信息提取模型进行训练,得到信息提取模型;采用
所述信息提取模型对待处理简历文档进行处理,得到信息提取结果;其中,所述信息提取结果包括多个实体、每个实体的信息以及所述多个实体的分类结果。
[0033]通过从原始数据中提取出训练数据,然后构建出多特征Embedding层的初始信息提取模型,最后采用训练数据对初始信息提取模型进行训练得到该信息提取模型,最后进行提取处理,就可以得到简历文档中的多个实体、每个实体的信息以及所述多个实体的分类结果,提高对高复杂性的文档进行信息提取处理的效果,提高提取的准确性和精度。
[0034]本申请还提供一种简历文档信息提取装置、终端设备以及计算机可读存储介质,具有以上有益效果,在此不作赘述。
附图说明
[0035]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0036]图1为本申请实施例所提供的一种简历文档信息提取方法的流程图;
[0037]图2为本申请实施例所提供的一种简历文档信息提取方法的模型结构示意图;
[0038]图3为本申请实施例所提供的一种简历文档信息提取方法的页面编本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种简历文档信息提取方法,其特征在于,包括:根据原始简历文档数据进行训练语料构建处理,得到训练数据;根据多特征Embedding层构建Transformer模型,并作为初始信息提取模型;其中,多特征Embedding层由位置特征、布局特征、图像特征、页码特征构建得到;根据所述训练数据对所述初始信息提取模型进行训练,得到信息提取模型;采用所述信息提取模型对待处理简历文档进行处理,得到信息提取结果;其中,所述信息提取结果包括多个实体、每个实体的信息以及所述多个实体的分类结果。2.根据权利要求1所述的简历文档信息提取方法,其特征在于,根据原始简历文档数据进行训练语料构建处理,得到训练数据,包括:对所述始简历文档数据进行文本框提取,得到多个文本框;基于每个所述文本框的信息和对应的实体分类进行训练语料构建,得到所述训练数据。3.根据权利要求1所述的简历文档信息提取方法,其特征在于,根据多特征Embedding层构建Transformer模型,并作为初始信息提取模型,包括:分别构建位置特征嵌入层、布局特征嵌入层、图像特征嵌入层以及页码特征嵌入层;将所述位置特征嵌入层、所述布局特征嵌入层、所述图像特征嵌入层以及所述页码特征嵌入层融合至Transformer模型中,得到所述初始信息提取模型。4.根据权利要求1所述的简历文档信息提取方法,其特征在于,根据所述训练数据对所述初始信息提取模型进行训练,得到信息提取模型,包括:分别构建区域分类的损失函数、实体抽取的损失函数以及实体关系分类的损失函数;基于所述区域分类的损失函数、所述实体抽取的损失函数、所述实体关系分类的损失函数以及所述训练数据对所述初始信息提取模型进行训练,得到所述信息提取模型。5.一种简历文档信息提取装置,其特征在于,包括:训练数据获取模块,用于根据原始简历文档数据进行训练语料构建处理,得到训练数据;模型构建模块,用于根...

【专利技术属性】
技术研发人员:吕杨苗张翼飞张雪飞廖艺郭腾飞胡光辉
申请(专利权)人:河南中原消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1