一种文本信息的提取方法、装置及电子设备制造方法及图纸

技术编号:38729931 阅读:10 留言:0更新日期:2023-09-08 23:20
本申请公开了一种文本信息的提取方法、装置及电子设备,提取方法包括:提取第一模型的目标参数,其中,目标参数为M个;基于目标参数,生成至少一个第二模型,其中,第二模型的参数量小于第一模型的参数量;从第二模型中筛选出目标模型;利用目标模型对待提取图像进行文本提取,得到目标文本。本申请利用第一模型的目标参数生成至少一个第二模型,并从至少一个第二模型中筛选得到目标模型,也即该目标模型相较于第一模型,其更为轻量化,在利用目标模型对待提取图像进行文本提取时,提取效率较高,并且,其提取到的目标文本准确性也较高。其提取到的目标文本准确性也较高。其提取到的目标文本准确性也较高。

【技术实现步骤摘要】
一种文本信息的提取方法、装置及电子设备


[0001]本申请涉及信息提取的
,特别涉及一种文本信息的提取方法、装置及电子设备。

技术介绍

[0002]文本信息提取是整个文档数据结构化中的高层语义理解任务。目前,采用Transformer架构的通用预训练模型结合具体的下游任务数据集来训练得到提取模型,以通过该提取模型进行文本提取。
[0003]但,在构建上述提取模型时,需要进行大量的人工标注,导致生成效率较低以及人力成本较高;并且,多层的Transformer架构使得整个处理过程对硬件资源要求很大,导致模型成本较高。

技术实现思路

[0004]本申请实施例的目的在于提供一种文本信息的提取方法、装置及电子设备,不仅能够准确的提取出目标文本,还能够实现目标模型的轻量化设计。
[0005]第一方面,本申请实施例提供了一种文本信息的提取方法,包括:
[0006]提取第一模型的目标参数,其中,所述目标参数为M个;
[0007]基于所述目标参数,生成至少一个第二模型,其中,所述第二模型的参数量小于所述第一模型的参数量;
[0008]从所述第二模型中筛选出目标模型;
[0009]利用所述目标模型对待提取图像进行文本提取,得到目标文本。
[0010]在一种可能的实施方式中,所述基于所述目标参数,生成至少一个第二模型,包括:
[0011]从M个目标参数中随机选取至少一组所述目标参数,其中,每组所述目标参数中包括N个所述目标参数,N的取值范围为大于0以及小于M;
[0012]基于每组所述目标参数分别生成一个所述第二模型。
[0013]在一种可能的实施方式中,所述从所述第二模型中筛选出目标模型,包括:
[0014]针对每个所述第二模型,利用该第二模型对数据集中的训练数据进行计算,得到计算结果;
[0015]基于每个所述第二模型的计算结果和参数量,确定所述目标模型。
[0016]在一种可能的实施方式中,所述基于每个所述第二模型的计算结果和参数量,确定所述目标模型,包括:
[0017]按照计算结果的第一权重值和参数量的第二权重值,计算每个所述第二模型的特征评分;
[0018]将所述特征评分最高的第二模型确定为所述目标模型。
[0019]在一种可能的实施方式中,所述提取方法还包括:
[0020]利用数据集对所述目标模型进行训练;
[0021]其中,所述数据集中的训练数据包括多个图像样本以及每个图像样本对应的文本信息,所述文本信息包括第一文本样本和任意两个所述第一文本样本之间的相对位置。
[0022]在一种可能的实施方式中,所述提取方法还包括:
[0023]针对所述数据集中的训练数据,确定所述第一文本样本对应的第二文本样本,其中,所述第一文本样本与所述第二文本样本语义相近;
[0024]基于所述第二文本样本、所述第一文本样本对应的相对位置以及图像样本,生成新的数据集。
[0025]在一种可能的实施方式中,所述基于所述第二文本样本、所述第一文本样本对应的相对位置以及图像样本,生成新的数据集,包括:
[0026]将所述图像样本中的所述第一文本样本修改为所述第二文本样本,得到修改后的图像样本;
[0027]利用所述第二文本样本、所述修改后的图像样本以及所述第一文本样本对应的相对位置,生成新的训练数据;
[0028]利用新的训练数据更新所述数据集,得到新的数据集,以利用所述新的数据集对所述目标模型进行训练。
[0029]第二方面,本申请实施例还提供了一种文本信息的提取装置,包括:
[0030]第一提取模块,其配置为提取第一模型的目标参数,其中,所述目标参数为M个;
[0031]第一生成模块,其配置为基于所述目标参数,生成至少一个第二模型,其中,所述第二模型的参数量小于所述第一模型的参数量;
[0032]筛选模块,其配置为从所述第二模型中筛选出目标模型;
[0033]第二提取模块,其配置为利用所述目标模型对待提取图像进行文本提取,得到目标文本。
[0034]在一种可能的实施方式中,所述第一生成模块具体配置为:
[0035]从M个目标参数中随机选取多组所述目标参数,其中,每组所述目标参数中包括N个所述目标参数,N的取值范围为大于0以及小于M;
[0036]基于每组所述目标参数分别生成一个所述第二模型。
[0037]第三方面,本申请实施例还提供了一种存储介质,其中,该计算机程序被处理器运行时执行如上述任意一项所述的文本信息的提取方法的步骤。
[0038]第四方面,本申请实施例还提供了一种电子设备,其中,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述任意一项所述的文本信息的提取方法的步骤。
[0039]本申请实施例中,利用第一模型的目标参数生成至少一个第二模型,并从至少一个第二模型中筛选得到目标模型,也即该目标模型相较于第一模型,其更为轻量化,在利用目标模型对待提取图像进行文本提取时,提取效率较高,并且,其提取到的目标文本准确性也较高。
附图说明
[0040]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0041]图1示出了本申请所提供的一种文本信息的提取方法的流程图;
[0042]图2示出了本申请所提供的一种文本信息的提取方法中基于目标参数生成至少一个第二模型的流程图;
[0043]图3示出了本申请所提供的一种文本信息的提取方法中从第二模型中筛选出目标模型的流程图;
[0044]图4示出了本申请所提供的一种文本信息的提取方法中基于第二文本样本、第一文本样本对应的相对位置以及图像样本,生成新的数据集的流程图;
[0045]图5示出了本申请所提供的一种文本信息的提取装置的结构示意图;
[0046]图6示出了本申请所提供的一种电子设备的结构示意图。
具体实施方式
[0047]此处参考附图描述本申请的各种方案以及特征。
[0048]应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
[0049]包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
[0050]通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本信息的提取方法,包括:提取第一模型的目标参数,其中,所述目标参数为M个;基于所述目标参数,生成至少一个第二模型,其中,所述第二模型的参数量小于所述第一模型的参数量;从所述第二模型中筛选出目标模型;利用所述目标模型对待提取图像进行文本提取,得到目标文本。2.根据权利要求1所述的提取方法,所述基于所述目标参数,生成至少一个第二模型,包括:从M个目标参数中随机选取至少一组所述目标参数,其中,每组所述目标参数中包括N个所述目标参数,N的取值范围为大于0以及小于M;基于每组所述目标参数分别生成一个所述第二模型。3.根据权利要求1所述的提取方法,所述从所述第二模型中筛选出目标模型,包括:针对每个所述第二模型,利用该第二模型对数据集中的训练数据进行计算,得到计算结果;基于每个所述第二模型的计算结果和参数量,确定所述目标模型。4.根据权利要求3所述的提取方法,所述基于每个所述第二模型的计算结果和参数量,确定所述目标模型,包括:按照计算结果的第一权重值和参数量的第二权重值,计算每个所述第二模型的特征评分;将所述特征评分最高的第二模型确定为所述目标模型。5.根据权利要求1所述的提取方法,还包括:利用数据集对所述目标模型进行训练;其中,所述数据集中的训练数据包括多个图像样本以及每个图像样本对应的文本信息,所述文本信息包括第一文本样本和任意两个所述第一文本样本之间的相对位置。6.根据权利要求5所述的提取方法,还包括:针对所述数据集中的训练数据,确定所述第一文本样本对应的第二文本样本,其中,所述第一文本样本与所述第二文本样本...

【专利技术属性】
技术研发人员:罗林锋王敏
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1