一种文本信息的提取方法、装置及电子设备制造方法及图纸

技术编号：38729931 阅读：10 留言：0更新日期：2023-09-08 23:20

本申请公开了一种文本信息的提取方法、装置及电子设备，提取方法包括：提取第一模型的目标参数，其中，目标参数为M个；基于目标参数，生成至少一个第二模型，其中，第二模型的参数量小于第一模型的参数量；从第二模型中筛选出目标模型；利用目标模型对待提取图像进行文本提取，得到目标文本。本申请利用第一模型的目标参数生成至少一个第二模型，并从至少一个第二模型中筛选得到目标模型，也即该目标模型相较于第一模型，其更为轻量化，在利用目标模型对待提取图像进行文本提取时，提取效率较高，并且，其提取到的目标文本准确性也较高。其提取到的目标文本准确性也较高。其提取到的目标文本准确性也较高。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本信息的提取方法、装置及电子设备

[0001]本申请涉及信息提取的
，特别涉及一种文本信息的提取方法、装置及电子设备。

技术介绍

[0002]文本信息提取是整个文档数据结构化中的高层语义理解任务。目前，采用Transformer架构的通用预训练模型结合具体的下游任务数据集来训练得到提取模型，以通过该提取模型进行文本提取。
[0003]但，在构建上述提取模型时，需要进行大量的人工标注，导致生成效率较低以及人力成本较高；并且，多层的Transformer架构使得整个处理过程对硬件资源要求很大，导致模型成本较高。

技术实现思路

[0004]本申请实施例的目的在于提供一种文本信息的提取方法、装置及电子设备，不仅能够准确的提取出目标文本，还能够实现目标模型的轻量化设计。
[0005]第一方面，本申请实施例提供了一种文本信息的提取方法，包括：
[0006]提取第一模型的目标参数，其中，所述目标参数为M个；
[0007]基于所述目标参数，生成至少一个第二模型，其中，所述第二模型的参数量小于所述第一模型的参数量；
[0008]从所述第二模型中筛选出目标模型；
[0009]利用所述目标模型对待提取图像进行文本提取，得到目标文本。
[0010]在一种可能的实施方式中，所述基于所述目标参数，生成至少一个第二模型，包括：
[0011]从M个目标参数中随机选取至少一组所述目标参数，其中，每组所述目标参数中包括N个所述目标参数，N的取值范围为大于0以及小...

【技术保护点】

【技术特征摘要】
1.一种文本信息的提取方法，包括：提取第一模型的目标参数，其中，所述目标参数为M个；基于所述目标参数，生成至少一个第二模型，其中，所述第二模型的参数量小于所述第一模型的参数量；从所述第二模型中筛选出目标模型；利用所述目标模型对待提取图像进行文本提取，得到目标文本。2.根据权利要求1所述的提取方法，所述基于所述目标参数，生成至少一个第二模型，包括：从M个目标参数中随机选取至少一组所述目标参数，其中，每组所述目标参数中包括N个所述目标参数，N的取值范围为大于0以及小于M；基于每组所述目标参数分别生成一个所述第二模型。3.根据权利要求1所述的提取方法，所述从所述第二模型中筛选出目标模型，包括：针对每个所述第二模型，利用该第二模型对数据集中的训练数据进行计算，得到计算结果；基于每个所述第二模型的计算结果和参数量，确定所述目标模型。4.根据权利要求3所述的提取方法，所述基于每个所述第二模型的计算结果和参数量，确定所述目标模型，包括：按照计算结果的第一权重值和参数量的第二权重值，计算每个所述第二模型的特征评分；将所述特征评分最高的第二模型确定为所述目标模型。5.根据权利要求1所述的提取方法，还包括：利用数据集对所述目标模型进行训练；其中，所述数据集中的训练数据包括多个图像样本以及每个图像样本对应的文本信息，所述文本信息包括第一文本样本和任意两个所述第一文本样本之间的相对位置。6.根据权利要求5所述的提取方法，还包括：针对所述数据集中的训练数据，确定所述第一文本样本对应的第二文本样本，其中，所述第一文本样本与所述第二文本样本...

【专利技术属性】
技术研发人员：罗林锋，王敏，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人