图像的信息提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39296903 阅读：21 留言：0更新日期：2023-11-07 11:04

本申请公开了一种图像的信息提取方法、装置、电子设备及存储介质。本申请的实施例涉及人工智能的机器学习以及云技术等技术领域。该方法包括：根据图像中的多个文本框各自的属性信息以及每个文本框中的字符，构建候选特征集合；通过注意力机制对候选特征进行聚合，得到聚合特征集合；根据聚合特征集合，确定每个文本框各自的预测分类结果以及每个字符各自的预测分类结果；根据每个文本框各自的预测分类结果以及每个字符各自的预测分类结果，对图像进行信息提取。本申请实施例中，实现了文本框以及字符的并行分类处理，避免了对文本框以及字符串行分类处理所导致的信息传递效率较低、误差累积的情况发生，从而提高了图像中信息提取的准确率。取的准确率。取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
图像的信息提取方法、装置、电子设备及存储介质

[0001]本申请涉及电子信息
，更具体地，涉及一种图像的信息提取方法、装置、电子设备及存储介质。

技术介绍

[0002]随着音视频处理、人工智能等底层技术不断发展，涌现了各种各样的多媒体信息，而视频则成为一种极为常见的多媒体信息。相比于文本介质，视频有着更为丰富的内容和直观的表达能力。伴随着各种视频平台的兴起，多种多样的视频内容纷至沓来，用户对于视频内容的浏览以及消费兴趣更加强烈，需求也更加多样。
[0003]目前，可以在待识别的视频中选取视频帧，通过OCR(Optical Character Recognition，光学字符识别技术)提取视频帧中的各个文本框以及各个文本框中的字符，再将各个文本框分别进行分类，得到各个文本框的分类结果，根据各个文本框的分类结果确定出满足需求的文本框，之后对满足需求的文本框中的字符进行分类，根据满足需求的文本框中各个字符的分类结果，对视频帧进行信息提取。
[0004]但是，采用该方法误差会不断累积，导致最后从视频帧中提取的信

【技术保护点】

【技术特征摘要】
1.一种图像的信息提取方法，其特征在于，所述方法包括：获取所述图像中的多个文本框各自的属性信息以及每个所述文本框中的字符；根据所述多个文本框各自的属性信息以及每个所述文本框中的字符，构建候选特征集合，所述候选特征集合包括每个所述文本框各自对应的候选特征以及每个所述字符各自对应的候选特征；通过注意力机制对所述候选特征集合中的候选特征进行聚合，得到聚合特征集合，所述聚合特征集合包括每个所述文本框各自对应的聚合特征以及每个所述字符各自对应的聚合特征；根据所述聚合特征集合中每个所述文本框对应的聚合特征，确定每个所述文本框各自的预测分类结果，并根据所述聚合特征集合中每个所述字符对应的聚合特征，确定每个所述字符各自的预测分类结果；根据每个所述文本框各自的预测分类结果以及每个所述字符各自的预测分类结果，对所述图像进行信息提取。2.根据权利要求1所述的方法，其特征在于，所述通过注意力机制对所述候选特征集合中的候选特征进行聚合，得到聚合特征集合，包括：通过注意力机制计算每个所述候选特征与所述候选特征集合中各个候选特征之间的相关性，作为每个所述候选特征各自的目标相关性；根据每个所述候选特征的目标相关性，确定每个所述候选特征对应的聚合特征。3.根据权利要求2所述的方法，其特征在于，当所述目标相关性是权重时，所述通过注意力机制计算每个所述候选特征与所述候选特征集合中各个候选特征之间的相关性，作为每个所述候选特征各自的目标相关性，包括：将每个所述候选特征分别映射到第一特征空间以及第二特征空间；根据每个所述候选特征在所述第一特征空间以及所述第二特征空间中的映射结果，确定每个所述候选特征各自的权重。4.根据权利要求1所述的方法，其特征在于，所述根据所述多个文本框各自的属性信息以及每个所述文本框中的字符，构建候选特征集合，包括：根据所述多个文本框各自的位置信息以及每个所述文本框中的字符的排列顺序，构建字符序列，所述字符序列包括所述多个文本框中的字符；根据所述字符序列以及所述多个文本框各自的属性信息，构建候选特征集合。5.根据权利要求4所述的方法，其特征在于，所述根据所述字符序列以及所述多个文本框各自的属性信息，构建候选特征集合，包括：对每个所述文本框的属性信息进行特征编码，得到每个所述文本框各自的候选特征；对所述字符序列中的每个所述字符进行特征编码，得到每个所述字符的候选特征；根据所述多个文本框各自的位置信息、所述字符序列中的各个字符的排列顺序、每个所述文本框各自的候选特征以及每个所述字符的候选特征，得到所述候选特征集合。6.根据权利要求1所述的方法，其特征在于，所述通过注意力机制对所述候选特征集合中的候选特征进行聚合，得到聚合特征集合，包括：将所述候选特征集合中的每个所述候选特征输入特征提取网络进行注意力机制运算，得到所述特征提取网络输出的每个所述候选特征各自的聚合特征。
7.根据权利要求1所述的方法，其特征在于，所述根据所述聚合特征集合中每个所述文本框对应的聚合特征，确定每个所述文本框各自的预测分类结果，包括：将所述聚合特征集合中每个所述文本框对应的聚合特征输入文本框分类器，得到所述文本分类器输出的每个所述文本框各自的预测分类结果。8.根据权利要求1所述的方法，其特征在于，所述根据所述聚合特征集合中每个所述字符对应的聚合特征，确定每个所述字符各自的预测分类结果，包括：将所述聚合特征集合中每个所述字符对应的聚合特征输入字符分类器，得到所述字符分类器输出的每个所述字符各自的预测分类结果。9.根据权利要求1所述的方法，其特征在于，所述聚合特征通过特征提取网络获得，每个所述文本框各自的分类结果通过文本框分类器获得，每个所述字符各自的分类结果通过字符分类器获得；所述方...

【专利技术属性】
技术研发人员：刘烨，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人