信息处理方法、装置及电子设备制造方法及图纸

技术编号:38764892 阅读:14 留言:0更新日期:2023-09-10 10:38
本申请公开了一种信息处理方法、装置及电子设备,该方法包括:通过图像特征提取模块和文字识别模块,分别对处理目标进行图像特征和文字特征的提取,生成相应的第一图像特征和第一文字特征;基于空洞卷积模块,分别确定第一图像特征中的特征和第一文字特征中的特征的位置信息,增加第一图像特征对应的感受野,以及第一文字特征对应的感受野;基于位置信息,利用空洞卷积模块分别对增加了感受野的第一图像特征以及第一文字特征进行特征提取,分别生成第二图像特征和第二文字特征;利用融合模型,将第二文字特征和第二图像特征进行融合,形成目标特征信息。形成目标特征信息。形成目标特征信息。

【技术实现步骤摘要】
信息处理方法、装置及电子设备


[0001]本申请涉及图像文字智能识别领域,特别涉及一种信息处理方法、装置及电子设备。

技术介绍

[0002]在图像文字智能识别领域中,基于自然语言处理和图像理解的多模态模型发展迅速。它需要结合图像、文本和表格信息对处理目标(如扫描文档或PDF文件等)进行理解识别。但是目前对于处理目标的识别操作通常是使用处理目标中的特征的长度固定的位置编码(position embeddings)来实现识别操作。该方式不能对拥有较长输入序列的特征进行识别,从而影响对处理目标的内容识别结果。

技术实现思路

[0003]本申请实施例的一种信息处理方法,包括:
[0004]通过图像特征提取模块和文字识别模块,分别对处理目标进行图像特征和文字特征的提取,生成相应的第一图像特征和第一文字特征;
[0005]基于空洞卷积模块,分别确定所述第一图像特征中的特征和所述第一文字特征中的特征的位置信息,增加所述第一图像特征对应的感受野,以及所述第一文字特征对应的感受野,其中,所述感受野用于表征针对所述第一图像特征中的特征的提取范围,所述位置信息包括相对位置信息和绝对位置信息;
[0006]基于所述位置信息,利用所述空洞卷积模块分别对增加了感受野的所述第一图像特征以及所述第一文字特征进行特征提取,分别生成第二图像特征和第二文字特征;
[0007]利用融合模型,将所述第二文字特征和所述第二图像特征进行融合,形成目标特征信息。
[0008]作为可选,所述空洞卷积模块包括零填充单元,在分别对增加了感受野的所述第一图像特征以及所述第一文字特征进行特征提取之前,所述方法还包括:
[0009]基于所述位置信息,利用所述零填充单元增加所述第一图像特征的边缘部,以在对所述第一图像特征进行卷积操作时避免丢失所述第一图像特征中的有效信息。
[0010]作为可选,所述通过图像特征提取模块和文字识别模块,分别对处理目标进行图像特征和文字特征的提取,包括:
[0011]通过所述图像特征提取模块,在多个图像尺度分别对所述处理目标进行图像特征的提取,生成多个图像子特征;
[0012]基于多个所述图像子特征,确定所述第一图像特征。
[0013]作为可选,所述基于空洞卷积模块,分别确定所述第一图像特征中的特征和所述第一文字特征中的特征的位置信息,包括:
[0014]将第一图像特征转换到二维平面中;
[0015]利用所述空洞卷积模块中的二维卷积,确定第一图像特征中的特征的位置信息。
[0016]作为可选,所述增加所述第一图像特征对应的感受野,包括:
[0017]确定所述第一图像特征中的特征的像素集;
[0018]基于所述像素集对应的空洞的间隔数量,扩大所述第一图像特征中的特征对应的所述感受野。
[0019]作为可选,所述方法还包括:
[0020]基于需求指令,利用多层感知器,对所述目标特征信息进行相应的需求处理,其中所述需求处理包括特征分类处理以及特征识别处理。
[0021]作为可选,所述方法还包括:
[0022]通过训练数据集,对所述融合模型进行训练,其中所述训练数据集包括与所述第二文字特征对应的文字特征训练数据,以及与所述第二图像特征对应的图像特征训练数据。
[0023]作为可选,其中,所述空洞卷积模块分别与所述图像特征提取模块和所述文字识别模块连接,以分别接收所述第一图像特征和所述第一文字特征;所述融合模型分别与所述多层感知器和所述空洞卷积模块连接,所述融合模型用于将所述目标特征信息发送给所述多层感知器。
[0024]本申请实施例还提供了一种信息处理装置,包括:
[0025]提取模块,其配置为通过图像特征提取模块和文字识别模块,分别对处理目标进行图像特征和文字特征的提取,生成相应的第一图像特征和第一文字特征;
[0026]处理模块,其配置为基于空洞卷积模块,分别确定所述第一图像特征中的特征和所述第一文字特征中的特征的位置信息,增加所述第一图像特征对应的感受野,以及所述第一文字特征对应的感受野,其中,所述感受野用于表征针对所述第一图像特征中的特征的提取范围,所述位置信息包括相对位置信息和绝对位置信息;基于所述位置信息,利用所述空洞卷积模块分别对增加了感受野的所述第一图像特征以及所述第一文字特征进行特征提取,分别生成第二图像特征和第二文字特征;
[0027]融合模块,其配置为利用融合模型,将所述第二文字特征和所述第二图像特征进行融合,形成目标特征信息。
[0028]本申请实施例还提供了一种电子设备,包括处理器和存储器,所述存储器中存储有可执行程序,所述存储器执行所述可执行程序以进行如上所述的方法的步骤。
[0029]本申请实施例的该信息处理方法,能够对包含较为复杂的图像和文字特征的处理目标进行分别识别,利用空洞卷积的处理方式实现分别对处理目标的图像特征和文字特征的识别,即使针对拥有较长输入序列的特征也能够进行准确识别,进而确定出处理目标的准确内容。
附图说明
[0030]图1为本申请实施例的信息处理方法的流程图;
[0031]图2为本申请实施例的图1中步骤S100的一个实施例的流程图;
[0032]图3为本申请实施例的图1中步骤S200的一个实施例的流程图;
[0033]图4为本申请实施例的图1中步骤S200的另一个实施例的流程图;
[0034]图5为本申请实施例的分别对第一文字特征和第一图像特征进行特征提取的流程
示意图;
[0035]图6为本申请实施例的空洞卷积方式与一般卷积方式的区别示意图;
[0036]图7为本申请实施例的Zero

padding过程示意图;
[0037]图8为本申请实施例的信息处理方法的一个具体实施例的流程图;
[0038]图9为本申请实施例的信息处理装置的结构框图。
具体实施方式
[0039]此处参考附图描述本申请的各种方案以及特征。
[0040]应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
[0041]包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
[0042]通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
[0043]还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式。
[0044]当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
[0045]此后参照附图描述本申请的具体实施例;然而,应当理解,所申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,包括:通过图像特征提取模块和文字识别模块,分别对处理目标进行图像特征和文字特征的提取,生成相应的第一图像特征和第一文字特征;基于空洞卷积模块,分别确定所述第一图像特征中的特征和所述第一文字特征中的特征的位置信息,增加所述第一图像特征对应的感受野,以及所述第一文字特征对应的感受野,其中,所述感受野用于表征针对所述第一图像特征中的特征的提取范围,所述位置信息包括相对位置信息和绝对位置信息;基于所述位置信息,利用所述空洞卷积模块分别对增加了感受野的所述第一图像特征以及所述第一文字特征进行特征提取,分别生成第二图像特征和第二文字特征;利用融合模型,将所述第二文字特征和所述第二图像特征进行融合,形成目标特征信息。2.根据权利要求1所述的方法,所述空洞卷积模块包括零填充单元,在分别对增加了感受野的所述第一图像特征以及所述第一文字特征进行特征提取之前,所述方法还包括:基于所述位置信息,利用所述零填充单元增加所述第一图像特征的边缘部,以在对所述第一图像特征进行卷积操作时避免丢失所述第一图像特征中的有效信息。3.根据权利要求1所述的方法,所述通过图像特征提取模块和文字识别模块,分别对处理目标进行图像特征和文字特征的提取,包括:通过所述图像特征提取模块,在多个图像尺度分别对所述处理目标进行图像特征的提取,生成多个图像子特征;基于多个所述图像子特征,确定所述第一图像特征。4.根据权利要求1所述的方法,所述基于空洞卷积模块,分别确定所述第一图像特征中的特征和所述第一文字特征中的特征的位置信息,包括:将第一图像特征转换到二维平面中;利用所述空洞卷积模块中的二维卷积,确定第一图像特征中的特征的位置信息。5.根据权利要求1所述的方法,所述增加所述第一图像特征对应的感受野,包括:确定所述第一图像特征中的特征的像素集;基于所述像素集...

【专利技术属性】
技术研发人员:田秋雨王敏陈永洒罗林锋
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1