信息处理方法、装置及电子设备制造方法及图纸

技术编号：38764892 阅读：14 留言：0更新日期：2023-09-10 10:38

本申请公开了一种信息处理方法、装置及电子设备，该方法包括：通过图像特征提取模块和文字识别模块，分别对处理目标进行图像特征和文字特征的提取，生成相应的第一图像特征和第一文字特征；基于空洞卷积模块，分别确定第一图像特征中的特征和第一文字特征中的特征的位置信息，增加第一图像特征对应的感受野，以及第一文字特征对应的感受野；基于位置信息，利用空洞卷积模块分别对增加了感受野的第一图像特征以及第一文字特征进行特征提取，分别生成第二图像特征和第二文字特征；利用融合模型，将第二文字特征和第二图像特征进行融合，形成目标特征信息。形成目标特征信息。形成目标特征信息。

全部详细技术资料下载

【技术实现步骤摘要】
信息处理方法、装置及电子设备

[0001]本申请涉及图像文字智能识别领域，特别涉及一种信息处理方法、装置及电子设备。

技术介绍

[0002]在图像文字智能识别领域中，基于自然语言处理和图像理解的多模态模型发展迅速。它需要结合图像、文本和表格信息对处理目标(如扫描文档或PDF文件等)进行理解识别。但是目前对于处理目标的识别操作通常是使用处理目标中的特征的长度固定的位置编码(position embeddings)来实现识别操作。该方式不能对拥有较长输入序列的特征进行识别，从而影响对处理目标的内容识别结果。

技术实现思路

[0003]本申请实施例的一种信息处理方法，包括：
[0004]通过图像特征提取模块和文字识别模块，分别对处理目标进行图像特征和文字特征的提取，生成相应的第一图像特征和第一文字特征；
[0005]基于空洞卷积模块，分别确定所述第一图像特征中的特征和所述第一文字特征中的特征的位置信息，增加所述第一图像特征对应的感受野，以及所述第一文字特征对应的感受野，其中，所述感受野用于表征针对所述第一图像特征中的特征的提取范围，所述位置信息包括相对位置信息和绝对位置信息；
[0006]基于所述位置信息，利用所述空洞卷积模块分别对增加了感受野的所述第一图像特征以及所述第一文字特征进行特征提取，分别生成第二图像特征和第二文字特征；
[0007]利用融合模型，将所述第二文字特征和所述第二图像特征进行融合，形成目标特征信息。
[0008]作为可选，所述空洞卷积模块包括零填...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法，包括：通过图像特征提取模块和文字识别模块，分别对处理目标进行图像特征和文字特征的提取，生成相应的第一图像特征和第一文字特征；基于空洞卷积模块，分别确定所述第一图像特征中的特征和所述第一文字特征中的特征的位置信息，增加所述第一图像特征对应的感受野，以及所述第一文字特征对应的感受野，其中，所述感受野用于表征针对所述第一图像特征中的特征的提取范围，所述位置信息包括相对位置信息和绝对位置信息；基于所述位置信息，利用所述空洞卷积模块分别对增加了感受野的所述第一图像特征以及所述第一文字特征进行特征提取，分别生成第二图像特征和第二文字特征；利用融合模型，将所述第二文字特征和所述第二图像特征进行融合，形成目标特征信息。2.根据权利要求1所述的方法，所述空洞卷积模块包括零填充单元，在分别对增加了感受野的所述第一图像特征以及所述第一文字特征进行特征提取之前，所述方法还包括：基于所述位置信息，利用所述零填充单元增加所述第一图像特征的边缘部，以在对所述第一图像特征进行卷积操作时避免丢失所述第一图像特征中的有效信息。3.根据权利要求1所述的方法，所述通过图像特征提取模块和文字识别模块，分别对处理目标进行图像特征和文字特征的提取，包括：通过所述图像特征提取模块，在多个图像尺度分别对所述处理目标进行图像特征的提取，生成多个图像子特征；基于多个所述图像子特征，确定所述第一图像特征。4.根据权利要求1所述的方法，所述基于空洞卷积模块，分别确定所述第一图像特征中的特征和所述第一文字特征中的特征的位置信息，包括：将第一图像特征转换到二维平面中；利用所述空洞卷积模块中的二维卷积，确定第一图像特征中的特征的位置信息。5.根据权利要求1所述的方法，所述增加所述第一图像特征对应的感受野，包括：确定所述第一图像特征中的特征的像素集；基于所述像素集...

【专利技术属性】
技术研发人员：田秋雨，王敏，陈永洒，罗林锋，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人