信息处理方法及电子设备技术

技术编号:38014252 阅读:5 留言:0更新日期:2023-06-30 10:37
本申请公开了一种信息处理方法及电子设备,方法包括:提取第一类型文件的文本特征,生成包含所述文本特征的第一类型数据集;提取第二类型文件的图像特征,生成包含所述图像特征的第二类型数据集,其中,所述第一类型文件与所述第二类型文件相关联;基于向量化的文本特征和向量化的图像特征,将所述第一类型数据集与所述第二类型数据集进行融合处理,生成第三类型数据集,其中,所述第三类型数据集用于检测所述第二类型文件的内容。测所述第二类型文件的内容。测所述第二类型文件的内容。

【技术实现步骤摘要】
信息处理方法及电子设备


[0001]本申请涉及文本及图像处理领域,特别涉及一种信息处理方法及电子设备。

技术介绍

[0002]在实际工程中,工作人员需要检查工程图纸是否包含不规范设计或不合理的内容。工程图纸数量庞大而且内容繁杂,如果仅凭人力检查往往需要大量人力和时间成本。目前主要通过机器学习或神经网络识别工程图纸的图元等信息,并通过与标准的图元文件作对比,以此来对图纸进行检查,但是没有将图纸和其相关的设计文档结合起来给出一个更全面,准确率更高的图纸检查模型。

技术实现思路

[0003]本申请实施例提供一种信息处理方法及电子设备。
[0004]一方面,本申请实施例提供了一种信息处理方法,包括:
[0005]提取第一类型文件的文本特征,生成包含所述文本特征的第一类型数据集;
[0006]提取第二类型文件的图像特征,生成包含所述图像特征的第二类型数据集,其中,所述第一类型文件与所述第二类型文件相关联;
[0007]基于向量化的文本特征和向量化的图像特征,将所述第一类型数据集与所述第二类型数据集进行融合处理,生成第三类型数据集,其中,所述第三类型数据集用于检测所述第二类型文件的内容。
[0008]作为可选,所述提取第一类型文件的文本特征,生成包含所述文本特征的第一类型数据集,包括:
[0009]识别所述第一类型文件的标记,并基于所述标记将所述第一类型文件进行拆分,形成至少一个文本集,其中,所述文本集与所述第二类型文件的内容相关联;
[0010]基于语义编码器,将所述文本集包含的文本单元进行向量化,生成所述第一类型数据集。
[0011]作为可选,所述提取第二类型文件的图像特征,生成包含所述图像特征的第二类型数据集,包括:
[0012]基于所述第二类型文件中的图像元素,对所述第二类型文件进行裁剪,形成至少一个图像集,其中,所述图像集与所述文本集相对应;
[0013]基于卷积神经网络,将所述图像集包含的图像单元进行向量化,生成所述第二类型数据集。
[0014]作为可选,所述基于所述第二类型文件中的图像元素,对所述第二类型文件进行裁剪,形成至少一个图像集,包括:
[0015]对所述第二类型文件进行文本识别,提取所述第二类型文件中的文本信息;
[0016]通过图像匹配算法,将所述文本信息与所述第二类型文件中的图像元素进行关联,形成所述图像元素的标注信息;
[0017]基于所述图像元素的标注信息,将文本集与该图像元素进行匹配,筛选与所述文本集相关联的图像元素,其中,所述文本集由所述第一类型文件拆分得到;
[0018]基于筛选出的所述图像元素,对所述第二类型文件进行裁剪,形成至少一个图像集。
[0019]作为可选,所述方法还包括:
[0020]基于图像编码器,提取所述第二类型文件包含的每个图像的图像特征;
[0021]通过设置所述图像编码器的输出通道数,控制所述图像特征与所述第一类型文件的文本特征具有相同的维度。
[0022]作为可选,所述基于向量化的文本特征和向量化的图像特征,将所述第一类型数据集与所述第二类型数据集进行融合处理,生成第三类型数据集,包括:
[0023]通过第一预设函数,计算所述第二类型文件包含的图像特征的均值,其中,所述图像特征的均值表征所述第二类型文件的图像信息。
[0024]作为可选,所述基于向量化的文本特征和向量化的图像特征,将所述第一类型数据集与所述第二类型数据集进行融合处理,生成第三类型数据集,还包括:
[0025]基于所述图像特征的均值以及所述向量化的文本特征,通过第二预设函数,计算所述文本特征的第一特征阈值;
[0026]基于所述图像特征的均值以及所述向量化的图像特征,通过第三预设函数,计算所述图像特征的第二特征阈值;
[0027]通过第四预设函数,将所述第一特征阈值和所述第二特征阈值进行加权求和,生成所述第三类型数据集。
[0028]作为可选,所述方法还包括:
[0029]通过第五预设函数,计算所述第三类型数据集的概率输出值;
[0030]基于所述概率输出值,检测所述第二类型文件的内容。
[0031]另一方面,本申请实施例还提供了一种电子设备,包括:
[0032]第一提取模块,其配置为,提取第一类型文件的文本特征,生成包含所述文本特征的第一类型数据集;
[0033]第二提取模块,其配置为,提取第二类型文件的图像特征,生成包含所述图像特征的第二类型数据集,其中,所述第一类型文件与所述第二类型文件相关联;
[0034]处理模块,其配置为,基于向量化的文本特征和向量化的图像特征,将所述第一类型数据集与所述第二类型数据集进行融合处理,生成第三类型数据集,其中,所述第三类型数据集用于检测所述第二类型文件的内容。
[0035]另一方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有可执行程序,所述处理器执行所述可执行程序以实现上述方法的步骤。
附图说明
[0036]图1为本申请实施例的信息处理方法的流程图;
[0037]图2为本申请实施例的信息处理方法的一个实施例的流程图;
[0038]图3为本申请实施例的信息处理方法的另一个实施例的流程图;
[0039]图4为本申请实施例的信息处理方法的一个具体实施例的流程图;
[0040]图5为本申请实施例的信息处理方法的另一流程图;
[0041]图6为本申请实施例的信息处理方法又一个实施例的流程图;
[0042]图7为本申请一个实施例的电子设备的结构框图;
[0043]图8为本申请一个实施例的另一电子设备的结构框图。
具体实施方式
[0044]此处参考附图描述本申请的各种方案以及特征。
[0045]应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
[0046]包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
[0047]通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
[0048]还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式。
[0049]当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
[0050]此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,包括:提取第一类型文件的文本特征,生成包含所述文本特征的第一类型数据集;提取第二类型文件的图像特征,生成包含所述图像特征的第二类型数据集,其中,所述第一类型文件与所述第二类型文件相关联;基于向量化的文本特征和向量化的图像特征,将所述第一类型数据集与所述第二类型数据集进行融合处理,生成第三类型数据集,其中,所述第三类型数据集用于检测所述第二类型文件的内容。2.根据权利要求1所述的方法,所述提取第一类型文件的文本特征,生成包含所述文本特征的第一类型数据集,包括:识别所述第一类型文件的标记,并基于所述标记将所述第一类型文件进行拆分,形成至少一个文本集,其中,所述文本集与所述第二类型文件的内容相关联;基于语义编码器,将所述文本集包含的文本单元进行向量化,生成所述第一类型数据集。3.根据权利要求2所述的方法,所述提取第二类型文件的图像特征,生成包含所述图像特征的第二类型数据集,包括:基于所述第二类型文件中的图像元素,对所述第二类型文件进行裁剪,形成至少一个图像集,其中,所述图像集与所述文本集相对应;基于卷积神经网络,将所述图像集包含的图像单元进行向量化,生成所述第二类型数据集。4.根据权利要求3所述的方法,所述基于所述第二类型文件中的图像元素,对所述第二类型文件进行裁剪,形成至少一个图像集,包括:对所述第二类型文件进行文本识别,提取所述第二类型文件中的文本信息;通过图像匹配算法,将所述文本信息与所述第二类型文件中的图像元素进行关联,形成所述图像元素的标注信息;基于所述图像元素的标注信息,将文本集与该图像元素进行匹配,筛选与所述文本集相关联的图像元素,其中,所述文本集由所述第一类型文件拆分得到;基于筛选出的所述图像元素,对所述第二类型文件进行裁剪,形成至少一个图像集。5.根据权利要求3所述的方法,所述方法还包括:基于图像编码器,提取所述第二类型文件包含的每...

【专利技术属性】
技术研发人员:王小惠金宝宝张成松
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1