一种文件信息提取方法及电子设备技术

技术编号：28735132 阅读：26 留言：0更新日期：2021-06-06 11:39

本发明专利技术实施例提供了一种文件信息提取方法及电子设备，该方法包括：从目标文件中获取所述目标图像的视觉信息和第一文字信息；将所述视觉信息和文字信息输入到预设的图像分类器中，输出得到所述目标图像的图像类型；根据与所述图像类型对应的信息提取方法，从所述目标图像中提取信息。通过本发明专利技术实施例，实现了对目标文件中目标图像的细粒度的分类，从而能够更加快速、准确得对目标图像进行信息提取。准确得对目标图像进行信息提取。准确得对目标图像进行信息提取。

全部详细技术资料下载

【技术实现步骤摘要】
一种文件信息提取方法及电子设备

[0001]本专利技术涉及数据处理
，尤其涉及一种文件信息提取方法及电子设备。

技术介绍

[0002]专利的增加和专利文件格式的广泛变化增加了对自动提取信息的需求，包括对文档图像分析和处理自动化的需求。通常，最关键的信息以结构化的方式以表格，图形，图表和图像的形式呈现。这些表，图形和图表的自动检测和分析为构建搜索引擎索引，信息检索和数据收集提供了强大的支持。
[0003]现有信息提取方法对图像的分析通常仅对单独的专利表中的图像进行，大多数专利图像分类都非常宽泛，导致对识别后的图像中的信息无法准确提取。

技术实现思路

[0004]本专利技术实施例的目的是提供一种文件信息提取方法、装置及电子设备，以解决专利图像分类非常宽泛，导致对识别后的图像中的信息无法准确提取的问题。
[0005]为了解决上述技术问题，本专利技术实施例是这样实现的：
[0006]第一方面，本专利技术实施例提供了一种文件信息提取方法，包括：
[0007]从目标文件中获取目标图像的视觉信息和第一文字信息；
[0008]将所述视觉信息和文字信息输入到预设的图像分类器中，输出得到所述目标图像的图像类型；其中，所述图像分类器为，基于深度学习模型预先以训练文件中的训练图型的视觉信息和文字信息为样本，以所述训练图型的图像类型为样本标签，进行训练后得到的；
[0009]根据与所述图像类型对应的信息提取方法，从所述目标图像中提取信息。
[0010]第二方面，本专...

【技术保护点】

【技术特征摘要】
1.一种文件信息提取方法，其特征在于，所述方法包括：从目标文件中获取目标图像的视觉信息和第一文字信息；将所述视觉信息和文字信息输入到预设的图像分类器中，输出得到所述目标图像的图像类型；其中，所述图像分类器为，基于深度学习模型预先以训练文件中的训练图型的视觉信息和文字信息为样本，以所述训练图型的图像类型为样本标签，进行训练后得到的；根据与所述图像类型对应的信息提取方法，从所述目标图像中提取信息。2.根据权利要求1所述的方法，其特征在于，所述图像分类器的训练过程采用了基于预设的应用领域与图像类型的映射关系的启发式算法。3.根据权利要求1所述的方法，其特征在于，在将所述视觉信息和文字信息输入到预设的图像分类器中，输出得到所述目标图像的图像类型的步骤后，所述方法还包括：从所述目标文件的文本中获取与所述目标图像对应的第二文字信息；根据所述第二文字信息，从所述图像类型的子类型中，确定所述目标图型的子类型。4.根据权利要求1所述的方法，其特征在于，所述从目标文件中获取所述目标图像的视觉信息和第一文字信息，包括：依次对所述目标文件中各页进行扫描，以识别是否存在所述目标图像；在识别出所述目标图像后，从所述目标图像中获取所述目标图像的视觉信息和第一文字信息。5.根据权利要求1所述的方法，其特征在于，所述目标图像包括以下至少一种：图形、图表、表格、公式和化学式。6.根据权利要求1所述的方法，其特征在于，所述图像类型包括以下至少一种：照片类；示意图类；所述示意图类包括以下至少一种：框图、状态图、电...

【专利技术属性】
技术研发人员：马库斯，
申请(专利权)人：智慧芽信息科技苏州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人