一种专业文档的内容提取方法、装置、设备及存储介质制造方法及图纸

技术编号:37478893 阅读:11 留言:0更新日期:2023-05-07 09:19
本发明专利技术公开了一种专业文档的内容提取方法、装置、设备及存储介质。该方法包括:将专业文档的文档图像输入文档目标检测网络模型,截取得到所述文档图像中各数据格式的局部文档图像,所述数据格式包括文字、表格和图片中至少一种;将各数据格式的局部文档图像分别进行文字识别处理,并提取处理结果得到数据格式统一的可编辑文件;通过数据模型对所述可编辑文件进行数据清洗得到目标可编辑文件。本发明专利技术实施例可以提高对专业文档内容的提取效率。施例可以提高对专业文档内容的提取效率。施例可以提高对专业文档内容的提取效率。

【技术实现步骤摘要】
一种专业文档的内容提取方法、装置、设备及存储介质


[0001]本专利技术涉及信息处理
,尤其涉及一种专业文档的内容提取方法、装置、设备及存储介质。

技术介绍

[0002]目前大部分的电子行业和微电子行业的不可编辑专业文档都存在整理为可编辑文档,以便进行数据分析等数据处理的需求。与非专业文档不同的是,这些专业文档中通常拥有大量的格式不固定的表格、曲线图等包含重要信息的非文本内容,例如不规整的pdf的文字、图片和表格,非文本内容的存在导致整理难度很大。
[0003]目前对于这些格式复杂、不可编辑的专业文档,通常需要人工提取和整理内容,十分耗费时间与人力。并且当有与当前格式不相同的文档需要提取文档内容时,固化的数据模型或者人力需要重新去学习或查看,通用性极差。

技术实现思路

[0004]本专利技术提供了一种专业文档的内容提取方法、装置、设备及存储介质,以解决提高对专业文档内容的提取效率。
[0005]根据本专利技术的一方面,提供了一种专业文档的内容提取方法,包括:
[0006]将专业文档的文档图像输入文档目标检测网络模型,截取得到所述文档图像中各数据格式的局部文档图像,所述数据格式包括文字、表格和图片中至少一种;
[0007]将各数据格式的局部文档图像分别进行文字识别处理,并提取处理结果得到数据格式统一的可编辑文件;
[0008]通过数据模型对所述可编辑文件进行数据清洗得到目标可编辑文件。
[0009]根据本专利技术的另一方面,提供了一种专业文档的内容提取装置,包括:
[0010]文档图像截取模块,用于将专业文档的文档图像输入文档目标检测网络模型,截取得到所述文档图像中各数据格式的局部文档图像,所述数据格式包括文字、表格和图片中至少一种;
[0011]文档图像识别模块,用于将各数据格式的局部文档图像分别进行文字识别处理,并提取处理结果得到数据格式统一的可编辑文件;
[0012]文件数据清洗模块,用于通过数据模型对所述可编辑文件进行数据清洗得到目标可编辑文件。
[0013]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的专业文档的内容提取方法。
[0017]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的专业文档的内容提取方法。
[0018]本专利技术实施例通过文档目标检测网络模型将文档各个部分精准的切割分类,包括文字、表格、图片等;并利用机器学习制作的模型,将数据可以存储成各种类型的文件。实现将各种不可编辑、不同样式的专业文档的数据内容自动化提取的功能。此方法可以自动提取海量数据,省去了繁琐的人力工作,节省了大量的时间;且适用性强,准确率高,可以适用大部分文档,有效解决了部分专业性文档数据提取困难的问题。此外,通过此方案还可以获得一个标准的文档数据标注集,也可以用于其他文档数据模型制作等需求使用,进一步提高了商业价值。
[0019]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是根据本专利技术一实施例提供的一种专业文档的内容提取方法的流程图;
[0022]图2是根据本专利技术又一实施例提供的一种专业文档的内容提取方法的流程图;
[0023]图3是根据本专利技术又一实施例提供的一种专业文档的内容提取装置的结构示意图;
[0024]图4是实现本专利技术实施例的电子设备的结构示意图。
具体实施方式
[0025]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0026]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0027]图1为本专利技术一实施例提供的一种专业文档的内容提取方法的流程图,本实施例可适用于为了解决专业、不可编辑文档内容无法自动化提取成可编辑文档,训练并使用文
档目标检测网络模型和数据模型来提取专业、不可编辑文档中内容,并形成专业的模型数据集与可编辑数据集,以进行其他数据开发操作,进一步实现商业价值的情况,该方法可以由专业文档的内容提取装置来执行,该装置可以采用硬件和/或软件的形式实现,该装置可配置于具备相应数据处理能力的电子设备中。如图1所示,该方法包括:
[0028]S110、将专业文档的文档图像输入文档目标检测网络模型,截取得到所述文档图像中各数据格式的局部文档图像,所述数据格式包括文字、表格和图片中至少一种。
[0029]S120、将各数据格式的局部文档图像分别进行文字识别处理,并提取处理结果得到数据格式统一的可编辑文件。
[0030]S130、通过数据模型对所述可编辑文件进行数据清洗得到目标可编辑文件。
[0031]其中,文档目标检测(Documentobjectsegmentationdetection、DOSD)网络模型通过利用训练数据集对DOSD网络训练得到,用于识别文档图像中存在的不同数据格式的文字、表格和图片等文档内容,并标注出这些文档内容在文档图像中的位置。
[0032]具体的,利用训练数据集对DOSD网络进行训练,得到DOSD网络模型。将专业文档的任一页文档图像输入DOSD网络模型,DOSD网络模型根据不同数据格式的特征,利用文档图像的特征图预测文档图像中不同数据格式的所在位置,并以画框的进行标注。根据文档图像中被标注的多个画框,对文档图像进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种专业文档的内容提取方法,其特征在于,所述方法包括:将专业文档的文档图像输入文档目标检测网络模型,截取得到所述文档图像中各数据格式的局部文档图像,所述数据格式包括文字、表格和图片中至少一种;将各数据格式的局部文档图像分别进行文字识别处理,并提取处理结果得到数据格式统一的可编辑文件;通过数据模型对所述可编辑文件进行数据清洗得到目标可编辑文件。2.根据权利要求1所述的方法,其特征在于,所述将专业文档的文档图像输入文档目标检测网络模型,截取得到所述文档图像中各数据格式的局部文档图像包括:通过文档目标检测网络模型提取专业文档的文档图像的特征图;对所述特征图进行候选框提取,并输入预测网络进行预测画框递归得到特征分割图;根据所述特征分割图对所述文档图像进行拆分截取,得到所述文档图像中各数据格式的局部文档图像。3.根据权利要求1所述的方法,其特征在于,所述将专业文档的文档图像输入文档目标检测网络模型,截取得到所述文档图像中各数据格式的局部文档图像包括:将训练文档转换为训练文档图像,并确定所述训练文档图像中各局部文档图像的数据格式标签;根据所述各局部文档图像的数据格式标签,生成训练数据集;将所述训练数据集输入文档目标检测网络进行训练处理,生成符合参数要求的文档目标检测网络模型。4.根据权利要求1所述的方法,其特征在于,所述通过数据模型对所述可编辑文件进行数据清洗,得到符合使用条件的目标可编辑文件包括:对所述可编辑文件进行分词,并将分词后的可编辑文件输入数据模型;通过数据模型对所述可编辑文件中的文本内容进行匹配对齐,并清洗得到目标可编辑文件。5.根据权利要求3所述的方法,其特征在于,所述数据模型为根据机器学习算法和专业文本数据集训练的机器学习数据模型。6.一种专业文档的内容提取装置,其特征在于,所述装置包括:文档图像截取模块,用于将专业文档的文档...

【专利技术属性】
技术研发人员:阎石
申请(专利权)人:深圳艾斯科技平台有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1