一种文件转换方法、计算机设备和存储介质技术

技术编号:32519203 阅读:21 留言:0更新日期:2022-03-02 11:19
本发明专利技术实施例提供了一种文件转换方法、装置、计算机设备和介质,该方法包括:将源文件每页原始页面转换为第一图像数据,针对第一图像数据,在按照排版划分的每个版面中检测内容类型单一的区域,类型包括适于光学字符识别的第一类型、不适于光学字符识别的第二类型,对区域识别符合排版的顺序,对属于第一类型的区域执行光学字符识别,得到可编辑内容,按照顺序将可编辑内容与属于第二类型的区域按照排版合并为可编辑的目标页面,最后将目标页面合并为可编辑目标文件。本发明专利技术实施例提供的方法通过在文件转换的过程中引入将源文件中各区域进行分类的操作以及排序操作,减少了文字识别错乱的概率。错乱的概率。错乱的概率。

【技术实现步骤摘要】
一种文件转换方法、计算机设备和存储介质


[0001]本专利技术实施例涉及文件格式的
,尤其涉及一种文件转换方法、计算机设备和存储介质。

技术介绍

[0002]在以往的生活中,人们常选择将大量信息记录在纸质文档上,随着计算机信息技术的发展,为适应信息时代数据检索、数据挖掘的工作,信息的记录逐渐采用数字化的方式,信息的传输也相应地采用通过网络和电子文件进行传输的方式。
[0003]在进行电子文件传输时,传输内容的稳定性和传输速度作为电子文件传输的评价指标都受到广泛关注。PDF(Portable Document Format,便携式文档结构)是一种电子文件格式,该格式针对进行传输的电子文件使用工业标准的压缩算法,缩小了电子文件体积便于传输。该格式下的电子文件本身也不依赖生成该电子文件的操作系统的语言、字体及显示设备,即PDF格式电子文件在用于保存和显示源文件的字体、格式、颜色和图形时,在Windows或UNIX、OS等系统中是通用的,电子文件内容的显示不受打开文件系统变化的影响,保障了传输内容的稳定性。PDF格式电子文件在确保传输内容稳定性的同时,还表现出另一种特点,即文件内容难以编辑、检索或从中摘取文本或图片。因此,在实际应用文件的场景中,用户将对PDF格式电子文件中的内容进行地提取与还原,由于通过人工完成PDF格式电子文件提取还原的过程耗费时间长,不适应于大规模地针对PDF格式电子文件的内容提取,因此开发者提出了一些转换文件格式的方法,用于简化提取和还原文件内容的过程。
[0004]目前转换文件主要通过光学字符识别(Optical Character Recognition,光学字符识别)工具完成,当下的一些光学字符识别工具用于转换文件的内容时,通常先将文件的文件转化为多张图片的集合,然后对每张图片进行光学字符识别识别,将完成光学字符识别识别的图片集合起来即得到文件的转换结果。当文件每页的内容存在不固定的版式结构,例如一页单列或一页双列且每页混杂着表格、图片等非文字内容时,直接使用上述的光学字符识别工具进行识别则会出现表格部分、图片部分中的文字对纯文字区域的识别形成干扰,使识别过程处于噪音多杂质多状态的情况,从而识别结果易于出现错别字和异常字符。且上述光学字符识别工具在完成光学字符识别操作后通常仍按照自上而下的顺序排列识别到的文字内容,对于非一页单列的PDF文件排版格式来说,例如一页双列,阅读顺序在先的文字并不一定位置在顶部,因此识别结束后会出现内容错乱的问题。

技术实现思路

[0005]本专利技术实施例提出了一种文件转换方法、装置、计算机设备和存储介质,以解决文件转换格式后内容错乱的问题。
[0006]第一方面,本专利技术实施例提供了一种文件转换方法,包括:
[0007]将源文件中每页原始页面转换为第一图像数据;
[0008]针对每帧所述第一图像数据,在按照排版划分的每个版面中检测内容类型单一的
区域,所述类型包括适于光学字符识别的第一类型、不适于光学字符识别的第二类型;
[0009]对所述区域识别符合所述排版的顺序;
[0010]对属于所述第一类型的所述区域执行光学字符识别,得到可编辑内容;
[0011]按照所述顺序将所述可编辑内容与属于所述第二类型的所述区域按照所述排版合并为可编辑的目标页面;
[0012]将所述目标页面合并为可编辑目标文件。
[0013]第二方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:
[0014]一个或超过一个处理器;
[0015]存储器,用于存储一个或超过一个程序;
[0016]当所述一个或超过一个程序被所述一个或超过一个处理器执行,使得所述一个或超过一个处理器实现如第一方面所述的文件转换方法。
[0017]第三方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文件转换方法。
[0018]本专利技术实施例中,通过将源文件中每页原始页面转换为图像,并针对每帧转换得到的图像,分类为适于光写字符识别的第一类型的区域、不适于光写字符识别的第二类型的区域,对不同类型的区域识别符合排版的顺序,然后保存这一顺序,再针对属于第一类型的区域执行光写字符识别的操作,得到可编辑的内容,按照保存顺序将可编辑的内容与属于第二类型的区域合并为可编辑的目标页面,最后将目标页面合并为可编辑的目标文件,从而将难以编辑或无法从中摘取文字的源文件转化为可编辑的文件,实现源文件的格式转换,帮助用户针对源文件中的内容进行提取,在转化过程中本实施例根据源文件的排版顺序进行可编辑的内容与属于第二类型的区域的合并,从而使目标文件的排版和源文件相同,实现原文件的还原。
[0019]其中本实施例通过将源文件转化的图片中各个区域,划分为两种类型,针对适于光学字符识别的区域进行字符识别,避免了将不适于光学字符识别的区域中的文字识别出来,从而解决了在之后的对可编辑的内容进行排版时识别到不适于光学字符识别的区域中的文字,而引起的识别错乱问题,进一步的本实施例中预先识别并保存一帧图像中各区域的排序信息,根据排序信息进行可编辑的内容和不适于光学字符识别区域的合并,得到目标页面,目标页面中各区域的位置与源文件相同,避免了在PDF文件排版格式为一页双列或三列的竖直排版情况下,直接对PDF格式电子文件进行光学文字识别,识别顺序为从上往下从左往右,未考虑一页文件中存在超过一个版面而导致提取文字的分段错乱、文字排列不符合阅读顺序问题。最后,本专利技术实施例提供的技术方案通过在文件转换的过程中引入将源文件中各区域进行分类的操作以及排序操作,减少了文字识别错乱的概率,相比于
技术介绍
适用于多种排版格式的电子文件的转换,提升了电子文件转换的准确率进而减少了人工对转换内容的修正时间,提升了电子文件格式转换的效率。
附图说明
[0020]图1为本专利技术实施例一提供的一种文件转换方法的流程图;
[0021]图2为本专利技术实施例一提供的一种坐标空间的示意图;
[0022]图3为本专利技术实施例二提供的一种文件转换装置的结构示意图;
[0023]图4为本专利技术实施例三提供的一种计算机设备的结构示意图。
具体实施方式
[0024]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0025]需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本专利技术实施例并不受所描述的动作顺序的限制,因为依据本专利技术实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本专利技术实施例所必须的。
[0026]实施例一
[0027]图1为本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件转换方法,其特征在于,包括:将源文件中每页原始页面转换为第一图像数据;针对每帧所述第一图像数据,在按照排版划分的每个版面中检测内容类型单一的区域,所述类型包括适于光学字符识别的第一类型、不适于光学字符识别的第二类型;对所述区域识别符合所述排版的顺序;对属于所述第一类型的所述区域执行光学字符识别,得到可编辑内容;按照所述顺序将所述可编辑内容与属于所述第二类型的所述区域按照所述排版合并为可编辑的目标页面;将所述目标页面合并为可编辑目标文件。2.根据权利要求1所述的方法,其特征在于,所述针对每帧所述第一图像数据,在按照排版划分的每个版面中检测内容类型单一的区域,包括:确定结构属于U型网络的图像分割模型;针对每帧所述第一图像数据,将所述第一图像数据输入所述图像分割模型,以在按照排版划分的每个版面中检测内容类型单一的区域。3.根据权利要求2所述的方法,其特征在于,所述确定结构属于U型网络的图像分割模型,包括:获取结构属于U型网络的图像分割模型;获取第二图像数据,所述第二图像数据由样本文件中的样本页面转换,所述第二图像数据中标记有按照排版划分的每个版面中检测内容类型单一的区域,所述类型包括适于光学字符识别的第一类型、不适于光学字符识别的第二类型;将所述第二图像数据输入所述图像分割模型,以在按照排版划分的每个版面中预测内容类型单一的区域;计算标注的所述区域与预测的所述区域之间的差异,作为损失值;按照所述损失值更新所述图像分割模型;判断当前迭代的次数是否达到预设的阈值;若是,则确定所述图像分割模型训练完成,若否,则返回执行所述将所述第二图像数据输入所述图像分割模型,以在按照排版划分的每个版面中预测内容类型单一的区域。4.根据权利要求2所述的方法,其特征在于,所述确定结构属于U型网络的图像分割模型,还包括:获取第三图像数据,所述第三图像数据由样本文件中的样本页面转换,所述第三图像数据中标记有按照排版划分的每个版面中检测内容类型单一的区域,所述类型包括适于光学字符识别的第一类型、不适于光学字符识别的第二类型;将所述第三图像数据输入所述图像分割模型,以在按照排版划分的每个版面中预测内容类型单一的所述区域;判断标注的所述区域与预测的所述区域的边缘是否吻合;若是,则确定所述图像分割模型通过测试;若否,则返回执行所述将所述第二图像数据输入所述图像分割模型,以在按照排版划分的每个版面中预测内容类型单一的区域。5.根据权利要求1所述的方法,其特征在于,所述对所述区域识别符合所述排版的顺
序,包括:若所述第一图像数据中包含所述第一区域,则对每个所述第一区域取第一标识点,所述第一区域为所述第一类型的所述区域,所述第一标识点为位于所述第一区域的最小外接矩形的左上角的点;计算每个所述第一区域的所述第一标识点与第一原点之间的第一距离,所述第一原点为位于所述第一图像数据左上角的点;按照所述第一距离对所述第一区域进行升序排序,得到符合所述排版的顺序;若两个所述第一区域的所述第一距离相等,则将横坐标较小的所述第一区域排序在横坐标较大的所述第一区域之前。6.根据权利要求1所述的方法,其特征在于,所述对所述区域识别符合所述排版的顺序,还包括:若所述第一图像数据中包含第一区域、第二区域,则对每个所述第一区域取第一标识点,对每个所述第二区域取第二标识点,所述第一区域为所述第一类型的所述区域,所述第二区域为所述第二类型的所述区域,所述第一标识...

【专利技术属性】
技术研发人员:刘一峰黄进然
申请(专利权)人:广州万孚生物技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1