一种文件转换方法、计算机设备和存储介质技术

技术编号：32519203 阅读：21 留言：0更新日期：2022-03-02 11:19

本发明专利技术实施例提供了一种文件转换方法、装置、计算机设备和介质，该方法包括：将源文件每页原始页面转换为第一图像数据，针对第一图像数据，在按照排版划分的每个版面中检测内容类型单一的区域，类型包括适于光学字符识别的第一类型、不适于光学字符识别的第二类型，对区域识别符合排版的顺序，对属于第一类型的区域执行光学字符识别，得到可编辑内容，按照顺序将可编辑内容与属于第二类型的区域按照排版合并为可编辑的目标页面，最后将目标页面合并为可编辑目标文件。本发明专利技术实施例提供的方法通过在文件转换的过程中引入将源文件中各区域进行分类的操作以及排序操作，减少了文字识别错乱的概率。错乱的概率。错乱的概率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文件转换方法、计算机设备和存储介质

[0001]本专利技术实施例涉及文件格式的
，尤其涉及一种文件转换方法、计算机设备和存储介质。

技术介绍

[0002]在以往的生活中，人们常选择将大量信息记录在纸质文档上，随着计算机信息技术的发展，为适应信息时代数据检索、数据挖掘的工作，信息的记录逐渐采用数字化的方式，信息的传输也相应地采用通过网络和电子文件进行传输的方式。
[0003]在进行电子文件传输时，传输内容的稳定性和传输速度作为电子文件传输的评价指标都受到广泛关注。PDF(Portable Document Format，便携式文档结构)是一种电子文件格式，该格式针对进行传输的电子文件使用工业标准的压缩算法，缩小了电子文件体积便于传输。该格式下的电子文件本身也不依赖生成该电子文件的操作系统的语言、字体及显示设备，即PDF格式电子文件在用于保存和显示源文件的字体、格式、颜色和图形时，在Windows或UNIX、OS等系统中是通用的，电子文件内容的显示不受打开文件系统变化的影响，保障了传输内容的稳定性。PDF格式电子文件在确保传输内容稳定性的同时，还表现出另一种特点，即文件内容难以编辑、检索或从中摘取文本或图片。因此，在实际应用文件的场景中，用户将对PDF格式电子文件中的内容进行地提取与还原，由于通过人工完成PDF格式电子文件提取还原的过程耗费时间长，不适应于大规模地针对PDF格式电子文件的内容提取，因此开发者提出了一些转换文件格式的方法，用于简化提取和还原文件内容的过程。
[0004]目前转换文件...

【技术保护点】

【技术特征摘要】
1.一种文件转换方法，其特征在于，包括：将源文件中每页原始页面转换为第一图像数据；针对每帧所述第一图像数据，在按照排版划分的每个版面中检测内容类型单一的区域，所述类型包括适于光学字符识别的第一类型、不适于光学字符识别的第二类型；对所述区域识别符合所述排版的顺序；对属于所述第一类型的所述区域执行光学字符识别，得到可编辑内容；按照所述顺序将所述可编辑内容与属于所述第二类型的所述区域按照所述排版合并为可编辑的目标页面；将所述目标页面合并为可编辑目标文件。2.根据权利要求1所述的方法，其特征在于，所述针对每帧所述第一图像数据，在按照排版划分的每个版面中检测内容类型单一的区域，包括：确定结构属于U型网络的图像分割模型；针对每帧所述第一图像数据，将所述第一图像数据输入所述图像分割模型，以在按照排版划分的每个版面中检测内容类型单一的区域。3.根据权利要求2所述的方法，其特征在于，所述确定结构属于U型网络的图像分割模型，包括：获取结构属于U型网络的图像分割模型；获取第二图像数据，所述第二图像数据由样本文件中的样本页面转换，所述第二图像数据中标记有按照排版划分的每个版面中检测内容类型单一的区域，所述类型包括适于光学字符识别的第一类型、不适于光学字符识别的第二类型；将所述第二图像数据输入所述图像分割模型，以在按照排版划分的每个版面中预测内容类型单一的区域；计算标注的所述区域与预测的所述区域之间的差异，作为损失值；按照所述损失值更新所述图像分割模型；判断当前迭代的次数是否达到预设的阈值；若是，则确定所述图像分割模型训练完成，若否，则返回执行所述将所述第二图像数据输入所述图像分割模型，以在按照排版划分的每个版面中预测内容类型单一的区域。4.根据权利要求2所述的方法，其特征在于，所述确定结构属于U型网络的图像分割模型，还包括：获取第三图像数据，所述第三图像数据由样本文件中的样本页面转换，所述第三图像数据中标记有按照排版划分的每个版面中检测内容类型单一的区域，所述类型包括适于光学字符识别的第一类型、不适于光学字符识别的第二类型；将所述第三图像数据输入所述图像分割模型，以在按照排版划分的每个版面中预测内容类型单一的所述区域；判断标注的所述区域与预测的所述区域的边缘是否吻合；若是，则确定所述图像分割模型通过测试；若否，则返回执行所述将所述第二图像数据输入所述图像分割模型，以在按照排版划分的每个版面中预测内容类型单一的区域。5.根据权利要求1所述的方法，其特征在于，所述对所述区域识别符合所述排版的顺
序，包括：若所述第一图像数据中包含所述第一区域，则对每个所述第一区域取第一标识点，所述第一区域为所述第一类型的所述区域，所述第一标识点为位于所述第一区域的最小外接矩形的左上角的点；计算每个所述第一区域的所述第一标识点与第一原点之间的第一距离，所述第一原点为位于所述第一图像数据左上角的点；按照所述第一距离对所述第一区域进行升序排序，得到符合所述排版的顺序；若两个所述第一区域的所述第一距离相等，则将横坐标较小的所述第一区域排序在横坐标较大的所述第一区域之前。6.根据权利要求1所述的方法，其特征在于，所述对所述区域识别符合所述排版的顺序，还包括：若所述第一图像数据中包含第一区域、第二区域，则对每个所述第一区域取第一标识点，对每个所述第二区域取第二标识点，所述第一区域为所述第一类型的所述区域，所述第二区域为所述第二类型的所述区域，所述第一标识...

【专利技术属性】
技术研发人员：刘一峰，黄进然，
申请(专利权)人：广州万孚生物技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人