一种基于机器学习模型的版式数据流文件转换的评估方法技术

技术编号：35552057 阅读：13 留言：0更新日期：2022-11-12 15:32

本发明专利技术涉及数据识别领域，具体涉及一种基于机器学习模型的版式数据流文件转换的评估方法，包括以下步骤：步骤一，获取训练样本集；步骤二，利用训练样本集对构建的神经网络模型进行训练，得到训练好的神经网络模型；步骤三，利用训练好的神经网络模型，对待测的版式数据流文件的转换质量进行评估。即本发明专利技术的方案能够通过获取训练样本集，对神经网络模型进行训练，能够实现版式数据流文件的转换质量的快速、高效评估。高效评估。高效评估。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习模型的版式数据流文件转换的评估方法

[0001]本专利技术涉及数据识别领域，具体为一种基于机器学习模型的版式数据流文件转换的评估方法。

技术介绍

[0002]随着全球数字化和信息化的发展，电子文档的大量产生给人们生活带来了翻天覆地的变化，在许多领域和应用场景下也逐渐取代了纸质文档成为人们主要的阅读和处理的对象。
[0003]而电子文档大部分是以PDF、PNG等格式存储的版式数据流文件；然而版式数据流文件却不适合在不同屏幕或窗口尺寸的终端或媒体上阅读和使用。比如为了在小屏幕终端上阅读A4版面的版式数据流文件，由于缺乏文字行/列的可回流功能，需要把页面缩小到屏幕尺寸才能表示一完整行/列。但是当大版面书籍缩小到屏幕尺寸时，文字却容易看不清楚；或者需要根据阅读位置来不停地滚动文件页面，以完成各行/列的完整阅读。
[0004]为了支持在不同尺寸终端或媒体上阅读版式数据流文件，现有对版式数据流文件进行可回流转换处理，能够得到多种不同格式的可回流文件，如文字格式TXT、HTML和WORD文件等。但是，不同文字格式的可回流文件的排版、格式也是不同的，也即阅读效果不同；因此如何确定一种效果更好的可回流转换处理评估方法，以便为用户提供更好的阅读体验。

技术实现思路

[0005]为了解决上述技术问题，本专利技术的目的在于提供一种基于机器学习模型的版式数据流文件转换的评估方法，所采用的技术方案具体如下：本专利技术提供的一种基于机器学习模型的版式数据流文件转换的评估方法，包括以下步骤：步骤一，获...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习模型的版式数据流文件转换的评估方法，其特征在于，包括以下步骤：步骤一，获取训练样本集；步骤二，利用训练样本集对构建的神经网络模型进行训练，得到训练好的神经网络模型；步骤三，利用训练好的神经网络模型，对待测的版式数据流文件的转换质量进行评估；所述训练样本集的获取过程为：分别提取版式数据流文件在转换前和转换后的感兴趣区域，得到若干感兴趣区域对，每个感兴趣区域对均包括转换前感兴趣区域和转换后感兴趣区域；计算任意一个感兴趣区域对内的转换误差绝对值，进而得到版式数据流文件的转换误差值之和；对每个感兴趣区域对内的转换前感兴趣区域和转换后感兴趣区域分别进行凸包检测，得到对应的两个凸包；将每个凸包进行傅里叶变换得到频域信息，得到对应的两个频域信号，并将两个频域信号分别作为该感兴趣区域对内的转换前形态向量和转换后形态向量；根据所述的转换前形态向量和转换后形态向量，得到转换误差分布特征，得到所有感兴趣区域对的转换误差分布特征序列，基于所述转换误差分布特征序列，得到转换异样度；基于各版式数据流文件的转换异样度以及转换误差值之和，对不同的版式数据流文件进行分类，得到不同的类别簇；对各类别簇进行统计分析，得到类型描述子；计算类型描述子的隶属度，当隶属度大于等于阈值时，则版式数据流文件转换正常，将其作为训练样本，直至得到训练样本集。2.根据权利要求1所述的基于机器学习模型的版式数据流文件转换的评估方法，其特征在于，神经网络模型的输入为各版式数据流文件的转换异样度以及转换误差值之和，输出为隶属度。3.根据权利要求1所述的基于机器学习模型的版式数据流文件转换的评估方法，其特征在于，所述转换误差分布特征为：计算各感兴趣区域对内的转换前形态向量和转换后形态向量的余弦相似度。4.根据权利要求...

【专利技术属性】
技术研发人员：胡夕国，胡玥，
申请(专利权)人：南通中泓网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人