一种基于机器学习模型的版式数据流文件转换的评估方法技术

技术编号:35552057 阅读:13 留言:0更新日期:2022-11-12 15:32
本发明专利技术涉及数据识别领域,具体涉及一种基于机器学习模型的版式数据流文件转换的评估方法,包括以下步骤:步骤一,获取训练样本集;步骤二,利用训练样本集对构建的神经网络模型进行训练,得到训练好的神经网络模型;步骤三,利用训练好的神经网络模型,对待测的版式数据流文件的转换质量进行评估。即本发明专利技术的方案能够通过获取训练样本集,对神经网络模型进行训练,能够实现版式数据流文件的转换质量的快速、高效评估。高效评估。高效评估。

【技术实现步骤摘要】
一种基于机器学习模型的版式数据流文件转换的评估方法


[0001]本专利技术涉及数据识别领域,具体为一种基于机器学习模型的版式数据流文件转换的评估方法。

技术介绍

[0002]随着全球数字化和信息化的发展,电子文档的大量产生给人们生活带来了翻天覆地的变化,在许多领域和应用场景下也逐渐取代了纸质文档成为人们主要的阅读和处理的对象。
[0003]而电子文档大部分是以PDF、PNG等格式存储的版式数据流文件;然而版式数据流文件却不适合在不同屏幕或窗口尺寸的终端或媒体上阅读和使用。比如为了在小屏幕终端上阅读A4版面的版式数据流文件,由于缺乏文字行/列的可回流功能,需要把页面缩小到屏幕尺寸才能表示一完整行/列。但是当大版面书籍缩小到屏幕尺寸时,文字却容易看不清楚;或者需要根据阅读位置来不停地滚动文件页面,以完成各行/列的完整阅读。
[0004]为了支持在不同尺寸终端或媒体上阅读版式数据流文件,现有对版式数据流文件进行可回流转换处理,能够得到多种不同格式的可回流文件,如文字格式TXT、HTML和WORD文件等。但是,不同文字格式的可回流文件的排版、格式也是不同的,也即阅读效果不同;因此如何确定一种效果更好的可回流转换处理评估方法,以便为用户提供更好的阅读体验。

技术实现思路

[0005]为了解决上述技术问题,本专利技术的目的在于提供一种基于机器学习模型的版式数据流文件转换的评估方法,所采用的技术方案具体如下:本专利技术提供的一种基于机器学习模型的版式数据流文件转换的评估方法,包括以下步骤:步骤一,获取训练样本集;步骤二,利用训练样本集对构建的神经网络模型进行训练,得到训练好的神经网络模型;步骤三,利用训练好的神经网络模型,对待测的版式数据流文件的转换质量进行评估;所述训练样本集的获取过程为:分别提取版式数据流文件在转换前和转换后的感兴趣区域,得到若干感兴趣区域对,每个感兴趣区域对均包括转换前感兴趣区域和转换后感兴趣区域;计算任意一个感兴趣区域对内的转换误差绝对值,进而得到版式数据流文件的转换误差值之和;对每个感兴趣区域对内的转换前感兴趣区域和转换后感兴趣区域分别进行凸包检测,得到对应的两个凸包;将每个凸包进行傅里叶变换得到频域信息,得到对应的两个频域信号,并将两个频域信号分别作为该感兴趣区域对内的转换前形态向量和转换后形态向量;根据所述的转换前形态向量和转换后形态向量,得到转换误差分布特征,得到所有感兴
趣区域对的转换误差分布特征序列,基于所述转换误差分布特征序列,得到转换异样度;基于各版式数据流文件的转换异样度以及转换误差值之和,对不同的版式数据流文件进行分类,得到不同的类别簇;对各类别簇进行统计分析,得到类型描述子;计算类型描述子的隶属度,当隶属度大于等于阈值时,则版式数据流文件转换正常,将其作为训练样本,直至得到训练样本集。
[0006]优选地,神经网络模型的输入为各版式数据流文件的转换异样度以及转换误差值之和,输出为隶属度。
[0007]优选地,所述转换误差分布特征为:计算各感兴趣区域对内的转换前形态向量和转换后形态向量的余弦相似度。
[0008]优选地,所述转换异样度的获取过程为:分别计算当前版式数据流文件转换记录的转换误差分布特征序列与其他版式数据流文件转换记录的转换误差分布特征序列的相似度,将相似度按照从大到小的顺序进行排序,选取第K个相似的版式数据流文件的转换误差分布特征序列以及相似度最大对应的版式数据流文件的转换误差分布特征序列作为最相似的分布特征序列;根据当前文件转换记录的转换误差分布特征序列、最相似的分布特征序列以及第K个文件的分布特征序列,计算得到转换异样度:其中,为转换误差分布特征序列,为最相似的分布特征序列,为第K个相似的分布特征序列,为损失函数。
[0009]优选地,所述转换误差值为计算任意一个感兴趣区域对内的转换前感兴趣区域的长宽比和转换后感兴趣区域的长宽比的差值的绝对值,其中长宽比,其中w为宽度,L为长度,min()为求最小值,max为求最大值。
[0010]优选地,对不同的版式数据流文件进行分类,得到不同的类别簇的具体过程为:根据各版式数据流文件的转换异样度以及转换误差值之和,计算任意两版式数据流文件的差异距离:其中,为版式数据流文件X的转换误差值之和,为版式数据流文件Y的转换误差值之和,为版式数据流文件X的转换异样度,为版式数据流文件Y的转换异样度;根据所述差异距离对各版式数据流文件进行聚类,得到不同的类别簇。
[0011]优选地,所述隶属度为:其中,为样本M的邻域簇集合的总个数,为样本M与邻域簇中的样本S的可达距离。
[0012]本专利技术的有益效果:本专利技术的方案通过对已转换的版式数据流文件进行分析,得到转换过程的转换状态,也即转换误差之和以及转化异样度,通过每个版式数据流文件对应的转换状态,对转换的文件进行分析,从而确定优质的训练样本集,用于神经网络模型的训练,得到一个准确且稳定的训练好的神经网络模型,便于后续快速、高效地对待测的版式数据流文件的转换质量进行评估。
附图说明
[0013]为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0014]图1是本专利技术的一种基于机器学习模型的版式数据流文件转换的评估方法的方法流程图。
具体实施方式
[0015]为了更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术的方案,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
[0016]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。
[0017]具体地,以为PDF的版式数据流文件为例,对本专利技术提供的一种基于机器学习模型的版式数据流文件转换的评估方法进行介绍,请参阅图1所示,包括以下步骤:步骤一,获取训练样本集。
[0018]首先,分别提取版式数据流文件在转换前和转换后的感兴趣区域,得到若干感兴趣区域对,每个感兴趣区域对均包括转换前感兴趣区域和转换后感兴趣区域;计算任意一个感兴趣区域对内的转换前感兴趣区域与转换后感兴趣区域的差值的转换误差绝对值,进而得到版式数据流文件的转换误差值之和。
[0019]本实施例中的感兴趣区域对,是指版式数据流文件中相同信息在转换前后所属的区域。
[0020]本实施例中的转换误差绝对值的获取方法为:分别计算转换前感兴趣区域(ROI1)和转换后感兴趣区域(ROI2)的长宽比,将两长宽比作差得到转换误差绝对值,具体地,对每个转换前感兴趣区域的长宽比的数值进行如下处理:上述中的长宽比为对长边和窄边进行比例的计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习模型的版式数据流文件转换的评估方法,其特征在于,包括以下步骤:步骤一,获取训练样本集;步骤二,利用训练样本集对构建的神经网络模型进行训练,得到训练好的神经网络模型;步骤三,利用训练好的神经网络模型,对待测的版式数据流文件的转换质量进行评估;所述训练样本集的获取过程为:分别提取版式数据流文件在转换前和转换后的感兴趣区域,得到若干感兴趣区域对,每个感兴趣区域对均包括转换前感兴趣区域和转换后感兴趣区域;计算任意一个感兴趣区域对内的转换误差绝对值,进而得到版式数据流文件的转换误差值之和;对每个感兴趣区域对内的转换前感兴趣区域和转换后感兴趣区域分别进行凸包检测,得到对应的两个凸包;将每个凸包进行傅里叶变换得到频域信息,得到对应的两个频域信号,并将两个频域信号分别作为该感兴趣区域对内的转换前形态向量和转换后形态向量;根据所述的转换前形态向量和转换后形态向量,得到转换误差分布特征,得到所有感兴趣区域对的转换误差分布特征序列,基于所述转换误差分布特征序列,得到转换异样度;基于各版式数据流文件的转换异样度以及转换误差值之和,对不同的版式数据流文件进行分类,得到不同的类别簇;对各类别簇进行统计分析,得到类型描述子;计算类型描述子的隶属度,当隶属度大于等于阈值时,则版式数据流文件转换正常,将其作为训练样本,直至得到训练样本集。2.根据权利要求1所述的基于机器学习模型的版式数据流文件转换的评估方法,其特征在于,神经网络模型的输入为各版式数据流文件的转换异样度以及转换误差值之和,输出为隶属度。3.根据权利要求1所述的基于机器学习模型的版式数据流文件转换的评估方法,其特征在于,所述转换误差分布特征为:计算各感兴趣区域对内的转换前形态向量和转换后形态向量的余弦相似度。4.根据权利要求...

【专利技术属性】
技术研发人员:胡夕国胡玥
申请(专利权)人:南通中泓网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1