一种指定文本用对象分布式展示系统技术方案

技术编号:33294011 阅读:13 留言:0更新日期:2022-05-01 00:19
本发明专利技术公开了一种指定文本用对象分布式展示系统,涉及电子文件处理技术领域,包括文本处理模块、文本分配模块和索引构建模块;文本处理模块用于将PDF文件拆分成多个单页文件,并将PDF页文件分布式存储于多个存储终端中;文本分配模块用于获取PDF页文件的访问数据并进行访问系数分析,并根据访问系数将PDF页文件分配至对应的存储终端存储;索引构建模块用于建立一个PDF页索引文件,记录PDF页文件存储位置,当用户进行访问时,首先读取页级索引,然后通过页级索引定位单页文件进行快速读取,当多用户同时访问PDF不同页时,能够分散存储终端进行读取,提高读取带宽,做到高并发访问,提高热点PDF页文件的访问效率。提高热点PDF页文件的访问效率。提高热点PDF页文件的访问效率。

【技术实现步骤摘要】
一种指定文本用对象分布式展示系统


[0001]本专利技术涉及电子文件处理
,具体是一种指定文本用对象分布式展示系统。

技术介绍

[0002]PDF(portabledocumentformat,便携式文件格式)是由adobesystems开发的一种用于文件交换的电子文件格式,这种文件格式可以应用于各种操作系统,所以越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件等开始使用PDF文件,并且在很多情况下,为了追求文件的稳定性和兼容性,用户都会将word文件转换成PDF文件之后再进行传输。
[0003]现有PDF文档采用了一种单文件描述格式,整体文档所需的字体、资源都包含在本文件中,这样比较方便传输和使用者直接打开。但是一个完整PDF在进行网络预览时性能就会比较低下,一般会采用两种技术手段加快访问:1)将每页PDF转换成图片,然后每次访问加载每页图片;但是此种技术手段是针对一些预览场景,PDF内图片是无法进行拷贝和编辑的;2)服务器端支持按页读取;此种技术手段可以支持拷贝和编辑,但在多用户访问下对单页PDF访问性能会不均匀,对一些热点PDF页文件访问效率就会降低;针对上述问题,我们提出一种指定文本用对象分布式展示系统。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种指定文本用对象分布式展示系统,将PDF变成多个单页文件,并将其存储在不同的存储终端上;并建立一个PDF页索引文件,记录其存储位置,当进行访问时,首先读取页级索引,然后通过页级索引定位单页文件进行快速读取;这样当不同的用户同时来访问PDF不同页时,能够分散存储设备进行读取,提高读取带宽,做到高并发访问。
[0005]为实现上述目的,根据本专利技术的第一方面的实施例提出一种指定文本用对象分布式展示系统,包括文本上传模块、存储模块、文本分配模块、索引构建模块以及终端分析模块;
[0006]所述文本上传模块用于管理人员上传PDF文件,并将PDF文件发送至云平台;所述云平台用于将接收到的PDF文件传输至文本处理模块;
[0007]所述文本处理模块用于对PDF文件进行拆分,将PDF文件分成多个单页文件,记为PDF页文件;然后将PDF页文件分布式存储于多个存储终端中,其中每个PDF页文件均有唯一编号;
[0008]所述存储模块包含若干个存储终端,所述文本分配模块与文本处理模块相连接,用于获取PDF页文件的访问数据并进行访问系数分析,然后根据访问系数FZ将PDF页文件分配至对应的存储终端存储;
[0009]选中终端对PDF页文件进行存储,并将对应的存储地址和PDF页文件编号返回至索
引构建模块对PDF页索引文件进行构建;当用户进行访问时,首先读取页级索引,然后通过页级索引定位单页文件进行快速读取;
[0010]所述终端分析模块用于对存储终端进行存配值分析,并将存配值CP打上时间戳并存储至云平台。
[0011]进一步地,所述文本分配模块的具体分配步骤为:
[0012]将PDF页文件按照访问系数FZ的大小进行降序排列;获取排序第一的PDF页文件,选取存配值CP最大的存储终端标记为选中终端;将排序第一的PDF页文件标记为已分配文件,再获取排序第二的PDF页文件,并选取存配值CP次之的存储终端标记为选中终端,以此类推。
[0013]进一步地,所述访问系数FZ的具体分析过程如下:
[0014]针对某个PDF页文件,采集该PDF页文件预设时间段内的访问数据;统计PDF页文件的访问频率标记为P1;
[0015]将每次访问时的访问时长标记为Ti,设定对应访问过程中的转换值为ZHi;利用公式FWi=Ti
×
g1+ZHi
×
g2计算得到访问值FWi,其中g1、g2为系数因子,i表示第i次访问;
[0016]将访问值FWi与访问阈值相比较;统计FWi大于访问阈值的次数占比为Zb1;当FWi大于访问阈值时,获取FWi与访问阈值的差值并求和得到超访值G1;利用公式GZ=Zb1
×
k1+G1
×
k2计算得到超访系数GZ,其中k1、k2为系数因子;利用公式FZ=P1
×
k3+GZ
×
k4计算得到对应PDF页文件的访问系数FZ,其中k3、k4为系数因子。
[0017]进一步地,所述访问数据包括访问频率、访问时长以及访问过程中的转换操作行为;所述转换操作行为包括缩小、放大、复制以及修改。
[0018]进一步地,转换值ZHi的获取方法为:
[0019]获取对应访问过程中的转换操作行为,统计访问过程中各种转换操作行为的发生次数,然后结合数据库中存储的各转换操作行为的权重因子,计算得到对应访问过程中的转换值ZHi。
[0020]进一步地,所述终端分析模块的具体分析步骤为:
[0021]获取每个存储终端在当前时刻下的访问节点连接数为Lt,设定对应存储终端接入访问节点的最大容量为L0,最小容量为L1;利用公式Lg=(L0

Lt)/(Lt

L1)计算得到该存储终端的接入系数Lg;
[0022]设定存储终端的剩余内存量为Nt;将存储终端的实时网络访问速度标记为Ft,建立实时网络访问速度Ft随时间变化的曲线图,并标记为网速曲线图;将实时网络访问速度Ft与标准网速阈值相比较;
[0023]若Ft≤标准网速阈值,则在对应的曲线图中截取对应的曲线段并标注为红色,记为低速曲线段;统计低速曲线段的数量为Q1,将所有的低速曲线段对时间进行积分并求和得到低速参考能量Q2,利用DS=Q1
×
g3+Q2
×
g4计算得到当前存储终端的低速系数DS,其中g3、g4为系数因子;
[0024]利用公式CP=(Lg
×
g5+Nt
×
g6+Ft
×
g7)/(DS
×
g8)计算得到存储终端的存配值CP,其中g5、g6、g7、g8为系数因子。
[0025]进一步地,所述索引构建模块包括地址加密单元,所述地址加密单元接收到存储地址后对存储地址进行加密得到加密密文,并将加密密文返回至PDF页索引文件进行存储,
之后在需要时通过对PDF页索引文件的查找,对应到存储终端查找具体的文件信息。
[0026]进一步地,其中所述地址加密单元的具体加密步骤为:
[0027]对存储地址明文进行序列化操作,得到字节流数据;将字节流数据进行大数进制转换;判断存储地址明文序列化长度是否为32的倍数,若不是,对明文编码进行补零后,执行下一步;
[0028]对数据明文进行拆分,其中拆分单位为32位长度;分别使用第一公钥对拆分后的片段进行bls12

381加密,对加密结果进行拼接;对拼接后的加密结果进行base64编码,得到加密密文。
[0029]与现有技术相比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种指定文本用对象分布式展示系统,其特征在于,包括文本上传模块、存储模块、文本分配模块、索引构建模块以及终端分析模块;所述文本上传模块用于管理人员上传PDF文件,并将PDF文件发送至云平台;所述云平台用于将接收到的PDF文件传输至文本处理模块;所述文本处理模块用于对PDF文件进行拆分,将PDF文件分成多个单页文件,记为PDF页文件;然后将PDF页文件分布式存储于多个存储终端中,其中每个PDF页文件均有唯一编号;所述存储模块包含若干个存储终端,所述文本分配模块与文本处理模块相连接,用于获取PDF页文件的访问数据并进行访问系数分析,然后根据访问系数FZ将PDF页文件分配至对应的存储终端存储;选中终端对PDF页文件进行存储,并将对应的存储地址和PDF页文件编号返回至索引构建模块对PDF页索引文件进行构建;当用户进行访问时,首先读取页级索引,然后通过页级索引定位单页文件进行快速读取;所述终端分析模块用于对存储终端进行存配值分析,并将存配值CP打上时间戳并存储至云平台。2.根据权利要求1所述的一种指定文本用对象分布式展示系统,其特征在于,所述文本分配模块的具体分配步骤为:将PDF页文件按照访问系数FZ的大小进行降序排列;获取排序第一的PDF页文件,选取存配值CP最大的存储终端标记为选中终端;将排序第一的PDF页文件标记为已分配文件,再获取排序第二的PDF页文件,并选取存配值CP次之的存储终端标记为选中终端,以此类推。3.根据权利要求1所述的一种指定文本用对象分布式展示系统,其特征在于,所述访问系数FZ的具体分析过程如下:针对某个PDF页文件,采集该PDF页文件预设时间段内的访问数据;统计PDF页文件的访问频率标记为P1;将每次访问时的访问时长标记为Ti,设定对应访问过程中的转换值为ZHi;利用公式FWi=Ti
×
g1+ZHi
×
g2计算得到访问值FWi,其中g1、g2为系数因子,i表示第i次访问;将访问值FWi与访问阈值相比较;统计FWi大于访问阈值的次数占比为Zb1;当FWi大于访问阈值时,获取FWi与访问阈值的差值并求和得到超访值G1;利用公式GZ=Zb1
×
k1+G1
×
k2计算得到超访系数GZ,其中k1、k2为系数因子;利用公式FZ=P1
×
k3+GZ
×
k4计算得到对应PDF页文件的访问系数FZ,其中k3、k4为系数因子。4.根据权利要求3所述的一种指定文本用对象分布式展示系统,其特征在于,所述访问数据包括访问频率、访问时长以及...

【专利技术属性】
技术研发人员:刘雨泽陈德全
申请(专利权)人:盟浪可持续数字科技深圳有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1