一种数据分布式读取方法及系统技术方案

技术编号:37574830 阅读:9 留言:0更新日期:2023-05-15 07:51
本发明专利技术适用于数据读取技术领域,提供了一种数据分布式读取方法及系统,包括以下步骤:接收上传的用户文件,将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;将提取出的图像存储至图像库中,生成图像存储位置信息,将提取出的表格存储至表格库中,生成表格存储位置信息,将提取后的用户文件进行存储,生成文件存储位置信息;接收文件读取指令,分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。如此,能够同时读取一份数据的三个部分,大幅度提高了读取效率。另外,本发明专利技术能够将所有的图像和表格进行单独的存储,方便用户只浏览图像或者表格信息。息。息。

【技术实现步骤摘要】
一种数据分布式读取方法及系统


[0001]本专利技术涉及数据读取
,具体是涉及一种数据分布式读取方法及系统。

技术介绍

[0002]分布式数据处理是指将原先集中在单节点上的庞大计算任务被负载均衡地分派给分布式网络中的计算机上并行地进行处理计算,大幅度提高了数据处理的效率,然而分布式数据处理不便于直接应用在一份数据的读取上,目前读取一份数据时,没有将数据分割成多个部分进行分布式的读取,如果一份数据的量较大时,特别是数据中包含大量的图表时,读取加载的速度较为缓慢。因此,需要提供一种数据分布式读取方法及系统,旨在解决或者缓解上述问题。

技术实现思路

[0003]针对现有技术存在的不足,本专利技术的目的在于提供一种数据分布式读取方法及系统,以解决或者缓解上述
技术介绍
中存在的问题。
[0004]本专利技术是这样实现的,一种数据分布式读取方法,所述方法包括以下步骤:接收上传的用户文件,所述用户文件包括文件名,对用户文件中的图像和表格进行识别;将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;将提取出的图像存储至图像库中,生成图像存储位置信息,将图像存储位置信息与对应的提取位置信息进行绑定;将提取出的表格存储至表格库中,生成表格存储位置信息,将表格存储位置信息与对应的提取位置信息进行绑定;将提取后的用户文件进行存储,生成文件存储位置信息,将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定;接收文件读取指令,所述文件读取指令包括文件名和文件存储位置信息,确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息;分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。
[0005]作为本专利技术进一步的方案:所述为每个图像和表格标记提取位置信息的步骤,具体包括:提取每个图像和表格时,记录提取位置;识别每个图像和表格的对齐方式和尺寸大小,对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息;将每个提取位置信息标记在对应的图像或者表格上。
[0006]作为本专利技术进一步的方案:所述将提取出的图像存储至图像库中,生成图像存储位置信息的步骤,具体包括:
将提取出的图像发送至图像库中,将所述图像与图像库中的所有图像进行相似度对比;当所述图像与图像库中的某一个图像相同时,将所述图像删除,相同图像的存储位置即为图像存储位置信息;当所述图像与图像库中任何一个图像不相同时,对所述图像进行存储,得到图像存储位置信息。
[0007]作为本专利技术进一步的方案:将所述图像与图像库中的图像进行相似度对比的步骤,具体包括:根据图像库中的图像对所述图像进行尺寸缩放,使得两者的尺寸相同;用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值,得到h_1和h_2;计算h_1和h_2之间的汉明距离dis_h;根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度,当相似度大于设定相似值时,判定两张图像相同。
[0008]作为本专利技术进一步的方案:所述将读取到的图像和表格插入所述用户文件中的步骤,具体包括:调取每个图像和表格对应的提取位置信息;根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置;根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。
[0009]本专利技术的另一目的在于提供一种数据分布式读取系统,所述系统包括:用户文件上传模块,用于接收上传的用户文件,所述用户文件包括文件名,对用户文件中的图像和表格进行识别;图像表格提取模块,用于将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;图像表格存储模块,用于将提取出的图像存储至图像库中,生成图像存储位置信息,将图像存储位置信息与对应的提取位置信息进行绑定;将提取出的表格存储至表格库中,生成表格存储位置信息,将表格存储位置信息与对应的提取位置信息进行绑定;用户文件存储模块,用于将提取后的用户文件进行存储,生成文件存储位置信息,将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定;读取指令接收模块,用于接收文件读取指令,所述文件读取指令包括文件名和文件存储位置信息,确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息;数据分布读取模块,用于分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。
[0010]作为本专利技术进一步的方案:所述图像表格提取模块包括:提取位置记录单元,用于提取每个图像和表格时,记录提取位置;位置信息整合单元,用于识别每个图像和表格的对齐方式和尺寸大小,对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息;位置信息标记单元,用于将每个提取位置信息标记在对应的图像或者表格上。
[0011]作为本专利技术进一步的方案:所述图像表格存储模块包括:
相似度对比单元,用于将提取出的图像发送至图像库中,将所述图像与图像库中的所有图像进行相似度对比;图像存储处理单元,当所述图像与图像库中的某一个图像相同时,将所述图像删除,相同图像的存储位置即为图像存储位置信息;当所述图像与图像库中任何一个图像不相同时,对所述图像进行存储,得到图像存储位置信息。
[0012]作为本专利技术进一步的方案:所述相似度对比单元包括:尺寸缩放子单元,用于根据图像库中的图像对所述图像进行尺寸缩放,使得两者的尺寸相同;hash值确定子单元,用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值,得到h_1和h_2;汉明距离子单元,用于计算h_1和h_2之间的汉明距离dis_h;相似度计算子单元,用于根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度,当相似度大于设定相似值时,判定两张图像相同。
[0013]作为本专利技术进一步的方案:所述数据分布读取模块包括:位置信息调取单元,用于调取每个图像和表格对应的提取位置信息;图像表格插入单元,用于根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置;图像表格还原单元,用于根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。
[0014]与现有技术相比,本专利技术的有益效果是:本专利技术能够将图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;然后将提取出的图像存储至图像库中,生成图像存储位置信息,将提取出的表格存储至表格库中,生成表格存储位置信息,将提取后的用户文件进行存储,生成文件存储位置信息;接收到文件读取指令时,会分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。如此,能够同时读取一份数据的三个部分,大幅度提高了读取效率。另外,本专利技术能够将所有的图像和表格进行单独存储,方便用户只浏览图像或者表格信息,用户能够在短时间内获取更多直观信息。
附图说明
[0015]图1为一种数据分布式读取方法的流程图。
[0016]图2为一种数据分布式读取方法中标记提取位置信息的流程图。
[0017]图3为一种数据分布本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分布式读取方法,其特征在于,所述方法包括以下步骤:接收上传的用户文件,所述用户文件包括文件名,对用户文件中的图像和表格进行识别;将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;将提取出的图像存储至图像库中,生成图像存储位置信息,将图像存储位置信息与对应的提取位置信息进行绑定;将提取出的表格存储至表格库中,生成表格存储位置信息,将表格存储位置信息与对应的提取位置信息进行绑定;将提取后的用户文件进行存储,生成文件存储位置信息,将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定;接收文件读取指令,所述文件读取指令包括文件名和文件存储位置信息,确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息;分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。2.根据权利要求1所述的数据分布式读取方法,其特征在于,所述为每个图像和表格标记提取位置信息的步骤,具体包括:提取每个图像和表格时,记录提取位置;识别每个图像和表格的对齐方式和尺寸大小,对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息;将每个提取位置信息标记在对应的图像或者表格上。3.根据权利要求1所述的数据分布式读取方法,其特征在于,所述将提取出的图像存储至图像库中,生成图像存储位置信息的步骤,具体包括:将提取出的图像发送至图像库中,将所述图像与图像库中的所有图像进行相似度对比;当所述图像与图像库中的某一个图像相同时,将所述图像删除,相同图像的存储位置即为图像存储位置信息;当所述图像与图像库中任何一个图像不相同时,对所述图像进行存储,得到图像存储位置信息。4.根据权利要求3所述的数据分布式读取方法,其特征在于,将所述图像与图像库中的图像进行相似度对比的步骤,具体包括:根据图像库中的图像对所述图像进行尺寸缩放,使得两者的尺寸相同;用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值,得到h_1和h_2;计算h_1和h_2之间的汉明距离dis_h;根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度,当相似度大于设定相似值时,判定两张图像相同。5.根据权利要求2所述的数据分布式读取方法,其特征在于,所述将读取到的图像和表格插入所述用户文件中的步骤,具体包括:调取每个图像和表格对应的提取位置信息;根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置;根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。
6.一种数据分布式读取系统,其特征在于,所述系统包括:用户文件上传模块,用于接收上传的用户文件,所述用户文件包括文件名,对用户...

【专利技术属性】
技术研发人员:燕金龙
申请(专利权)人:大熊集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1