一种用于网页版电子文档本地化的方法及系统技术方案

技术编号:35437520 阅读:21 留言:0更新日期:2022-11-03 11:46
本发明专利技术涉及一种用于网页版电子文档本地化的方法,属于电子化文档的本地化处理技术领域。该方法具体包括:获取网页版电子文档;全屏截取所述网页版电子文档的最初状态图像;利用边界判断方法截取所述最初状态图像的文档部分;截取所述最初状态图像的文档部分并保存。本发明专利技术还提供相应的用于网页版电子文档本地化的系统。本发明专利技术通过智能判断并自动截取的方式实现网页版电子文档本地化,便于在没有网络环境下的查阅。环境下的查阅。环境下的查阅。

【技术实现步骤摘要】
一种用于网页版电子文档本地化的方法及系统


[0001]本专利技术涉及网页版电子文档的本地化存储,尤其涉及基于Web技术发布的电子文档的本地化存储方式和系统,属于电子化文档的本地化处理。

技术介绍

[0002]由于网页版电子文档受限于其设备是否连入网络,这将极大限制在无网络环境下的文档的获取阅读,这时我们需要本地化网页版电子文档,常用方法有通过摄像机拍摄,或者直接网页快照的方式进行本地化留底。通过摄像机拍照方法需要复杂的人工手动操作,以及其他设备支持,且获取的电子文档质量受到拍摄设备,以及操作者等因素影响,无法得到保障;而网页快照方法可能出现较多的冗余信息,而不能精准获取电子文档。
[0003]因此这种需要联网阅读的电子文档的自动化、精准、高质量的本地化,显得尤为必要,通过该专利技术的获取方法,将实现对电子文档的高质量、高效率的全自动化本地化。

技术实现思路

[0004]本专利技术的目的是通过智能判断并自动截取的方式实现网页版电子文档本地化,便于在没有网络环境下的查阅。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种用于网页版电子文档本地化的方法,所述方法包括:
[0007]获取网页版电子文档;所述网页版电子文档通过浏览器输入的网址连接获取;
[0008]全屏截取所述网页版电子文档的最初状态图像;
[0009]利用边界判断方法截取所述最初状态图像的文档部分;
[0010]截取所述最初状态图像的文档部分并保存。
[0011]可选的,所述方法还包括:识别所述最初状态图像的文档部分的相关信息;所述所述最初状态图像的文档部分的相关信息包括当前页码信息、总页码信息和文档题目信息;
[0012]可选的,所述方法还包括:
[0013]根据识别的所述最初状态图像的文档部分的相关信息判断所述网页版电子文档是否为最后一页;若判断结果为是,则停止处理;若判断结果为否,则
[0014]控制所述网页版电子文档翻页,
[0015]全屏截取下一页网页版电子文档的最初状态图像;
[0016]利用边界判断方法截取的所述下一页网页版电子文档的最初状态图像;
[0017]识别所述下一页网页版电子文档的最初状态图的文档部分的相关信息;
[0018]截取所述下一页网页版电子文档的最初状态图并保存。
[0019]可选的,所述根据识别的所述最初状态图像的文档部分的相关信息判断所述网页版电子文档是否为最后一页,具体包括:
[0020]获取所述当前页码信息和所述总页码信息;
[0021]判断所述当前页码信息与所述总页码信息是否相同;若判断结果为是,则是最后
一页;若判断结果为否,则不是最后一页。
[0022]可选的,所述根据识别的所述最初状态图像的文档部分的相关信息判断所述网页版电子文档是否是最后一页,具体包括:
[0023]比较翻页前后全屏截取的网页版电子文档的最初状态图像;若比较结果为相同,则是最后一页;若比较结果为不相同,则不是最后一页。
[0024]可选的,所述方法还包括:
[0025]对多页保存结果进行整合,根据所述文档题目信息对文档命名并保存。
[0026]可选的,利用光学字符识别所述最初状态图像的文档部分的相关信息。
[0027]可选的,所述方法还包括:
[0028]判断获取的网页版电子文档加载是否完整;若判断结果为是,则对整个显示画面进行监控;若判断结果为否,则重新获取网页版电子文档。
[0029]一种用于网页版电子文档本地化的系统,所述系统包括:
[0030]获取模块,用于获取网页版电子文档;所述网页版电子文档通过浏览器输入的网址连接获取;
[0031]全屏截取模块,用于全屏截取所述网页版电子文档的最初状态图像;
[0032]文档截取模块,用于利用边界判断方法截取所述最初状态图像的文档部分;
[0033]信息截取和保存模块,用于截取所述最初状态图像的文档部分并保存。
[0034]可选的,所述系统还包括:
[0035]信息识别模块,用于识别所述最初状态图像的文档部分的相关信息;所述所述最初状态图像的文档部分的相关信息包括当前页码信息、总页码信息和文档题目信息。
[0036]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术可以自动识别网页版电子文档的信息并保存,实现对电子文档的高质量、高效率的全自动化本地化,便于随时随地查询。
附图说明
[0037]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本专利技术网页版电子文档本地化方法流程图;
[0039]图2为本专利技术网页版电子文档本地化体统示意图;
[0040]图3为具体实施例的方法流程图。
具体实施方式
[0041]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]在本专利文档中,下文论述的附图以及用来描述本专利技术公开的原理的各实施例仅
用于说明,而不应解释为限制本专利技术公开的范围。所属领域的技术人员将理解,本专利技术的原理可在任何适当布置的系统中实施。将详细说明示例性实施方式,在附图中示出了这些实施方式的实例。
[0043]本专利技术说明书中使用的术语仅用来描述特定实施方式,而并不意图显示本专利技术的概念。除非上下文中有明确不同的意义,否则,以单数形式使用的表达涵盖复数形式的表达。在本专利技术说明书中,应理解,诸如“包括”、“具有”以及“含有”等术语意图说明存在本专利技术说明书中揭示的特征、数字、步骤、动作或其组合的可能性,而并不意图排除可存在或可添加一个或多个其他特征、数字、步骤、动作或其组合的可能性。
[0044]本专利技术的目的是提供一种网页版电子文档本地化方法及系统。
[0045]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0046]图1提供了一种用于网页版电子文档本地化的方法流程图,该方法包括:
[0047]步骤101:获取网页版电子文档;所述网页版电子文档通过浏览器输入的网址连接获取。
[0048]步骤102:判断获取的网页版电子文档加载是否完整;若判断结果为是,则对整个显示画面进行监控;若判断结果为否,则重新获取网页版电子文档。
[0049]步骤103:全屏截取所述网页版电子文档的最初状态图像。
[0050]步骤104:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于网页版电子文档本地化的方法,其特征在于,所述方法包括:获取网页版电子文档;所述网页版电子文档通过浏览器输入的网址连接获取;全屏截取所述网页版电子文档的最初状态图像;利用边界判断方法截取所述最初状态图像的文档部分;截取所述最初状态图像的文档部分并保存。2.根据权利要求1所述用于网页版电子文档本地化的方法,其特征在于,所述方法还包括:识别所述最初状态图像的文档部分的相关信息;所述所述最初状态图像的文档部分的相关信息包括当前页码信息、总页码信息和文档题目信息。3.根据权利要求2所述用于网页版电子文档本地化的方法,其特征在于,所述方法还包括:根据识别的所述最初状态图像的文档部分的相关信息判断所述网页版电子文档是否为最后一页;若判断结果为是,则停止处理;若判断结果为否,则控制所述网页版电子文档翻页,全屏截取下一页网页版电子文档的最初状态图像;利用边界判断方法截取的所述下一页网页版电子文档的最初状态图像;识别所述下一页网页版电子文档的最初状态图的文档部分的相关信息;截取所述下一页网页版电子文档的最初状态图并保存。4.根据权利要求3所述用于网页版电子文档本地化的方法,其特征在于,所述根据识别的所述最初状态图像的文档部分的相关信息判断所述网页版电子文档是否为最后一页,具体包括:获取所述当前页码信息和所述总页码信息;判断所述当前页码信息与所述总页码信息是否相同;若判断结果为是,则是最后一页;若判断结果为否,则不是最后一页。5.根据权利要求3所述用于网页版电子文档本地化的方法,...

【专利技术属性】
技术研发人员:萧展辉王尧余芸宋云奎张世良邹文景邓丽娟
申请(专利权)人:南方电网数字电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1