【技术实现步骤摘要】
页面转换方法、装置和页面转换设备
本专利技术涉及网页转换的
,尤其是涉及一种页面转换方法、装置和页面转换设备。
技术介绍
目前,众多网络平台都会公布相关的业务数据、报表内容或者政策法规等供用户下载,而通常发布这些权威内容的网络平台不希望内容被修改,因此,这些内容多以不可修改的文档格式,如,pdf文档,传给用户去阅览,但是pdf内容没办法被搜索引擎收录,同时不便于在浏览器中以自定义格式进行展示。html(HyperTextMark-upLanguage)文件,是一种制作万维网页面的标准语言,具有可以自定义的样式,便于搜索引擎收录等优点,更适合在网页上进行展示。但是,在转换过程中,很难在html中保持pdf原有页面布局,往往会出现表格等位置错乱,导致文本不可读等现象,转换效率较低,不便于用户阅览,进而降低了用户的体验度。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种页面转换方法、装置和页面转换设备,以缓解转换效率低导致的降低用户体验度的技术问题。第一方面,本专利技术实施例提供了一种页面转换方法,该方法用于将pdf文件转化为html文件,包括:获取待转换页面中 ...
【技术保护点】
一种页面转换方法,其特征在于,所述方法用于将pdf文件转化为html文件,所述方法包括:获取待转换页面中包含的待转换对象和所述待转换对象的空间位置属性,其中,所述待转换对象包括表格对象和所述表格对象包含的文本对象,所述表格对象包括组成所述表格对象的各个表格单元格线段;提取各个所述表格单元格线段,根据所述空间位置属性对所述表格单元格线段进行聚合,使处于同一行的所述表格单元格线段存储在同一个集合中,得到对应不同行的多个所述集合;对多个所述集合进行划分,得到以所述表格对象为单位的线段集合;根据所述线段集合生成表格,其中,所述表格携带有单元格空间位置信息;根据所述空间位置信息将所述 ...
【技术特征摘要】
1.一种页面转换方法,其特征在于,所述方法用于将pdf文件转化为html文件,所述方法包括:获取待转换页面中包含的待转换对象和所述待转换对象的空间位置属性,其中,所述待转换对象包括表格对象和所述表格对象包含的文本对象,所述表格对象包括组成所述表格对象的各个表格单元格线段;提取各个所述表格单元格线段,根据所述空间位置属性对所述表格单元格线段进行聚合,使处于同一行的所述表格单元格线段存储在同一个集合中,得到对应不同行的多个所述集合;对多个所述集合进行划分,得到以所述表格对象为单位的线段集合;根据所述线段集合生成表格,其中,所述表格携带有单元格空间位置信息;根据所述空间位置信息将所述文本对象回填至所述表格的单元格位置,以完成页面转换。2.根据权利要求1所述的方法,其特征在于,所述获取待转换页面中包含的待转换对象和所述待转换对象的空间位置属性包括:对所述待转换页面进行解析,按类别提取待转换对象和所述待转换对象的空间位置属性,生成所述文本对象的列表和表格单元格线段的列表;其中,所述文本对象的空间位置属性为所述文本对象包含的文本行的最小外接矩形的空间位置属性;所述表格对象的空间位置属性为组成所述表格对象的各个所述表格单元格线段的最小外接矩形的空间位置属性;所述空间位置属性包括:所述最小外接矩形的左下角距离所述待转换页面左边界的水平距离和所述左下角距离所述待转换页面下边界的垂直距离;以及,所述最小外接矩形的右上角距离所述待转换页面左边界的水平距离和所述右上角距离所述待转换页面下边界的垂直距离。3.根据权利要求2所述的方法,其特征在于,所述根据所述空间位置属性对所述表格单元格线段进行聚合包括:以所述表格单元格线段的最小外接矩形的左下角距离所述待转换页面下边界的垂直距离为关键字,查找所述表格单元格线段的列表中,所述空间位置属性包含所述关键字的所述表格单元格线段;将包含所述关键字的所述表格单元格线段保存至所述关键字对应的集合中。4.根据权利要求3所述的方法,其特征在于,所述对多个所述集合进行划分包括:根据所述空间位置属性对多个所述集合中的所述表格单元格线段中连续的竖直线段进行合并,得到合并后不连续的列线段;以所述表格对象为单位,对所述不连续的列线段进行存储;查找每个所述不连...
【专利技术属性】
技术研发人员:黄文瀚,程浩,肖之屏,柳超,
申请(专利权)人:北京金堤科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。