一种用于文档文件重构的方法及装置制造方法及图纸

技术编号:15880608 阅读:65 留言:0更新日期:2017-07-25 21:28
本发明专利技术公开了一种用于文档文件重构的方法及装置,其中方法包括:对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息;对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息;基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件。与现有技术相比,本发明专利技术通过对解析得到的文档文件元素和属性信息进行聚合处理,并基于聚合处理后的文档文件元素和属性信息来重构文档文件,得到的重构的文档文件的文件大小减小,也提高了提供重构后的文档文件给用户设备的文档显示客户端进行解析呈现的速度。

【技术实现步骤摘要】
一种用于文档文件重构的方法及装置
本专利技术涉及文档文件处理技术,尤其涉及一种用于文档文件重构的方法及装置。
技术介绍
用户使用用户设备上的文档显示客户端阅读文档文件时,现有技术中,网络设备使用特定的文档处理程序对原始文档文件进行格式转换,格式转换后的文档文件可以呈现在文档显示客户端上,网络设备将格式转换后的文档文件提供给用户设备在文档显示客户端上呈现。以文档显示客户端为浏览器为例,使用PDFtoHTML文档处理程序可以将PDF(PortableDocumentFormat,便携文件格式)格式的文档文件转换为HTML(HypertextMarkupLanguage,超文本标记语言)格式的文档文件,该文档处理程序将文档文件中如图片、图表等不能使用文字呈现的文档文件元素转换为背景图,再将文字覆盖到背景图上,形成HTML格式的文档文件。但是文档文件中的图片、图表等和文字不是简单的背景和内容的关系,如果文档文件中存在图片、图表等不能使用文字呈现的文档文件元素覆盖文字的情形,则使用如PDFtoHTML的文档处理程序就不能准确呈现文档文件。现有技术中还有一种解决方案,能够解决使用如PDFtoHT本文档来自技高网...
一种用于文档文件重构的方法及装置

【技术保护点】
一种用于文档文件重构的方法,其中,该方法包括:‑对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息;‑对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息;‑基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件;其中,所述对所获得的文档文件元素和属性信息进行聚合处理的步骤包括:‑当文档文件元素为包括矢量图与位图的图片时,将处于相邻图层的矢量图进行合并,以获得合并后的矢量图;‑将合并后得到的矢量图与位图合并,以得到合并后的位图,作为所述聚合处理后的文档文件元素之一;其中,所述将处于相邻图层的矢量图合并的步骤包括以下步骤:‑根据文...

【技术特征摘要】
1.一种用于文档文件重构的方法,其中,该方法包括:-对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息;-对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息;-基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件;其中,所述对所获得的文档文件元素和属性信息进行聚合处理的步骤包括:-当文档文件元素为包括矢量图与位图的图片时,将处于相邻图层的矢量图进行合并,以获得合并后的矢量图;-将合并后得到的矢量图与位图合并,以得到合并后的位图,作为所述聚合处理后的文档文件元素之一;其中,所述将处于相邻图层的矢量图合并的步骤包括以下步骤:-根据文档文件元素的渲染顺序,确定文档文件元素之间的覆盖关系;-基于文档文件元素之间的覆盖关系,确定处于相邻图层的矢量图;-将所确定的处于相邻图层的矢量图进行合并,以获得合并后的矢量图。2.根据权利要求1所述的方法,其中,还包括:-根据所述文档文件的标识和所述重构的文档文件中的文档文件元素的类别,生成所述重构的文档文件中的文档文件元素的标识;-通过用所生成的文档文件元素的标识替换所述重构后的文档文件中对应的文档文件元素,以生成包含所述标识的重构的文档文件。3.根据权利要求1所述的方法,其中,所述对所获得的文档文件元素和属性信息进行聚合处理的步骤包括至少以下一种方式:-当文档文件元素包括文字,且属性信息中的样式信息相同且位置信息在同一行或同一列的文字所形成的矩阵交集不覆盖图片时,将属性信息中的样式信息相同且位置信息在同一行或同一列的文字进行合并,以获得合并后的文字,作为所述聚合处理后的文档文件元素之一;-通过提取文字的属性信息中的字体信息和所述文档文件的字体文件的交集,以获得交集处理后的字体信息,作为所述聚合处理后的属性信息之一;-当多个属性信息中的样式信息相同,基于所述多个属性信息的相同的样式信息来生成一个key-value结构的样式信息,作为所述聚合处理后的属性信息之一,其中,key为所生成的样式信息的标识,value为所生成的样式信息的内容。4.根据权利要求3所述的方法,其中,所述基于所述聚合处理后的文档文件元素和属性信息来进行重构的步骤包括:-基于所述key-value结构的样式信息,生成所述重构的文档文件的CSS样式表;-基于所述聚合处理后的文档文件元素和属性信息,生成所述重构的文档文件的主体。5.一种用于在用户设备的文档显示客户端中呈现文档文件的方法,其中,该文档文件包括CSS样式表与文档文件主体;其中,该方法包括:-接收来自网络设备的文档文件;其中,当文档文件元素为包括矢量图与位图的图片时,网络设备将处于相邻图层的矢量图进行合并,以获得合并后的矢量图;网络设备将合并后得到的矢量图与位图合并,以得到合并后的位图,作为聚合处理后的文档文件元素之一;其中,所述将处于相邻图层的矢量图合并的步骤包括以下步骤:-根据文档文件元素的渲染顺序,确定文档文件元素之间的覆盖关系;-基于文档文件元素之间的覆盖关系,确定处于相邻图层的矢量图;-将所确定的处于相邻图层的矢量图进行合并,以获得合并后的矢量图;-根据所述文档显示客户端类型,将所接收的文档文件中的CSS样式表转换为适应于所述文档显示客户端类型的CSS样式表;-根据所述文档显示客户端类型,将所接收的文档文件的文档文件主体转换为适应于所述文档显示客户端类型的文档文件主体。6.根据权利要求5所述的方法,其中,所述方法还包括:-将所述文档文件主体中的文档文件元素的标识替换为该文档文件元素的标识对应的文档文件元素。7.一种用于呈现文档文件的方法,其中,该方法包括:如权利要求1至4中任一项所述的方法和如权利要求5至6中任一项所述的方法。8.一种网络设备中用于文档文件重构的装置,其中,该装置包括:解析装置,用于对文档文件进行解析,以获得...

【专利技术属性】
技术研发人员:陈昌兵
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1