一种版式文档处理方法及装置制造方法及图纸

技术编号:13031812 阅读:43 留言:0更新日期:2016-03-17 03:16
本发明专利技术提供的版式文档处理方法及装置,该方法包括首先对版式文档进行分割,并获取每个文本分割块的描述信息,然后将文本分割块进行聚类,合并同类的文本分割块根据聚类后的文本分割块对应的所述描述信息构建描述文件,将所述描述文件内嵌到版式文档中,建立内嵌字描述信息;将版式文档的原路径描述信息替换为所述内嵌字描述信息。该方案压缩了文档中使用不同参数描述同一形态路径时产生的数据量,实现路径去重,路径描述信息可以大大简化,避免了现有技术中对于相同的内容也需要重复描述,路径结构复杂、参数繁多的缺陷,大大减少了版式文档中所包含的数据量,优化了版式文档的文档结构。

【技术实现步骤摘要】

本专利技术涉及电子文档处理领域,具体涉及一种版式文档处理方法及装置
技术介绍
版式文档格式是版面呈现效果固定的一种电子文档格式,版式文档的呈现与设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致的。版式文档主要应用于成文后文件的发布、传播和存档。版式文档的特点是版面固定、不跑版,在版式、版面、字体、字号等方面与纸质文件保持完全一致。版式文档格式的特点使它成为电子文档发布、数字化信息传播和存档的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用版式文档。在版式文档中,描述文字和图案经常使用的描述信息包括路径描述信息,此类描述信息的数据量较大,此外,在同一文档中,视觉相同的文字和图案经常会在不同位置以不同大小的形式反复出现,现有技术中会对这些视觉相同的内容进行重复描述,但是在描述信息中,除表示大小的参数不同外,其余描述参数基本相同。由于描述信息中结构复杂、参数繁多,在反复使用时会造成文档数据量庞大,而描述信息中数据的重复度又很高,文档结构不清晰。
技术实现思路
因此,本专利技术要解决的技术问题在于克服现有技术中的文档数据量庞大、文档结构不清晰的缺陷。本专利技术提供一种版式文档处理方法,包括如下步骤:对所述版式文档进行分割,提取分割后的每个文本分割块的坐标信息;针对每个文本分割块,根据所述坐标信息查找其对应的版式文档的描述信息;将所述文本分割块进行聚类,合并同类的文本分割块;根据聚类后的文本分割块对应的所述描述信息构建描述文件,将所述描述文件内嵌到版式文档中,建立内嵌字描述信息;将版式文档中原来的路径描述信息替换为所述内嵌字描述信息。 优选地,所述将所述文本分割块进行聚类,合并同类的文本分割块的步骤,包括:将所述文本分割块进行归一化;将归一化后的文本分割块的图像进行比较,将差异在预设阈值内的文本分割块归为同类。优选地,所述文本分割块包括图像分割块、文字分割块、图形分割块中的一个或几种。本专利技术还提供一种版式文档处理装置,包括:分割单元,对所述版式文档进行分割,提取分割后的每个文本分割块的坐标信息;描述单元,针对每个文本分割块,根据所述坐标信息查找其对应的版式文档的描述信息;聚类单元,将所述文本分割块进行聚类,合并同类的文本分割块;内嵌单元,根据聚类后的文本分割块对应的所述描述信息构建描述文件,将所述描述文件内嵌到版式文档中,建立内嵌字描述信息;替换单元,将版式文档中原来的路径描述信息替换为所述内嵌字描述信息。优选地,聚类单元包括:归一化子单元,将所述文本分割块进行归一化;聚类子单元,将归一化后的文本分割块的图像进行比较,将差异在预设阈值内的文本分割块归为同类。优选地,所述文本分割块包括图像分割块、文字分割块、图形分割块中的一个或几种。本专利技术技术方案,具有如下优点:1.本专利技术提供的版式文档处理方法及装置,该方法包括首先对版式文档进行分害J,并获取每个文本分割块的描述信息,然后将文本分割块进行聚类,合并同类的文本分割块根据聚类后的文本分割块对应的所述描述信息构建描述文件,将所述描述文件内嵌到版式文档中,建立内嵌字描述信息;将版式文档的原路径描述信息替换为所述内嵌字描述信息。根据该方法建立的内嵌字描述信息,对于只是尺寸不同而内容相同的文本分割块,都对应相同的内嵌的描述文件,通过将版式文档中使用的描述信息转换为内嵌字描述,从而压缩了文档中使用不同参数描述同一形态路径时产生的数据量,实现路径去重,路径描述信息可以大大简化,避免了现有技术中对于相同的内容也需要重复描述,路径结构复杂、参数繁多的缺陷,大大减少了版式文档中所包含的数据量,优化了版式文档的文档结构。2.本专利技术提供的版式文档处理方法,将所述文本分割块进行聚类时,先将文本分割块进行归一化,将归一化后的文本分割块的图像进行比较,将差异在预设阈值内的文本分割块归为同类,这样就可以将只是尺寸不同而内容相同的文本分割块归为一类,对于文字、图形、图像都可以适用,通过合并的方式减少文档中的数据量。【附图说明】为了更清楚地说明本专利技术【具体实施方式】或现有技术中的技术方案,下面将对【具体实施方式】或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例1中版式文档的处理方法的一个具体示例的流程图;图2为本专利技术实施例2中的路径化文字与参数对照图;图3为本专利技术实施例2中的文字分割的示意图;图4为本专利技术实施例2中的文字分割块对应的信息的示意图;图5为本专利技术实施例2中的文本分割块聚类示意图;图6为本专利技术实施例2中的版式文档处理后的描述对照图;图7为本专利技术实施例3中版式文档的处理装置的结构框图。【具体实施方式】下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。实施例1本实施例中提供一种版式文档的处理方法,用于进一步简化版式文档的数据量,流程图如图1所示,包括以下步骤:S1、对所述版式文档进行分割,提取分割后的每个文本分割块的坐标信息。针对版式文档,通过分割方法进行分割,得到文本分割块,此处的分割方法可以结合现有技术中的字符分割技术、图形分割技术以及图像分割技术,针对每种样式的特点进行分割,分割后得到的文本分割块包括字符分割块,其中主要包括文字和数字;还包括图形分割块,其中是直线、圆形、弧线灯图形;还包括图像分割块,主要包括一些照片等图像块,此处的图像分割块在版式文档中以路径描述信息的方式存储,而不是以地址信息的方式存储。分割完成后,可以获得各个文本分割块的坐标信息,根据文本分割块的各个边缘角点坐标信息,例如可以获得左上角和右下角的坐标,通过该坐标可以得到文本分割块的宽、高等?目息。S2、针对每个文本分割块,根据所述坐标信息查找其对应的版式文档的描述信息。通过每个文本分割块的坐标信息,可以逆向到版式文档结构中查找该部分对应的路径描述信息,此处的描述信息是指对该文本分割块中的内容的描述信息,对于文字分割块,其对应的描述信息可以是字体描述信息或该字体对应的图形图像的描述信息;对于图形分割块或图像分割块,其路径描述信息是对其显示的内容的描述。S3、将所述文本分割块进行聚类,合并同类的文本分割块,该步骤包括:第一步,将所述文本分割块进行归一化。由于在版式文档的不同位置,可能存在内容相同仅尺寸不同的相同信息,通过将文本分割块进行归一化,可以更加方便的对图像进行比较。第二步,将归一化后的文本分割块的图像进行比较,将差异在预设阈值内的文本分割块归为同类。此处比较的是图像的像素间的差异,由于相同内容在展示时也存在些许差别,通过预设阈值来合并相近似的文本分割块,提高聚类精度。S4、根据聚类后的文本分割块对应的所述描述信息构建描述文件,将所述描述文件内嵌到版式文档中,建立内嵌字描述信息。通过构建内嵌描述文件,来表达各个文本分割块对应的内容的描述本文档来自技高网...

【技术保护点】
一种版式文档处理方法,其特征在于,包括如下步骤:对所述版式文档进行分割,提取分割后的每个文本分割块的坐标信息;针对每个文本分割块,根据所述坐标信息查找其对应的版式文档的描述信息;将所述文本分割块进行聚类,合并同类的文本分割块;根据聚类后的文本分割块对应的所述描述信息构建描述文件,将所述描述文件内嵌到版式文档中,建立内嵌字描述信息;将版式文档中原来的路径描述信息替换为所述内嵌字描述信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐剑波岳铁铸任仁
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1