一种电子文档图文信息还原方法、存储设备及终端技术

技术编号:16755780 阅读:49 留言:0更新日期:2017-12-09 02:12
本发明专利技术公开的一种电子文档图文信息还原方法、存储设备及终端,包括:遍历电子文档中的图文元素;提取每个图文元素的属性,并进行存储;采用聚类算法,将属性相似的元素聚集在一起,形成一个群组;将每个群组内的所有元素进行合并或重组,形成新的复合元素,每一个群组对应一个新的复合元素;获取每个新的复合元素的属性;根据聚类迭代规则,判断本次迭代结果是否符合人类阅读规则;判断聚类迭代是否完毕;将迭代完毕的分层数据进行重组,得到新的图文信息,并进行输出。本发明专利技术快速有效,能够按照人类阅读逻辑,将传统的电子文档图文信息进行重组和还原,使得重组和还原结果能进行二次开发利用,适用于电子文档信息提取领域。

An electronic document graphic and text information reduction method, storage device and terminal

An electronic document information disclosed by the invention reduction method, storage equipment and terminal, including: graphic element traversal in an electronic document; each attribute extraction graphic elements, and memory; by clustering algorithm, the attributes of similar elements together to form a group; all the elements of each group. The merger or reorganization, the formation of new composite elements, each group corresponds to a new composite element; composite property to obtain new elements each; according to the clustering rules, to judge the iteration whether results conform to human reading rules; judging whether the clustering iteration is completed; the end of iterative hierarchical data reorganization get new information, and output. The invention is fast and effective. It can reorganize and restore the traditional electronic document and graph information according to human reading logic, making the result of reorganization and reduction available for two times, and is suitable for the field of electronic document information extraction.

【技术实现步骤摘要】
一种电子文档图文信息还原方法、存储设备及终端
本专利技术涉及电子文档信息提取的
,具体涉及一种电子文档图文信息还原方法、存储设备及终端。
技术介绍
由于电子打印文档比纸质文档方便收藏,随时可以按照原规格重新打印,所以应用越来越广泛。市面上的电子打印文档解决方案有不同的标准,如PDF、XPS、PCL等等。但是此类解决方案的目标在于保证文件在不同配置下(如不同打印机、不同操作系统等)打印出来的效果是一样的。在文件结构方面,文档里面的文字和图片并没有按照一般人的阅读逻辑进行编排,很难被二次利用。如果需要提取这些电子打印文档文件中的图文信息,那么必须创建一种方法,将这些图文按照一般人的阅读逻辑还原出来。
技术实现思路
针对相关技术中存在的不足,本专利技术所要解决的技术问题在于:提供一种快速有效,能够按照人类阅读逻辑,将传统的电子文档图文信息进行重组和还原,使得重组和还原结果能进行二次开发利用的电子文档图文信息还原方法、存储设备及终端。为解决上述技术问题,本专利技术采用的技术方案为:一种电子文档图文信息还原方法,包括:S101、遍历电子文档中的图文元素;S102、提取每个图文元素的属性,并进本文档来自技高网...
一种电子文档图文信息还原方法、存储设备及终端

【技术保护点】
一种电子文档图文信息还原方法,其特征在于:包括:S101、遍历电子文档中的图文元素;S102、提取每个图文元素的属性,并进行存储;S103、采用聚类算法,将属性相似的元素聚集在一起,形成一个群组;S104、将每个群组内的所有元素进行合并或重组,形成新的复合元素,每一个群组对应一个新的复合元素;S105、获取每个新的复合元素的属性;S106、根据聚类迭代规则,判断本次迭代结果是否符合人类阅读规则,如是,则执行步骤S107,否则,返回步骤S103;S107、判断聚类迭代是否完毕,如是,则执行步骤S108,否则,进入下一层迭代;S108、将迭代完毕的分层数据进行重组,得到新的图文信息,并进行输出。

【技术特征摘要】
1.一种电子文档图文信息还原方法,其特征在于:包括:S101、遍历电子文档中的图文元素;S102、提取每个图文元素的属性,并进行存储;S103、采用聚类算法,将属性相似的元素聚集在一起,形成一个群组;S104、将每个群组内的所有元素进行合并或重组,形成新的复合元素,每一个群组对应一个新的复合元素;S105、获取每个新的复合元素的属性;S106、根据聚类迭代规则,判断本次迭代结果是否符合人类阅读规则,如是,则执行步骤S107,否则,返回步骤S103;S107、判断聚类迭代是否完毕,如是,则执行步骤S108,否则,进入下一层迭代;S108、将迭代完毕的分层数据进行重组,得到新的图文信息,并进行输出。2.根据权利要求1所述的一种电子文档的图文信息还原方法,其特征在于:还包括:S109、根据关键字信息,提取出与关键字相关的图文内容,并进行输出。3.根据权利要求1所述的一种电子文档图文信息还原方法,其特征在于:所述将属性相似的元素聚集在一起,形成一个群组之前,还包括:确定元素之间的相似性,以判断这些元素是否属于同一个上层元素。4.根据权利要求1所述的一种电子文档图文信息还原方法,其特征在于:所述提取每个图文元素的属性,并进行存储,具体包括:对每...

【专利技术属性】
技术研发人员:邓国盛周宏锋
申请(专利权)人:广东顺德德力信息科技有限公司
类型:发明
国别省市:广东,44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1