文件中图片标注信息识别方法、装置及服务器制造方法及图纸

技术编号:15792473 阅读:472 留言:0更新日期:2017-07-10 00:47
本发明专利技术公开了一种文件中图片标注信息识别方法、装置、服务器及计算机存储介质。本发明专利技术先对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合,从多个第一文本对象集合中过滤掉正文文本对象集合,针对每个图片页面,筛选得到至少一个第二文本对象集合,不仅可以节省验证资源,而且还提升了文件中图片标注信息的识别速率,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,可以进一步提升图片与图片标注信息关联的准确性。利用本发明专利技术提供的技术方案,能够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正确地对图片进行解释和说明。

【技术实现步骤摘要】
文件中图片标注信息识别方法、装置及服务器
本专利技术涉及信息处理
,具体涉及一种文件中图片标注信息识别方法、装置、服务器及计算机存储介质。
技术介绍
随着网络技术的发展,人们可以通过不同的设备、不同的途径获得各种各样的电子文件,这些电子文件极大地丰富了人们的工作和生活内容。很多时候,需要对电子文件进行重新排版,对于包含图片的文件,文件中一般还会包含图片的标注信息。然而,在现有技术的排版过程中,图片的标注信息的识别准确率较低,而且很容易将图片标注信息与图片错误地关联在一起,或者将文件中非图片标注信息与图片错误地关联在一起,导致关联后的文本并不能正确地对图片进行解释和说明,从而影响用户的阅读,进而影响文件的浏览量。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文件中图片标注信息识别方法、文件中图片标注信息识别装置、服务器和计算机存储介质。根据本专利技术的一个方面,提供了一种文件中图片标注信息识别方法,包括:对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;从多个第一文本对象集合中过滤掉正文文本对象集合;遍历文件的所有页面,查询到所有页面中包含图片的图片页面;针对每个图片页面,筛选得到至少一个第二文本对象集合;针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。根据本专利技术的另一方面,提供了一种文件中图片标注信息识别装置,包括:聚类分析模块,适于对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;过滤模块,适于从多个第一文本对象集合中过滤掉正文文本对象集合;查询模块,适于遍历文件的所有页面,查询到所有页面中包含图片的图片页面;筛选模块,适于针对每个图片页面,筛选得到至少一个第二文本对象集合;验证模块,适于针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;关联模块,适于从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。根据本专利技术的又一方面,提供了一种服务器,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文件中图片标注信息识别方法对应的操作。根据本专利技术的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行如上述文件中图片标注信息识别方法对应的操作。根据本专利技术提供的方案,先对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合,从多个第一文本对象集合中过滤掉正文文本对象集合,针对每个图片页面,筛选得到至少一个第二文本对象集合,不仅可以节省验证资源,而且还提升了文件中图片标注信息的识别速率,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,可以进一步提升图片与图片标注信息关联的准确性。利用本专利技术提供的技术方案,能够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正确地对图片进行解释和说明。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的文件中图片标注信息识别方法的流程示意图;图2示出了根据本专利技术另一个实施例的文件中图片标注信息识别方法的流程示意图;图3示出了根据本专利技术另一个实施例的文件中图片标注信息识别方法的流程示意图;图4是最小矩形区域的示意图;图5示出了页面包含的图片和图片标注信息的示意图;图6示出了根据本专利技术一个实施例的文件中图片标注信息识别装置的结构示意图;图7示出了根据本专利技术另一个实施例的文件中图片标注信息识别装置的结构示意图;图8示出了根据本专利技术另一个实施例的文件中图片标注信息识别装置的结构示意图;图9示出了根据本专利技术一个实施例的服务器的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的文件中图片标注信息识别方法的流程示意图。其中,图片标注信息包括:图题和/或图注,文本对象设置在图片上方称为图题,文本对象设置在图片下方称为图注。如图1所示,该方法包括以下步骤:步骤S100,对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合。在对文件中的文本对象进行文字样式聚类分析之前,需要对文件进行初步识别,得到文件包含的文本对象,然后对文件中的文本对象进行解析得到文本对象的文字样式,在得到文字样式之后,对文本对象进行文字样式聚类分析,将具有相同文字样式的文本对象聚类在一起,得到具有不同文字样式的多个第一文本对象集合,其中,每个第一文本对象集合包含同一种文字样式的文本对象。步骤S101,从多个第一文本对象集合中过滤掉正文文本对象集合。步骤S100是对整个文件中的文本对象进行的文字样式聚类分析,所得到的多个第一文本对象集合中包含了正文文本对象集合,一般情况下,正文的文本对象的项数较多,为了能够提升图片标注信息识别速率,节省验证资源,可以首先从多个第一文本对象集合中过滤掉正文文本对象集合,其中,正文文本对象集合为非图片标注信息的文本对象集合。步骤S102,遍历文件的所有页面,查询到所有页面中包含图片的图片页面。对于任一文件,可能存在部分页面不包含图片的情况,因此,需要遍历文件的所有页面,从文件的所有页面中查找出包含图片的图片页面,具体地,可以根据图片属性信息查询到所有页面中包含图片的图片页面。步骤S103,针对每个图片页面,筛选得到至少一个第二文本对象集合。在查询到所有页面中包含图片的图片页面之后,针对每个图片页面,还需要筛选得到文本对象集合可能是图片标注信息的文本对象集合,即,至少一个第二文本对象集合。步骤S104,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉。步骤S103仅是粗略的筛选,本文档来自技高网...
文件中图片标注信息识别方法、装置及服务器

【技术保护点】
一种文件中图片标注信息识别方法,包括:对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;从多个第一文本对象集合中过滤掉正文文本对象集合;遍历文件的所有页面,查询到所有页面中包含图片的图片页面;针对每个图片页面,筛选得到至少一个第二文本对象集合;针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。

【技术特征摘要】
1.一种文件中图片标注信息识别方法,包括:对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;从多个第一文本对象集合中过滤掉正文文本对象集合;遍历文件的所有页面,查询到所有页面中包含图片的图片页面;针对每个图片页面,筛选得到至少一个第二文本对象集合;针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。2.根据权利要求1所述的方法,其中,所述针对每个图片页面,筛选得到至少一个第二文本对象集合进一步包括:针对每个图片页面,将图片页面中文本对象的文字字号与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集合。3.根据权利要求1或2所述的方法,其中,所述针对每个图片页面,筛选得到至少一个第二文本对象集合进一步包括:针对每个图片页面,判断包含图片与所述文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。4.根据权利要求1-3任一项所述的方法,其中,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉进一步包括:针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象的页面是否都包含图片;若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。5.根据权利要求1-3任一项所述的方法,其中,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉进一步包括:针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值;若否,则将属于该文字样式的第二文本对象集...

【专利技术属性】
技术研发人员:孙上斌张恒
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1