文件中图片标注信息识别方法、装置及服务器制造方法及图纸

技术编号：15792473 阅读：472 留言：0更新日期：2017-07-10 00:47

本发明专利技术公开了一种文件中图片标注信息识别方法、装置、服务器及计算机存储介质。本发明专利技术先对文件中的文本对象进行文字样式聚类分析，得到具有不同文字样式的多个第一文本对象集合，从多个第一文本对象集合中过滤掉正文文本对象集合，针对每个图片页面，筛选得到至少一个第二文本对象集合，不仅可以节省验证资源，而且还提升了文件中图片标注信息的识别速率，针对每一个第二文本对象集合，对属于该文字样式的文本对象进行有效性验证，可以进一步提升图片与图片标注信息关联的准确性。利用本发明专利技术提供的技术方案，能够准确地将图片标注信息与图片关联在一起，保证关联后的文本对象能够正确地对图片进行解释和说明。

全部详细技术资料下载

【技术实现步骤摘要】
文件中图片标注信息识别方法、装置及服务器
本专利技术涉及信息处理
，具体涉及一种文件中图片标注信息识别方法、装置、服务器及计算机存储介质。
技术介绍
随着网络技术的发展，人们可以通过不同的设备、不同的途径获得各种各样的电子文件，这些电子文件极大地丰富了人们的工作和生活内容。很多时候，需要对电子文件进行重新排版，对于包含图片的文件，文件中一般还会包含图片的标注信息。然而，在现有技术的排版过程中，图片的标注信息的识别准确率较低，而且很容易将图片标注信息与图片错误地关联在一起，或者将文件中非图片标注信息与图片错误地关联在一起，导致关联后的文本并不能正确地对图片进行解释和说明，从而影响用户的阅读，进而影响文件的浏览量。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文件中图片标注信息识别方法、文件中图片标注信息识别装置、服务器和计算机存储介质。根据本专利技术的一个方面，提供了一种文件中图片标注信息识别方法，包括：对文件中的文本对象进行文字样式聚类分析，得到具有不同文字样式的多个第一文本对象集合；从多个第一文本对象集合中过滤掉正文文本对象集合；遍历文件的所有页面，查询到所有页面中包含图片的图片页面；针对每个图片页面，筛选得到至少一个第二文本对象集合；针对每一个第二文本对象集合，对属于该文字样式的文本对象进行有效性验证，判断该文字样式是否是图片标注信息的文字样式，若没通过有效性验证，则将属于该文字样式的第二文本对象集合过滤掉；从未被过滤掉的第二文本对象集合中提取出文本对象，根据文本对象与图片的相对位置关系确定文本对象...
文件中图片标注信息识别方法、装置及服务器

【技术保护点】
一种文件中图片标注信息识别方法，包括：对文件中的文本对象进行文字样式聚类分析，得到具有不同文字样式的多个第一文本对象集合；从多个第一文本对象集合中过滤掉正文文本对象集合；遍历文件的所有页面，查询到所有页面中包含图片的图片页面；针对每个图片页面，筛选得到至少一个第二文本对象集合；针对每一个第二文本对象集合，对属于该文字样式的文本对象进行有效性验证，判断该文字样式是否是图片标注信息的文字样式，若没通过有效性验证，则将属于该文字样式的第二文本对象集合过滤掉；从未被过滤掉的第二文本对象集合中提取出文本对象，根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。

【技术特征摘要】
1.一种文件中图片标注信息识别方法，包括：对文件中的文本对象进行文字样式聚类分析，得到具有不同文字样式的多个第一文本对象集合；从多个第一文本对象集合中过滤掉正文文本对象集合；遍历文件的所有页面，查询到所有页面中包含图片的图片页面；针对每个图片页面，筛选得到至少一个第二文本对象集合；针对每一个第二文本对象集合，对属于该文字样式的文本对象进行有效性验证，判断该文字样式是否是图片标注信息的文字样式，若没通过有效性验证，则将属于该文字样式的第二文本对象集合过滤掉；从未被过滤掉的第二文本对象集合中提取出文本对象，根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。2.根据权利要求1所述的方法，其中，所述针对每个图片页面，筛选得到至少一个第二文本对象集合进一步包括：针对每个图片页面，将图片页面中文本对象的文字字号与预设字号阈值进行比较，将文字字号小于或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集合。3.根据权利要求1或2所述的方法，其中，所述针对每个图片页面，筛选得到至少一个第二文本对象集合进一步包括：针对每个图片页面，判断包含图片与所述文本对象的最小矩形区域中是否覆盖了其他文本对象，若是，则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合，并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。4.根据权利要求1-3任一项所述的方法，其中，针对每一个第二文本对象集合，对属于该文字样式的文本对象进行有效性验证，判断该文字样式是否是图片标注信息的文字样式，若没通过有效性验证，则将属于该文字样式的第二文本对象集合过滤掉进一步包括：针对每一个第二文本对象集合，判断包含属于该文字样式的文本对象的页面是否都包含图片；若否，则将属于该文字样式的第二文本对象集合过滤掉，并将该第二文本对象集合确定为非图片标注信息的文本对象集合。5.根据权利要求1-3任一项所述的方法，其中，针对每一个第二文本对象集合，对属于该文字样式的文本对象进行有效性验证，判断该文字样式是否是图片标注信息的文字样式，若没通过有效性验证，则将属于该文字样式的第二文本对象集合过滤掉进一步包括：针对每一个第二文本对象集合，判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值；若否，则将属于该文字样式的第二文本对象集...

【专利技术属性】
技术研发人员：孙上斌，张恒，
申请(专利权)人：掌阅科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人