本发明专利技术公布了一种基于多边形检测的漫画图像版面理解系统和方法。该方法可以自动识别出组成分镜边框的多边形,并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序,从而完成漫画版面理解。通过对于用户输入的漫画图像进行自动分析,从而获取漫画版面中的分镜,并且根据识别的分镜之间的几何位置关系判定其阅读顺序,从而使得漫画图像能更好地在移动设备上阅读。该方法能够自动理解漫画版面,解决了目前方法不能处理复杂布局版面的问题,可以提升处理效率和用户体验。
【技术实现步骤摘要】
本专利技术属于文档处理与计算机视觉领域,涉及。
技术介绍
随着电子书,电子报纸期刊等数字出版物的普及与发展,为当前数字出版相关技术提出了许多应用需求和挑战。漫画是一类特殊的出版物,通常由简单幽默的画面组和少量文字组成,深受不同国界不同年龄段的阅读者喜爱,并且越来越多的读者开始在数字终端上阅读电子漫画文档。目前这类电子漫画文档通常由纸质漫画书籍逐页扫描得到,直接以图像文档格式或者将图像转化为PDF文档格式进行存储和显示。一幅漫画图像可以被分成若干个独立的子图像(每个多边形边框以及包围的部 分)。在漫画制作领域,这些独立的子图像常常被称为“分镜”,由两部分组成1)角色的画面展示,对应于子图像中的图像内容部分;2)角色的语言展示即对白,即子图像中的字符块部分。目前漫画书籍在创作时是以普通纸质书籍的页面大小进行排版设计的。这样导致了一个问题,当用户在屏幕较小的终端(例如智能手机)上阅读对应的漫画图像时,无法完整清晰地观看整个漫画图像,需要上下左右来回拖动画面,阅读体验非常差,这一问题严重制约了漫画产业数字化进程。为了克服上述的问题,相关的解决方案在文献“M. Yamada et al. ComicImageDecomposition for Reading Comics on Cellular Phones.1EEE Trans.oninformation and systems, 2004”中第一次被提出,该方案是将漫画图像预先分割成一个个分镜,在显示时按阅读顺序依次显示各个分镜。针对第二种解决方案,一些研究人员对使用计算机自动完成上述任务(下文简称为漫画图像版面理解)进行了尝试,上述文献在提出第二种方案的同时,还提出了一种对手工分割得到的分镜进行分镜阅读顺序检测的算法。然而,该方法局限性在于必须对于漫画版面进行手动的分割然后才能自动辨识分镜的阅读顺序,对于目前大量的漫画书籍和图像文件,手工完成上述工作费时费力。文献“T. Tanaka et al. Layout analysis of tree-structuredscene frames in comic images.1JCAI,2007”首次提出了一种将漫画图像分割成分镜的方法(下文简称为分镜分割方法)。该方法的基本假设是漫画总是能够用水平线和竖直线分割成一个个分镜(斜线可以按照斜率分为水平和竖直两种),按照分割的次序,漫画可以表示成一个树状的结构,其中根节点就代表整幅漫画,叶子节点就表示各个分镜,中间节点表示分割的方式。该文献同时提出了一种类似霍夫变换的分割线检测方法,并且对T字型分割线进行了特殊的处理。不难看出,这种方法的局限性较大,只能处理特定版式的漫画图像,对于分镜之间存在粘连的复杂情况难以进行处理。文献“C. Ponsard et al. Enhancing the accessibility for allofdigital comic books, www. eminds. hc1-rg. com, 2009” 提出了一种基于分水岭分割算法的分镜分割算法,主要思想是将漫画图像转为灰度图像进行二值化,然后对得到的前景图像进行分水岭分割,对分割得到的区域,去掉较小的,合并重叠较大的,然后得到分镜的分割结果。然而,该方法同样无法处理分镜之间有粘连的复杂漫画图像。可见,目前的漫画版面分析方法大多数方法只能处理较为简单的漫画版面,有些甚至必须依赖手工处理,而没有一种高效、通用的漫画图像版面理解方法。
技术实现思路
为了实现高效通用的漫画版面分析,本专利技术提出一种基于多边形检测的漫画图像理解方法,该方法可以自动识别出组成分镜边框的多边形(大多数为四边形),并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序,从而完成漫画版面理解。本专利技术可以提供一种高效通用的漫画版面分析方法,可以有效地处理较为复杂的漫画版面。本专利技术所述的漫画内容主要是由漫画书逐页扫描得到的漫画图像或由漫画出版商提供的图像格式的漫画包。本专利技术提供的技术方案如下一种基于多边形检测的漫画图像版面理解系统(如图1),包括直线段检测模块、多边形检测模块;其中,所述直线段检测模块,用于识别漫画图像中的直线段,并且记录这些直线段的位置信息;所述多边形检测模块,根据直线段检测模块检测的结果,对直线段进行拼接,识别出完整的多边形,并且用识别出的多边形作为对应分镜的位置信息;该模块和直线段检测模块共同完成分镜的识别与提取。所述的漫画图像版面理解系统,其特征是,该系统还包括阅读顺序检测模块,该模块以分镜的识别与提取的结果作为输入,即用被识别分割出的分镜作为输入,根据多边形之间的几何位置关系,将这些多边形代表的分镜进行排序,然后将排序后的分镜连同各分镜的位置信息一同输入到具有版式信息的漫画文件中去,从而实现漫画版面的自动理解。所述的漫画图像版面理解系统,其特征是,所述系统还包括多边形验证模块,如果用户认为漫画版面分割结果不理想,或者需要进行结果的修正,用户使用该模块进行修正。所述的漫画图像版面理解系统,其特征是,所述多边形验证模块,可以通过设定规则筛选识别出的分镜从而实现自动的多边形验证。所述的漫画图像版面理解系统,其特征是,所述多边形验证模块,计算在分镜边框上的被检测直线段长度之和与分镜边框周长的比例,如果大于50%,则通过筛选,否则未通过。本专利技术同时提供一种基于多边形检测的漫画图像版面理解方法(流程参见图2),包括如下步骤(I)漫画图像输入用户首先获得图像格式的漫画电子文件(例如jpg、png等格式的文件),这些文件是由纸质漫画逐页扫描得到或是由漫画出版商提供的图像格式的漫画包(将漫画图像逐页编号并压缩成为.zip,,rar等格式的压缩文件包),并且用户将这些漫画图像逐页输入系统;(2)直线段检测检测出漫画图像中的直线段,这些直线段的大部分都是组成漫画图像中分镜边框的直线段;(3)多边形检测(直线拼接):在得到组成分镜边框的直线段之后,将这些直线段拼接成为完整的分镜边框;(4)分镜阅读顺序检测根据识别出的多边形直线的几何位置关系对分镜进行排序;(5)返回版面理解结果将版面理解与分析得到的多边形的几何位置以及多边形之间的阅读顺序作为版式信息存储到漫画文件中,并且通过阅读终端展示给用户。所述的漫画图像版面理解方法,其特征是,步骤(3)的实现方法如下a)第一轮直线段聚合去除直线检测阶段得到的冗余直线段,从而减少计算量;b)第二轮直线段聚合将属于同一个分镜边框的直线段聚合,形成分镜的包围框;c)后处理由于有些漫画的分镜布局较为复杂,甚至产生粘连,因此由第二轮直线聚合产生的分镜可能是破碎不完整的,因此,后处理阶段将这些破碎的分镜边框通过一定的规则进行补全。本专利技术的效果在于实现了一种基于多边形检测的漫画版面理解方法。通过对于用户输入的漫画图像进行自动分析,从而获取漫画版面中的分镜,并且根据识别的分镜之间的几何位置关系判定其阅读顺序,从而使得漫画图像能更好地在移动设备上阅读。该方法能够自动理解漫画版面,解决了目前方法不能处理复杂布局版面的问题,可以提升处理效率和用户体验。附图说明图1为本专利技术提供的系统结构图;图2为本专利技术提供的最佳实施例的流程图;图3为具体实施方式中两条直线段在平行方向有交叠的示意本文档来自技高网...
【技术保护点】
一种基于多边形检测的漫画图像版面理解系统,其特征是,包括:直线段检测模块、多边形检测模块;其中,所述直线段检测模块,用于识别漫画图像中的直线段,并且记录这些直线段的位置信息;所述多边形检测模块,根据直线段检测模块检测的结果,对直线段进行拼接,识别出完整的多边形,并且用识别出的多边形作为对应分镜的位置信息;该模块和直线段检测模块共同完成分镜的识别与提取。
【技术特征摘要】
【专利技术属性】
技术研发人员:李鹿原,王勇涛,汤帜,
申请(专利权)人:北京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。