当前位置: 首页 > 专利查询>北京大学专利>正文

基于对白和分镜联合识别的漫画图像版面识别方法和系统技术方案

技术编号:13205306 阅读:53 留言:0更新日期:2016-05-12 12:28
本发明专利技术公布了一种基于对白和分镜联合识别的漫画图像版面识别方法和系统,将漫画图像分为分镜层和对白层;包括:提取得到漫画图像版面中的分镜;提取得到漫画图像版面中的对白;进行分镜与分镜、对白与对白、分镜与对白的联合识别:利建立能量最小化函数,通过优化求解能量最小化函数,得到分镜多边形和对白包围框的标记结果;根据多边形几何位置关系,识别得到阅读顺序;由此完成漫画图像版面的识别。本发明专利技术突破了只注重构成对象的独立提取、忽视构成对象间联系的识别方法的局限性,提高了分镜识别的准确率,具有更强的通用性。

【技术实现步骤摘要】

本专利技术属于图像处理与计算机视觉领域,涉及一种基于对白和分镜联合识别的漫 画图像版面识别方法和系统。
技术介绍
近年来,随着各种移动终端如智能手机、平板电脑、电子书阅读器的普及,移动阅 读发展迅猛,正逐步成为我们生活中不可或缺的一个组成部分。由于各种终端硬件制造工 艺完善和制造成本的不断下降,目前移动阅读进入了 "内容为王"的时代,如何制作适合在 移动终端上阅读的内容是目前移动阅读所面临的关键问题之一。本专利技术从漫画移动阅读入 手,改善用户的阅读体验。 漫画是一类相对特殊的出版物,其页面通常被分成若干个独立的子图像,在漫画 制作领域,这些独立的子图像常常被称为"分镜"。分镜是一个语义的概念,与电影中的分 镜、戏剧中的场景含义相近,它通常由两部分组成:1)角色的画面展示,对应于子图像中的 图像内容部分;2)角色的语言展示,即对白,对应于子图像中的字符块及特定形状的包围框 部分。 现有的漫画出版物通常针对纸质媒介进行排版设计,由于移动终端屏幕大小的限 制,这些出版物的电子文档(用于出版物印刷的roF等格式的电子文件或者纸质文档的扫描 图像文档)并不能很好地在移动终端进行展示。为了解决这一问题,国内外相关研究人员提 出对这些出版电子文档页面(以下简称文档页面)按内容进行一定粒度下的分解,然后在移 动终端上将分解后的内容逐条显示以获得更好的展示效果。例如,一个漫画页面无法在智 能手机的屏幕上完整且清晰地显示,但是若将漫画页面按内容分解成一幅一幅分镜进行显 示,则可以获得更好的显示效果。 为了实现这一解决方案,需要知道出版物每个页面内容的结构信息,如插图该如 何分解且它们之间的阅读先后顺序是怎样的。然而,现有的电子漫画文档并不直接包含这 些结构信息,需要额外地获取这些信息。采用人工标注的方法费时费力而且成本非常高,无 法满足移动终端上阅读内容制作日益增长的需求,因此迫切地需要相应的出版物电子文档 页面结构信息自动提取技术与方法。对于如学术期刊、书籍之类以文字内容为主要构成部 分的电子文档,现有的文档图像分析与理解方法通常可以取得较好的页面结构信息提取效 果。然而,对于移动阅读中比较受欢迎的漫画出版物的电子文档,其页面通常包含大量的图 形图像而且排版布局相对复杂,现有的文档图像分析与理解方法无法取得较好的提取结 果。 国内外针对漫画文档图像的分析与理解方法的工作开展得不够系统与充分,通常 借助于常规的文档图像处理分析方法,采用一些简单的规则和方法,局限性较大。针对目前 相关国内外研究现状及发展动态叙述如下: 针对漫画图像理解问题(即识别出漫画图像中的每个分镜、对白这些构成对象并 辨识出他们之间的阅读先后顺序),文献"T. Tanaka et al. Layout Analysis of Tree- Structured Scene Frames in Comic Images. IJCAI.2007"首次提出了一种将漫画图像分 割成分镜的方法(以下简称为分镜分割方法)及相应的分镜阅读顺序识别方法。该方法的基 本假设是漫画图像总是能够用水平线和竖直线分割成一个个分镜(斜线可以按斜率大小分 划到水平和竖直两种),按照分割的次序漫画图像可以表示成一个树状的结构,其中根节点 就代表整幅漫画,叶子节点就表示各个分镜,中间节点表示分割的方式(竖直或水平)。文献 "C.Ponsard et al. Enhancing the accessibility for all of digital comic books. www. eminds. hci-rg. com,2009"提出了一种基于分水岭分割算法的分镜分割方法及 相应的分镜阅读顺序识别方法。其主要思想是将漫画图像转为灰度图像进行二值化,然后 对得到的前景图像进行分水岭分割,对分割得到的区域,去掉较小的,合并重叠较大的,得 到最后的分镜分割结果。对于每个分镜,提取其矩形包围框,使用竖直方向-水平方向进行 排序,从而得到分镜的阅读顺序。文献"E.Hanet al .Efficient Page Layout Analysis on Small Devices.Journal of Zhejiang University.2009"提出了一种分镜分割算法,主要 思想是先利用投影法得到一些潜在的分割点,然后再用训练得到的多层感知器分类器来判 别这些潜在的分割点是否是真正的分割点。确定了分割点之后,再使用X-Y切割(X-Ycut)方 法完成对漫画页面图像的分割得到分割结果。该方法的缺点是只能处理分镜边框为矩形的 情况,且没有得到紧凑的分镜包围框。为了解决文献"T.Tanaka et al.Layout Analysis of Tree-Structured Scene Frames in Comic Images. IJCAI.2007" 中方法不能得到紧凑 分镜包围框的问题,文献"D.Ishii et al.A Study on Frame Position Detection of Digitized Comic Images.Workshop on Picture Coding and Image Processing·2010" 中提出了一种基于角点检测的漫画分割方法,主要思想是通过角点位置来精确定位分镜包 围框的拐角从而减少初始分割中的空白部分。该方法一样无法处理分镜之间有粘连的情 况。文南犬"K.Arai et al.Automatic E-Comic Content Adaptation.International Journal of Ubiquitous Computing.2010"中也提出了一种分镜分割方法,该方法的主要 步骤是先将图像二值化得到前景图像,然后进行连通分支搜索,将每个高度大于图像高度 的1/8、宽度大于图像宽度的1/6的连通分支作为一个分镜。对于分镜有粘连的情况,该方法 提出了一种进一步寻找分割线的解决方法。该方法的一个主要问题是,它并没有得到紧凑 分镜包围框,而只是用一个矩形代替,当实际的分镜包围框并不是矩形的时候分割效果比 车交差。文南犬"Anh Khoi Ngo Ho et al.Panel and Speech Balloon Extraction from Comic Books .IAPR International Workshop on Document Analysis Systems·2012"中 提出了一种基于区域生长和形态学处理的分镜分割方法。该文献采用了区域生长的分割方 法进行背景提取,初始种子点的选取为漫画图像的四个角上的像素点。为了处理分镜之间 有粘连的情况,该方法对得到的背景图像进行了 N次的膨胀然后进行N次的腐蚀。文献中使 用了 3x3的模板,N值选取为图像长宽中较小值的1/6。最后对形态学处理后的图像提取前景 的连通分量作为分镜分割结果。该方法完全依赖于经验,局限性太大,而且要进行2N次的形 态学操作,效率比较低。此外,上面所述的分镜和对白提取方法是通过一个个模块独立完成 的,往往会产生一些虚警,无法处理一些复杂的情况。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种基于对本文档来自技高网
...

【技术保护点】
一种基于对白和分镜联合识别的漫画图像版面识别方法,针对漫画图像按逻辑结构分为分镜层和对白层,每一层对应同一个逻辑层次的漫画构成对象;通过采用能量最小化模型方法提取得到多种漫画构成对象;再通过构建能量最小化函数和优化方法,针对所述提取得到的多种漫画构成对象进行联合识别,由此实现漫画图像版面识别;包括如下步骤:1)提取得到漫画图像版面中的分镜;2)提取得到漫画图像版面中的对白;3)针对步骤1)所述分镜和步骤2)所述对白,通过进行分镜与分镜、对白与对白、分镜与对白的联合识别:利用分镜和对白的关联关系建立能量最小化函数,通过优化求解能量最小化函数,得到分镜多边形和对白包围框的标记结果,从而识别得到漫画图像版面中的分镜和对白;4)将步骤3)识别得到的分镜多边形作为分镜阅读顺序检测过程的输入,所述分镜阅读顺序检测过程根据所述分镜多边形之间的几何位置关系,识别得到分镜阅读顺序;将步骤3)识别得到的对白包围框作为对白阅读顺序检测过程的输入,所述对白阅读顺序检测过程根据所述对白包围框之间的几何位置关系,识别得到对白文字,还可翻译为指定语言;由此完成漫画图像版面的识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:周亚峰王勇涛汤帜
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1