当前位置: 首页 > 专利查询>北京大学专利>正文

一种漫画图像版面的识别方法和自动识别系统技术方案

技术编号:14627861 阅读:131 留言:0更新日期:2017-02-12 18:18
本发明专利技术公布了一种漫画图像版面的识别方法和系统,通过利用能量最小化模型和图切分优化方法,自动识别出组成图像分镜边框的多边形,根据识别得到的多边形之间的几何位置关系得到图像分镜之间的阅读顺序,从而完成漫画版面的识别;包括前景背景分割、轮廓检测、多边形拟合、直线段检测、查找分镜和阅读顺序检测过程;识别系统包括前景背景分割模块、轮廓检测模块、直线段检测模块、分镜查找模块和后处理模块。本发明专利技术根据识别出的多边形的位置关系判断分镜阅读顺序,可以有效地处理较为复杂的漫画版面,提升处理效率并丰富移动设备用户的阅读体验。

【技术实现步骤摘要】

本专利技术属于图像处理与计算机视觉领域,涉及一种基于能量最小化模型的漫画图像版面的识别方法和自动识别系统
技术介绍
移动漫画是一类特殊的出版物,通常由简单幽默的画面组和少量的文字构成,深受不同国界不同年龄段的阅读者喜爱。近年来电子漫画正版化和漫画移动阅读普及化趋势明显,漫画数字出版行业面临着全新的机遇,同时付费阅读漫画的终端用户也对漫画内容、漫画质量和漫画移动阅读体验提出了全新的要求。当前没有足够多的漫画内容专门为移动阅读体验做出优化,大部分漫画内容提供商仅仅是逐页扫描已有的纸质漫画出版物,并将其存储为图像或者PDF文档,逐页地在移动设备上进行展示。在从纸质内容出版到电子内容出版的过渡期,漫画出版行业需要一个成熟的理解传统纸质漫画版面、并根据理解的内容调整版面以适应漫画移动阅读的系统。在漫画制作领域,独立的子图像常常被称为“分镜”。分镜是一个语义的概念,与电影中的分镜、戏剧的场景接近。它通常由两部分组成:1)角色的画面展示,对应于子图像中的图像内容部分;2)角色的语言展示即对白,即子图像中的字符块部分。目前的漫画书籍在创作时是以普通纸质书籍的页面大小进行版面设计的,一个页面通常包含多个分镜,而且这些分镜是以一定的排版规则进行排列的(如从上往下、从左往右)。这样导致了一个问题是,当用户在屏幕较小的终端例如智能手机上阅读对应的漫画图像时,无法完整地清晰地观看整个漫画图像,需要上下左右来回地拖动画面,阅读体验非常差。这一问题制约了漫画产业向数字化方向的发展。为了克服上述问题,文献“M.Yamadaetal.ComicImageDecompositionforReadingComicsonCellularPhones.IEEETrans.oninformationandsystems,2004”中第一次提出一种解决方案,该方案将漫画图像预先分割成一个个分镜,在显示时按阅读顺序依次显示各个分镜。上述文献还提出了一种对手工分割得到的分镜进行分镜阅读顺序检测的算法。然而,该方法局限性在于必须对于漫画版面进行手动的分割然后才能自动辨识分镜的阅读顺序,对于目前大量的漫画书籍和图像文件,手工完成上述工作费时费力。文献“T.Tanakaetal.Layoutanalysisoftree-structuredsceneframesincomicimages.IJCAI,2007”首次提出了一种将漫画图像分割成分镜的方法。该方法的基本假设是漫画总是能够用水平线和竖直线分割成一个个分镜(斜线可以按照斜率分为水平和竖直两种),按照分割的次序,漫画可以表示成一个树状的结构,其中根节点就代表整幅漫画,叶子节点就表示各个分镜,中间节点表示分割的方式。该文献同时提出了一种类似霍夫变换的分割线检测方法,并且对T字型分割线进行了特殊的处理。不难看出,这种方法的局限性较大,只能处理特定版式的漫画图像,对于分镜之间存在粘连的复杂情况难以进行处理。文献“C.Ponsardetal.Enhancingtheaccessibilityforallofdigitalcomicbooks.www.eminds.hci-rg.com,2009”提出了一种基于分水岭分割算法的分镜分割算法,主要思想是将漫画图像转为灰度图像进行二值化,然后对得到的前景图像进行分水岭分割,对分割得到的区域,去掉较小的,合并重叠较大的,然后得到分镜的分割结果。然而,该方法同样无法处理分镜之间有粘连的复杂漫画图像。综上所述,目前现有的大多数漫画版面分析识别只能处理较为简单的漫画版面,有些方法甚至必须依赖手工处理,而没有一种高效、通用的漫画图像版面分析识别方法和自动识别系统。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种漫画图像版面的识别方法和自动识别系统,充分利用能量最小化模型及其图切分优化算法,自动识别出组成分镜边框的多边形(大多数为四边形),并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序,从而完成漫画版面理解识别。本专利技术可以有效地处理较为复杂的漫画版面,提升处理效率并丰富移动设备用户的阅读体验。本专利技术提供的技术方案是:一种漫画图像版面的识别方法,通过利用能量最小化模型和图切分优化方法,自动识别出组成图像分镜边框的多边形,根据识别得到的多边形之间的几何位置关系得到图像分镜之间的阅读顺序,从而完成漫画版面的识别;包括如下步骤:1)进行前景背景分割过程,将输入图像转换为灰度图像,通过广度优先搜索方法得到背景区域,再将其他所有区域当作前景区域,并将漫画图像二值化为黑白二值图;2)进行轮廓检测过程,检测并提取得到所述黑白二值图的轮廓;3)对所述黑白二值图的轮廓进行多边形拟合:31)得到所述黑白二值图的轮廓之后,使用道格拉斯-普克算法对轮廓进行多边形拟合;32)对于能够拟合出四边形的轮廓,将拟合得到的四边形加入已识别的分镜中,转入执行步骤6);对于不能通过四边形拟合的轮廓,继续进行步骤4)直线段检测过程;进行多边形拟合时,如果一个轮廓能够拟合出四边形,我们认为拟合出四边形的轮廓就是一个分镜,不再执行查找分镜过程;当一个轮廓不能拟合出四边形时,需要执行直线段检测过程和查找分镜过程;查找分镜过程中,构造能量函数时,我们会将已经确认为分镜的四边形(拟合出的四边形)加入所构造的能量函数中,以帮助函数求解。4)直线段检测过程通过直线段检测过程逐个提取轮廓中所包含的直线段:具体可设定一个固定阈值,抛弃长度小于该阈值的分镜边线和从曲线上提取出的直线段,使用直线段的左端点坐标(x1,y1)和右端点坐标(x2,y2)表示一条直线段,从而得到被识别出的直线段;5)进行查找分镜过程,包括形成多边形过程和构造求解能量函数过程:51)形成多边形过程:对被识别出的直线段进行预处理,去除冗余的直线段进行拼接,成为完整的四边形,所述四边形作为可能的漫画图像分镜;52)构造求解能量函数过程:根据形成多边形过程中得到的可能的漫画图像分镜和已有的分镜构建图模型,连接图像分镜的节点形成图结构;根据形成的图结构,设定能量函数E(y;x,w)如式1:E(y;x,w)=∑p∈PΦ(1)(yp,x;w)+∑(p,q)∈NΦ(2)(yp,yq,x;w)(式1)其中,E表示总能量;y表示节点的标记值集合;yp表示节点p的标记值;x表示节点的特征集合;w是能量函数的参数;p∈p表示p是节点集合P的一个节点;(p,q)∈N表示节点p和q在邻域定义N中相邻;Φ(1)(yp,x;w)表示一元势能,对于未确定为分镜的四边形,其取值为...

【技术保护点】
一种漫画图像版面的识别方法,通过利用能量最小化模型和图切分优化方法,自动识别出组成图像分镜边框的多边形,根据识别得到的多边形之间的几何位置关系得到图像分镜之间的阅读顺序,从而完成漫画版面的识别;包括如下步骤:1)进行前景背景分割过程,将输入图像转换为灰度图像,通过广度优先搜索方法得到背景区域,再将其他所有区域当作前景区域,并将漫画图像二值化为黑白二值图;2)进行轮廓检测过程,检测并提取得到所述黑白二值图的轮廓;3)对所述黑白二值图的轮廓进行多边形拟合:31)得到所述黑白二值图的轮廓之后,使用道格拉斯‑普克算法对轮廓进行多边形拟合;32)对于能够拟合出四边形的轮廓,将拟合得到的四边形加入已识别的分镜中,转入执行步骤6);对于不能通过四边形拟合的轮廓,继续进行步骤4);4)进行直线段检测过程,逐个提取所述黑白二值图的轮廓中包含的直线段,具体通过设定一个固定阈值,当长度小于所述阈值,从曲线上提取出的直线段将被抛弃;再使用直线段的左端点坐标和右端点坐标表示一条直线段,由此识别提取得到所述黑白二值图的轮廓中包含的直线段;5)进行查找分镜过程,包括形成多边形过程和构造求解能量函数过程:51)形成多边形过程:对被识别出的直线段进行预处理,去除冗余的直线段进行拼接,成为完整的四边形,所述四边形作为可能的漫画图像分镜;52)构造求解能量函数过程:根据形成多边形过程中得到的可能的漫画图像分镜和已有的分镜构建图模型,每个分镜作为图模型中的一个节点,连接图像分镜的节点形成图结构;根据形成的图结构,设定能量函数E(y;x,w)如式1:E(y;x,w)=Σp∈PΦ(1)(yp,x;w)+∑(p,q)∈NΦ(2)(yp,yq,x;w)    (式1)其中,E表示总能量;y表示节点的标记值集合;yp表示节点p的标记值;,yq表示节点q的标记值;x表示节点的特征集合;w是能量函数的参数;p∈P表示p是节点集合P的一个节点;(p,q)∈N表示节点p和q在邻域定义N中相邻;Φ(1)(yp,x;w)表示一元势能,对于未确定为分镜的四边形,其取值为100(1‑yp)xp+100yp(1‑xp),对于已确定为分镜的四边形,其取值为(1‑yp)·INF,INF表示无穷大;Φ(2)(yp,yp,x;w)表示二元势能;节点的标记值yp取值为0或1,0表示该节点相应的四边形不是分镜,1表示该节点相应的四边形是分镜;二元势能中的邻域定义N包含节点互斥和节点相邻两种;53)通过推断算法最小化式1中的能量函数,得到最优标记值集合,为所述能量函数的解;54)将最优标记值集合对应到四边形中,将标记值为1的四边形加入已识别的分镜中;6)将多边形识别结果作为阅读顺序检测过程的输入,所述阅读顺序检测过程根据多边形之间的几何位置关系识别得到分镜阅读顺序,由此完成漫画版面的识别。...

【技术特征摘要】
1.一种漫画图像版面的识别方法,通过利用能量最小化模型和图切分优化方法,自动识
别出组成图像分镜边框的多边形,根据识别得到的多边形之间的几何位置关系得到图像分镜
之间的阅读顺序,从而完成漫画版面的识别;包括如下步骤:
1)进行前景背景分割过程,将输入图像转换为灰度图像,通过广度优先搜索方法得到背
景区域,再将其他所有区域当作前景区域,并将漫画图像二值化为黑白二值图;
2)进行轮廓检测过程,检测并提取得到所述黑白二值图的轮廓;
3)对所述黑白二值图的轮廓进行多边形拟合:
31)得到所述黑白二值图的轮廓之后,使用道格拉斯-普克算法对轮廓进行多边形拟合;
32)对于能够拟合出四边形的轮廓,将拟合得到的四边形加入已识别的分镜中,转入执
行步骤6);对于不能通过四边形拟合的轮廓,继续进行步骤4);
4)进行直线段检测过程,逐个提取所述黑白二值图的轮廓中包含的直线段,具体通过设
定一个固定阈值,当长度小于所述阈值,从曲线上提取出的直线段将被抛弃;再使用直线段
的左端点坐标和右端点坐标表示一条直线段,由此识别提取得到所述黑白二值图的轮廓中包
含的直线段;
5)进行查找分镜过程,包括形成多边形过程和构造求解能量函数过程:
51)形成多边形过程:对被识别出的直线段进行预处理,去除冗余的直线段进行拼接,
成为完整的四边形,所述四边形作为可能的漫画图像分镜;
52)构造求解能量函数过程:根据形成多边形过程中得到的可能的漫画图像分镜和已有
的分镜构建图模型,每个分镜作为图模型中的一个节点,连接图像分镜的节点形成图结构;
根据形成的图结构,设定能量函数E(y;x,w)如式1:
E(y;x,w)=Σp∈PΦ(1)(yp,x;w)+∑(p,q)∈NΦ(2)(yp,yq,x;w)(式1)
其中,E表示总能量;y表示节点的标记值集合;yp表示节点p的标记值;,yq表示节点q的
标记值;x表示节点的特征集合;w是能量函数的参数;p∈P表示p是节点集合P的一个节点;
(p,q)∈N表示节点p和q在邻域定义N中相邻;Φ(1)(yp,x;w)表示一元势能,对于未确定为分
镜的四边形,其取值为100(1-yp)xp+100yp(1-xp),对于已确定为分镜的四边形,其取值为
(1-yp)·INF,INF表示无穷大;Φ(2)(yp,yp,x;w)表示二元势能;节点的标记值yp取值为0

\t或1,0表示该节点相应的四边形不是分镜,1表示该节点相应的四边形是分镜;二元势能中
的邻域定义N包含节点互斥和节点相邻两种;
53)通过推断算法最小化式1中的能量函数,得到最优标记值集合,为所述能量函数的
解;
54)将最优标记值集合对应到四边形中,将标记值为1的四边形加入已识别的分镜中;
6)将多边形识别结果作为阅读顺序检测过程的输入,所述阅读顺序检测过程根据多边形
之间的几何位置关系识别得到分镜阅读顺序,由此完成漫画版面的识别。
2.如权利要求1所述漫画图像版面的识别方法,其特征是,步骤1)所述通过广度优先
搜索得到背景区域,具体是:从左上角的像素点开始进行广度优先搜索,当准备搜索的像素
点与当前像素点集合的平均像素值差小于设定值,则将准备搜索的像素点加入当前像素点集
合;当准备搜索的像素点与当前像素点集合的平均像素值差不小于设定值,则新建一个像素
点集合,将准备搜索的像素点加入新建的像素点集合;重复上述搜索过程,直至漫画图像中
所有的像素点都被搜索过;搜索结束后,得到区域的矩形包围框面积最大的像素点集合,作
为背景区域。
3.如权利要求1所述漫画图像版面的识别方法,其特征是,在步骤2)所述进行轮廓检
测过程之前,对所述黑白二值图进行预处理,所述预处理包括对所述黑白二值图进行一...

【专利技术属性】
技术研发人员:周亚峰王勇涛汤帜
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1