一种漫画图像版面的识别方法和自动识别系统技术方案

技术编号：14627861 阅读：131 留言：0更新日期：2017-02-12 18:18

本发明专利技术公布了一种漫画图像版面的识别方法和系统，通过利用能量最小化模型和图切分优化方法，自动识别出组成图像分镜边框的多边形，根据识别得到的多边形之间的几何位置关系得到图像分镜之间的阅读顺序，从而完成漫画版面的识别；包括前景背景分割、轮廓检测、多边形拟合、直线段检测、查找分镜和阅读顺序检测过程；识别系统包括前景背景分割模块、轮廓检测模块、直线段检测模块、分镜查找模块和后处理模块。本发明专利技术根据识别出的多边形的位置关系判断分镜阅读顺序，可以有效地处理较为复杂的漫画版面，提升处理效率并丰富移动设备用户的阅读体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理与计算机视觉领域，涉及一种基于能量最小化模型的漫画图像版面的识别方法和自动识别系统。
技术介绍
移动漫画是一类特殊的出版物，通常由简单幽默的画面组和少量的文字构成，深受不同国界不同年龄段的阅读者喜爱。近年来电子漫画正版化和漫画移动阅读普及化趋势明显，漫画数字出版行业面临着全新的机遇，同时付费阅读漫画的终端用户也对漫画内容、漫画质量和漫画移动阅读体验提出了全新的要求。当前没有足够多的漫画内容专门为移动阅读体验做出优化，大部分漫画内容提供商仅仅是逐页扫描已有的纸质漫画出版物，并将其存储为图像或者PDF文档，逐页地在移动设备上进行展示。在从纸质内容出版到电子内容出版的过渡期，漫画出版行业需要一个成熟的理解传统纸质漫画版面、并根据理解的内容调整版面以适应漫画移动阅读的系统。在漫画制作领域，独立的子图像常常被称为“分镜”。分镜是一个语义的概念，与电影中的分镜、戏剧的场景接近。它通常由两部分组成：1)角色的画面展示，对应于子图像中的图像内容部分；2)角色的语言展示即对白，即子图像中的字符块部分。目前的漫画书籍在创作时是以普通纸质书籍的页面大小进行版面设计的，一个页面通常包含多个分镜，而且这些分镜是以一定的排版规则进行排列的(如从上往下、从左往右)。这样导致了一个问题是，当用户在屏幕较小的终端例如智能手机上阅读对应的漫画图像时，无法完整地清晰地观看整个漫画图像，需要上下左右来回地拖动画面，阅读体验非常差。

【技术保护点】
一种漫画图像版面的识别方法，通过利用能量最小化模型和图切分优化方法，自动识别出组成图像分镜边框的多边形，根据识别得到的多边形之间的几何位置关系得到图像分镜之间的阅读顺序，从而完成漫画版面的识别；包括如下步骤：1)进行前景背景分割过程，将输入图像转换为灰度图像，通过广度优先搜索方法得到背景区域，再将其他所有区域当作前景区域，并将漫画图像二值化为黑白二值图；2)进行轮廓检测过程，检测并提取得到所述黑白二值图的轮廓；3)对所述黑白二值图的轮廓进行多边形拟合：31)得到所述黑白二值图的轮廓之后，使用道格拉斯‑普克算法对轮廓进行多边形拟合；32)对于能够拟合出四边形的轮廓，将拟合得到的四边形加入已识别的分镜中，转入执行步骤6)；对于不能通过四边形拟合的轮廓，继续进行步骤4)；4)进行直线段检测过程，逐个提取所述黑白二值图的轮廓中包含的直线段，具体通过设定一个固定阈值，当长度小于所述阈值，从曲线上提取出的直线段将被抛弃；再使用直线段的左端点坐标和右端点坐标表示一条直线段，由此识别提取得到所述黑白二值图的轮廓中包含的直线段；5)进行查找分镜过程，包括形成多边形过程和构造求解能量函数过程：51)形成多...

【技术特征摘要】
1.一种漫画图像版面的识别方法，通过利用能量最小化模型和图切分优化方法，自动识
别出组成图像分镜边框的多边形，根据识别得到的多边形之间的几何位置关系得到图像分镜
之间的阅读顺序，从而完成漫画版面的识别；包括如下步骤：
1)进行前景背景分割过程，将输入图像转换为灰度图像，通过广度优先搜索方法得到背
景区域，再将其他所有区域当作前景区域，并将漫画图像二值化为黑白二值图；
2)进行轮廓检测过程，检测并提取得到所述黑白二值图的轮廓；
3)对所述黑白二值图的轮廓进行多边形拟合：
31)得到所述黑白二值图的轮廓之后，使用道格拉斯-普克算法对轮廓进行多边形拟合；
32)对于能够拟合出四边形的轮廓，将拟合得到的四边形加入已识别的分镜中，转入执
行步骤6)；对于不能通过四边形拟合的轮廓，继续进行步骤4)；
4)进行直线段检测过程，逐个提取所述黑白二值图的轮廓中包含的直线段，具体通过设
定一个固定阈值，当长度小于所述阈值，从曲线上提取出的直线段将被抛弃；再使用直线段
的左端点坐标和右端点坐标表示一条直线段，由此识别提取得到所述黑白二值图的轮廓中包
含的直线段；
5)进行查找分镜过程，包括形成多边形过程和构造求解能量函数过程：
51)形成多边形过程：对被识别出的直线段进行预处理，去除冗余的直线段进行拼接，
成为完整的四边形，所述四边形作为可能的漫画图像分镜；
52)构造求解能量函数过程：根据形成多边形过程中得到的可能的漫画图像分镜和已有
的分镜构建图模型，每个分镜作为图模型中的一个节点，连接图像分镜的节点形成图结构；
根据形成的图结构，设定能量函数E(y；x，w)如式1：
E(y；x，w)＝Σp∈PΦ(1)(yp，x；w)+∑(p,q)∈NΦ(2)(yp，yq，x；w)(式1)
其中，E表示总能量；y表示节点的标记值集合；yp表示节点p的标记值；，yq表示节点q的
标记值；x表示节点的特征集合；w是能量函数的参数；p∈P表示p是节点集合P的一个节点；
(p,q)∈N表示节点p和q在邻域定义N中相邻；Φ(1)(yp，x；w)表示一元势能，对于未确定为分
镜的四边形，其取值为100(1-yp)xp+100yp(1-xp)，对于已确定为分镜的四边形，其取值为
(1-yp)·INF，INF表示无穷大；Φ(2)(yp，yp，x；w)表示二元势能；节点的标记值yp取值为0

\t或1，0表示该节点相应的四边形不是分镜，1表示该节点相应的四边形是分镜；二元势能中
的邻域定义N包含节点互斥和节点相邻两种；
53)通过推断算法最小化式1中的能量函数，得到最优标记值集合，为所述能量函数的
解；
54)将最优标记值集合对应到四边形中，将标记值为1的四边形加入已识别的分镜中；
6)将多边形识别结果作为阅读顺序检测过程的输入，所述阅读顺序检测过程根据多边形
之间的几何位置关系识别得到分镜阅读顺序，由此完成漫画版面的识别。
2.如权利要求1所述漫画图像版面的识别方法，其特征是，步骤1)所述通过广度优先
搜索得到背景区域，具体是：从左上角的像素点开始进行广度优先搜索，当准备搜索的像素
点与当前像素点集合的平均像素值差小于设定值，则将准备搜索的像素点加入当前像素点集
合；当准备搜索的像素点与当前像素点集合的平均像素值差不小于设定值，则新建一个像素
点集合，将准备搜索的像素点加入新建的像素点集合；重复上述搜索过程，直至漫画图像中
所有的像素点都被搜索过；搜索结束后，得到区域的矩形包围框面积最大的像素点集合，作
为背景区域。
3.如权利要求1所述漫画图像版面的识别方法，其特征是，在步骤2)所述进行轮廓检
测过程之前，对所述黑白二值图进行预处理，所述预处理包括对所述黑白二值图进行一...

【专利技术属性】
技术研发人员：周亚峰，王勇涛，汤帜，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人