一种书法字的最佳包围盒方法技术

技术编号:18764527 阅读:63 留言:0更新日期:2018-08-25 10:49
本发明专利技术公开了一种书法字的最佳包围盒方法,该方法首先对光学扫描或数码照相得到的书法作品图像进行去噪处理,去掉印章、自然风化和腐蚀留下的划痕、字体中的小空洞和霉点等;其次,对书法作品图像进行二值化处理,将灰度图像转化成二值图像;随后进行平滑和降噪处理,去除二值化后书法字边缘的凹凸不平;接下来引入非极大抑制方法消除多余包围盒,得到由书法作品切割成的单个书法字的最佳包围盒;最后,进行归一化处理。本发明专利技术方法引入非极大抑制方法,消除多余的包围盒,可有效地解决切割错误问题,其优点在于可为后续的书法字处理提供更好的数据,减少了书法字识别的错误率。

【技术实现步骤摘要】
一种书法字的最佳包围盒方法
本专利技术涉及图像处理领域,主要涉及书法字识别中的切割过程。
技术介绍
中华民族五千年文明以及丰富的文字记载都己为世人所认可,在这一璀璨的历史长河中,中国的书法艺术以独特的艺术形式和语言再现了这一转变过程。伴随着数字化技术的飞速发展,中国书法得以通过数字化的形式保存和共享,以一种新的形式展现在人们的面前。中国书法的计算机化是一个相当有挑战性的问题,特别是希望计算机像人一样自创出新的书法。在中国书法字的相关研究中昆士兰理工大学、浙江大学、香港科技大学走在业内前列,他们的研究主要在书法字的数字化应用、书法字的艺术再现、书法字的矢量轮廓的平滑、以及传统毛笔的电子化仿真模拟。对中国书法进行计算机化时,需要大量的书法字样本,这些书法字样本就来自于现存于世的碑帖、绘画、以及现有的临摹书法字贴等,因此在做中国书法字的相关研究时需要从扫描的图像中提取出单个的书法字。提取的方法有章夏芬在“中国数字书法检索与作品真伪鉴别的研究”【浙江大学,2006】中提出的最小包围盒的方法:先将书法作品图像屮的像素点映射到x轴,根据像素点在x轴上的分布情况,切割出单列的书法字,然后将单列的书法字图片上的像素点映射到y轴,根据像素点在y轴上的分布情况,完成单个书法字的切割。这种书法字的切割方法没有考虑到,如果某个书法字书写的时候,写的比较松散,采用这种方法将这个书法字的像素点映射到x轴时,会变成两部分,切割时就有可能将其切割成两个字,从而影响后续的书法字研究工作,对其带来不便,例如:会降低书法字的识别率。AT&T公司提供的DjVu格式通过将文字和背景分离开来,可以用高分辨率来还原文字,使锐利边缘得以保留,并最大限度地提高可辨性。
技术实现思路
为了解决上述切割错误的问题,本专利技术的目的在于提供一种书法字的最佳包围盒方法,通过引入非极大抑制(NMS)方法,判断包围盒的哪些是没用的,消除切割错误的多余包围盒边框,也就是抑制那些不是最大包围盒的边框,从而得到单个书法字的最佳包围盒。实现单个书法字的较完整提取,为后续书法字研究提供更加可靠的依据,从而提高后续书法字研究结果的精确度。本专利技术的技术方案如下:一种书法字的最佳包围盒方法,其特征在于:采用非极大抑制(NMS)方法消除多余的包围盒,从而得到由原始书法作品切割而成的单个书法字的最佳包围盒;包括以下步骤:步骤S1:扫描原始书法字作品,通过DjVuLibre从DjVu图像中获取返回的RGB值,并将图像转换成对应的二值图像,这样对复杂的DjVu格式的处理转变成对最简单的二值格式的处理。步骤S2:去噪处理。汉字的历史书法作品主要有两类:一类是书法家写在纸张上的,另一类是篆刻在石碑上的。从书籍纸张上扫描或翻拍得到的原始书法作品由于时间关系或不善保存等原因,页面图像常包含许多噪音,这些噪音位大多局限在一个个微小区域上,包括书法家和收藏家盖的红色印章、自然风化和腐蚀留下的划痕、字体中的小空洞和霉点等。而从石碑或其他器物上拓印或翻拍下来的原始书法作品也不可避免的会含有大量噪声。对于页面切分而言,一些书法作品中的印章、落款等也成为影响切分的不利因素。如果不将这些噪声去除,所有这些因素会会对字的切分造成不同程度的影响,影响页面切分效果及其后对书法字正确特征的提取,所以必须设法改善图像的质量,降低噪声。因此,为方便得提取有用的书法字信息,对原始作品图像进行去噪,包括去印章、自然沧桑腐蚀形成的划痕和斑点及书法作品的元数据信息(页码、作品名称等其他信息)。如果印章的颜色与背景色的差异要大于印章的颜色与书法字颜色的差异,那么印章会在二值化过程中自动剔除;反之;印章会被当作书法字前景色保留。令象素点(i,j)的RGB值分别为c→red,c→green,c→blue,若象素点色彩值满足下面不等式c→red>λ1×(0.59×c→green+0.11×c→blue)(其中λ为权值,此处λ1=1.25),则该点为红色的印章点,将其色彩修改成背景点颜色。对于自然沧桑腐蚀形成的划痕、斑点,可采用数学形态学方法中的开运算(先做腐蚀,再作膨胀)剔除书法字边缘小毛刺,用闭运算(先作膨胀,后做腐蚀)填充书法字由于自然腐蚀造成的小窟窿。除此之外,在书法书籍的页面上,除了书法作品区域外,通常还包含了页码、作品名称等其他信怠。这些信息存效表明了一些书法作品的元数据信息,但是对研究书法字木身来说,它们足无用的,因此需要预先去掉。步骤S3:二值化处理。书法作品的二值化是指将灰度图像转化成二值图像的过程,其目的是去除原始书法作品屮的颜色信息,简化后续处理,方便提取图像的前景——书法字。页面切分等后续的图像分析步骤很大程度上依赖于图像的二值化结果,因此高质量的二值化图像是得到较好的页面切分结果的重要前提。常见的二值化方法很多,其屮迭代法是一种自适应的二值化方法。它能够快速求取最佳阈值,并对灰度图像颜色进行判定。该方法通过将新阈值置为旧阈值以上及以下两区平均值的屮点迭代求取最佳阈值,然后根据最佳阈值实现图片二值化。步骤S4:平滑处理。首先去除二值化后书法字边缘的凹凸不平,最后对二值化后的书法作品进行降噪处理。为进一步去除噪声,需对二值化之后的图像进行平滑。对于像素的5x5邻域,如果出现毛刺或者空穴,则将该像素点反色。步骤S5:切割成单个书法字。手写体的切分有过很多研究。书法字的切分并不比普通手写体切分简单,主要原因是书法字页面干扰噪声比较多,譬如色彩丰富的背景(彩纸、墓碑、木板)、人为的印章等。我们先对原始作品进行对比度调整,去掉部分噪声、红色印章,接着对图像进行去噪和二值化处理,然后先将图片屮的像素点映射到x轴,根据像素点在x轴上的分布情况,切割出单列的书法字,接着将单列的书法字图片上的像素点映射到y轴,根据像素点在y轴上的分布情况,完成单个书法字的初步切割,再对这些单个书法字的包围盒使用非极大抑制(NMS)方法消除多余的包围盒,先根据切割的顺序对包围盒进行排序,再依据书法字的识别概率判断包围盒的哪些是无效的,若是无效的则与其上一个包围盒或者下一个包围盒合并,扔掉多余的边框,也就是抑制那些不是最大包围盒的边框,依次重复直到所有的书法字的识别概率都较高,从而得到单个书法字的最佳包围盒。步骤S6:归一化处理。本专利技术方案提出的算法切割所得的书法字大小是不同的。由于书法字帖与碑拓的不同,切出来的字颜色也不尽相同。由于一般的书法字具有相同的大小与颜色,因此需要首先将它们归一化成相同尺度和相同颜色。通过二值化将书法字图像转化成黑白两色的图像,而后根据图像的来源类型(字帖或者碑拓),将其转存为黑字白底的图像。对书法字大小的归一化处理跟对手写体的归一化处理一样,有两类归一化方法:线性归一化和非线性归一化。为了保留了书法字的密度信息,我们采用陈友斌等人提出的基于笔画穿透数目的非线性归一化方法:令f(x,y)为归一化之前的书法字图像点阵M0×N0,g(m,n)为归一化之后的书法字点阵M1×N1,其中m=1,2,...,M1,n=1,2,...,N1,d(x,y)为书法字点阵在各处的笔划密度函数,H(x)、V(y)分别为密度函数在水平和垂直方向上的密度投影,则:而归一化算子为:所述步骤S1中对于光学扫描或数码照相得到的彩色书法作品图像,本文档来自技高网
...

【技术保护点】
1.一种书法字的最佳包围盒方法,其特征在于:采用非极大抑制方法NMS消除多余的包围盒,从而得到由原始书法作品切割而成的单个书法字的最佳包围盒;包括以下步骤:步骤S1:扫描原始书法字作品,通过DjVuLibre从DjVu图像中获取返回的RGB值,并将图像转换成对应的二值图像;步骤S2:去噪处理,包括去印章、自然沧桑腐蚀形成的划痕和斑点及书法作品的元数据信息;步骤S3:二值化处理,去除原始书法作品屮的颜色信息,将灰度图像转化成二值图像;步骤S4:平滑处理,去除毛刺或者空穴;步骤S5:采用非极大抑制方法NMS消除多余的包围盒,得到单个书法字最佳包围盒;a)采用最小包围盒的方法,将图片屮的像素点映射到x轴,根据像素点在x轴上的分布情况,切割出单列的书法字,然后将单列的书法字图片上的像素点映射到y轴,根据像素点在y轴上的分布情况,完成初步的单个书法字切割;b)采用非极大抑制方法NMS消除多余的包围盒,切割错误的包围盒,判断包围盒的哪些是没用的,根据切割的顺序对包围盒进行排序,再依据书法字的识别概率判断包围盒的哪些是无效的,对无效的则与其上一个包围盒或者下一个包围盒合并,扔掉多余的边框,即抑制那些不是最大包围盒的边框,依次重复直到所有的书法字的识别概率都较高,从而得到单个书法字的最佳包围盒;步骤S6:归一化处理。...

【技术特征摘要】
1.一种书法字的最佳包围盒方法,其特征在于:采用非极大抑制方法NMS消除多余的包围盒,从而得到由原始书法作品切割而成的单个书法字的最佳包围盒;包括以下步骤:步骤S1:扫描原始书法字作品,通过DjVuLibre从DjVu图像中获取返回的RGB值,并将图像转换成对应的二值图像;步骤S2:去噪处理,包括去印章、自然沧桑腐蚀形成的划痕和斑点及书法作品的元数据信息;步骤S3:二值化处理,去除原始书法作品屮的颜色信息,将灰度图像转化成二值图像;步骤S4:平滑处理,去除毛刺或者空穴;步骤S5:采用非极大抑制方法NMS消除多余的包围盒,得到单个书法字最佳包围盒;a)采用最小包围盒的方法,将图片屮的像素点映射到x轴,根据像素点在x轴上的分布情况,切割出单列的书法字,然后将单列的书法字图片上的像素点映射到y轴,根据像素点在y轴上的分布情况,完成初步的单个书法字切割;b)采用非极大抑制方法NMS消除多余的包围盒,切割错误的包围盒,判断包围盒的哪些是没用的,根据切割的顺序对包围盒进行排序,再依据书法字的识别概率判断包围盒的哪些是无效的,对无效的则与其上一个包围盒或者下一个包围盒合并,扔掉多余的边框,即抑制那些不是最大包围盒的边框,依次重复直到所有的书法字的识别概率都较高,从而得到单个书法字的最佳包围盒;步骤S6:归一化处理。2.根据权利要求1所述的一种书法字的最佳包围盒方法,其特征是所述步骤S2中对原始作品图像进行去噪,包括去印章、自然沧桑腐蚀形成的划痕和斑点及书法作品的元数据信息,所述元数据信息包括页码、作品名称,具体步骤如下:a)如果印章的颜色与背景色的差异要大于印章的颜色与书法字颜色的差异,那么印章会在二值化过程中自动剔除;反之;印章会被当作书法字前景色保留,令象素...

【专利技术属性】
技术研发人员:张雅青张小锋
申请(专利权)人:南昌航空大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1