形态学先验约束的甲骨文字检测的图像数据集构建方法技术

技术编号:29983886 阅读:35 留言:0更新日期:2021-09-08 10:21
本发明专利技术公开一种形态学先验约束的甲骨文字检测的图像数据集构建方法,是从实甲骨拓片图像中提取不含噪声的单字图像以及含有点状噪声、片状斑纹和固有纹理的干扰元素图像,分别组成单字字形图像数据集和干扰元素数据集;利用二值掩膜提取有效字形区域的像素,以甲骨文字形态学特征为约束,通过随机旋转、缩放和基于二值掩膜的位运算,生成无噪声的甲骨拓片模拟图像;然后,通过直方图扫描来定位文字区域的包围盒,进而生成符合VOC2007规范的XML标注文件;通过随机旋转、缩放、二值掩膜的方式,将干扰元素与单字图像进行叠加,构建了面向甲骨卜辞文字检测的图像数据集。骨卜辞文字检测的图像数据集。骨卜辞文字检测的图像数据集。

【技术实现步骤摘要】
形态学先验约束的甲骨文字检测的图像数据集构建方法


[0001]本专利技术涉及数字图像处理和古文字信息处理的交叉领域,尤其是一种可有效解决甲骨卜辞拓片图像数据集有限、甲骨文字检测数据集匮乏且标注困难的问题,能反映真实甲骨拓片图像的文字、噪声和固有纹理的特点,构建效率高、可扩展能力强、具备自动标注能力、标注精度高、形态学先验约束的面向甲骨文字检测的图像数据集构建方法。

技术介绍

[0002]甲骨文字检测是计算甲骨学的重要基础研究领域之一,其根本目的是借助计算机视觉技术,在甲骨拓片图像上自动定位甲骨卜辞文字的区域位置,进而为刻辞文本识别及语义释读等环节提供字形图像或字形图像集合。它对于保证后续的文字分割和字形复原质量、提高字形特征提取和自动识别精度具有基础且重要的意义,亦是计算机辅助甲骨文字形研究、碎片缀合、文意释读等研究工作的基础任务。为了实现高效率的基于计算机视觉技术的甲骨卜辞文字检测以及对其检测结果进行公平测试和客观评价,建立具有一定规模的甲骨拓片图像数据集是必不可少的基础研究步骤之一。然而,具有权威性的甲骨卜辞图像公开数据集目前十分有限,公开本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种形态学先验约束的甲骨文字检测的图像数据集构建方法,其特征在于按照如下步骤进行:步骤1.输入N幅甲骨卜辞文字的拓片图像,组成真实拓片图像数据集RI;步骤2.通过手工交互的方式,从真实拓片图像数据集RI中分割提取出清晰的M1幅甲骨卜辞单字图像,组成字形图像数据集ST;步骤3.通过手工交互的方式,从真实拓片图像数据集RI中分割提取出清晰的M2幅斑纹及噪声图像,组成干扰元素数据集SN;步骤3.1从RI中分割提取出M
21
幅点状噪声的图像,此类噪声常由甲骨片表面质地粗糙或扫描设备失真等原因造成;步骤3.2从RI中分割提取出M
22
幅片状噪声的图像,此类噪声常由占卜过程的钻凿造成,其形态多为坑洞;步骤3.3从RI中分割提取出M
23
幅齿缝、兆纹、盾纹等非文字性的固有纹理的图像,其形态为贯穿于甲骨片的狭长裂痕,所述M2=M
21
+M
22
+M
23
;步骤4.生成不含点状噪声、片状斑纹和固有纹理污染的、纯净的甲骨卜辞文字拓片图像数据集RC,令图像计数器i1←
1;步骤4.1建立一幅空间分辨率为W
×
H像素的空白图像作为背景图像,记为I
bg
,所述W和H分别表示I
bg
的宽度和高度,令文字计数器t1←
1;步骤4.2根据VOC2007格式,对第i1幅甲骨卜辞文字拓片图像的XML描述文件进行初始化,字段信息包括图像的宽度、图像的高度、像素的颜色深度、每个甲骨卜辞文字的包围盒的左上角顶点坐标和右下角顶点坐标;步骤4.3从字形图像数据集ST中取出一幅甲骨卜辞单字图像,记为I
obi
,采用双三次插值对I
obi
进行缩放比例为C的随机缩放操作,使得I

obi
的8

连通区域面积与I
bg
的面积之比服从均值为μ1、标准差为σ1的正态分布,从而得到缩放后的单字图像I

obi
;步骤4.4对I

obi
进行角度为R的随机旋转操作,得到单字图像I

obi
并且使得I

obi
的8

连通区域面积与I

obi
的凸包面积之比服从均值为μ2、标准差为σ2的正态分布;步骤4.5将I

obi
转换为灰度图像I
obi_gray
,并对I
obi_gray
进行基于最大类间方差法的二值化处理,使得文字区域的像素值为255,非文字区域的像素值为0,得到I
obi_bin
;步骤4.6将I
obi_bin
的像素进行反色操作,得到图像I
mask
;步骤4.7在背景图像I
bg
的任意位置上,随机选取一个与I
obi_bin
具有相同尺寸并且不含有其他甲骨刻辞文字的图像块,记为I
roi
,将其与I
mask
做逐像素的二进制“与”运算,从而将当前的第t1个单字图像叠加到背景图像I
bg
中;步骤4.8将第t1个单字图像出现在背景图像I
bg
中的区域作为待扫描区域,按照沿水平方向的光栅扫描顺序,记录待扫描区域中发生像素值阶跃变化的最小横坐标和最大横坐标再沿竖直方向的从上到下、从左到右...

【专利技术属性】
技术研发人员:宋传鸣何熠辉王一琦洪飏王相海
申请(专利权)人:辽宁师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1