混合高斯分布和二项分布的两阶段甲骨文字分割方法技术

技术编号:33648242 阅读:16 留言:0更新日期:2022-06-02 20:25
本发明专利技术公开一种混合高斯分布和二项分布的两阶段甲骨文字分割方法。首先,利用颜色空间转换提取甲骨拓片图像的亮度分量;其次,以混合高斯分布模型建模图像的全局统计特性,联合K

【技术实现步骤摘要】
混合高斯分布和二项分布的两阶段甲骨文字分割方法


[0001]本专利技术涉及数字图像处理和古文字信息处理的交叉领域,尤其是一种可有效抵抗龟甲和兽骨上存在的点状噪声、片状斑纹和固有纹理的干扰,准确性高、鲁棒性好、处理速度快、自适应能力强、基于混合高斯分布和二项分布的两阶段甲骨文字分割方法。

技术介绍

[0002]甲骨卜辞文字是镌刻于兽骨或龟甲上的一种古文字。由于甲骨深埋地下数千年受到严重腐蚀,加之挖掘、辗转流传过程中受到损坏,其字形往往模糊不清,字形边缘轮廓大多出现断裂和残缺等情况。另一方面,甲骨文字书写于龟甲和兽骨之上,文字的行分布不够明显,并且其书写载体不够光滑,本身存在齿缝和盾纹,在占卜时还会产生兆纹和钻凿,而这些人工痕迹经过墨拓后形成的白色区域又很容易与甲骨文字重叠。因此,甲骨拓片图像常受到点状噪声、片状斑纹和固有纹理的强烈干扰,这就不可避免地导致人工释读和计算机文字识别工作困难重重。
[0003]甲骨文字分割的根本目的是借助计算机数字图像处理技术,在甲骨拓片图像中提取出特征分明且互不交叠的独立文字区域,并对点状噪声、片状斑纹、固有纹理区域以及前景文字与甲骨背景的粘连区域进行填充。它对于保证后续的字模建立和字形复原的质量、提高字形特征提取和自动识别的精度具有基础且重要的意义,也是计算机辅助甲骨文字形研究、碎片缀合、文意释读等研究工作的基础任务之一。
[0004]典型的图像分割方法,如阈值分割、区域分割、边缘检测分割、边缘跟踪分割等,均要求前景目标和背景纹理存在明显的亮度差异和清晰界限,其硬阈值分割方式无法应对文字与固有噪声的复杂粘连。并且,由于缺乏对甲骨文字先验特征的特殊考量,这些方法也不能对文字目标和高亮度的片状斑纹、齿缝、盾纹、兆纹、钻凿进行有效区别,其误分割率较高。虽然基于活动轮廓模型的分割方法能够利用能量函数来平衡区域内部、外部的约束力,进而在一定程度上处理区域内外的弱亮度差问题,但是该类方法仍存在对初始轮廓曲线的位置敏感、过度依赖权重参数的选择、不能处理非闭合的物体边界等不足,导致其人工交互和调参工作量较大,实时性差,不易选取适用所有甲骨拓片图像的参数和初始轮廓,尤其是不能对甲骨断裂、残缺处的卜辞文字进行分割。故此,典型图像分割方法在处理甲骨拓片图像时均有明显的局限性。
[0005]于是,史小松等人提出一种基于稀疏活动轮廓模型的甲骨拓片图像的目标自动定位算法,首先以目标形状估计作为约束,仅对图像中部分点的位置进行回归,再通过共同勾画算法学习到目标轮廓模型,在待定位图中扫描出与模型匹配度最高的区域,进而利用基于距离约束的Hough变换来降低噪声影响、减少定位时间。黄勇杰等人先利用全局阈值分割法对甲骨拓片进行粗分割,将其划分为背景区域和前景区域,再用形态学方法进行细定位。然而,上述两种方法仅能在图像中定位到拓片的位置,却无法实现甲骨文字的准确提取。
[0006]为了达到单个文字的分割目的,何颖等人提出了一种基于二进小波变换与模糊C

均值聚类算法的甲骨文字图像分割方法。该方法先采用传统模糊C

均值聚类算法进行粗分
割,然后通过基于二进小波变换的模极大值对图像进行边缘检测,再对检测结果与粗分割结果进行边缘跟踪,在此基础上,利用改进后的模糊C

均值聚类算法分割甲骨文字,取得了一定效果。但是,该算法需要多次迭代聚类和二进小波变换,其时空复杂度较高,且从复杂背景提取前景的能力有限。Huang等人提出了一种基于背景估计的拓片图像二值化自适应分割方法,首先采用中值滤波对输入的拓片图像进行预处理,进而在红色分量上反复施加形态学运算,直到结果图像的无参考质量评价指标BRISQUE达到预设阈值,最终利用大津法阈值分割即可获得处理后的拓片图像。遗憾的是,由于甲骨卜辞文字的拓片图像几乎只含有灰度信息,在红色分量上进行甲骨文字分割的适用场合有限,通用性不强,分割效果也不够理想。顾绍通认为,甲骨文字的笔划具有较为明显的区域连通性,其笔划一般是单连通区域,仅有个别笔段会出现断裂。鉴于此,Shi等人提出了一种基于连通域的文本分割方法。首先,该方法对甲骨拓片图像进行亮度增强和中值滤波,从而在一定程度上抑制点状噪声的影响;其次,利用大津法计算全局阈值,得到一幅二值的甲骨拓片图像;最后,对前景区域的连通域进行标记并统计其连通面积,进而保留面积大于预设阈值的连通域作为文字分割结果。然而,该方法的分割质量对预设的面积阈值存在高度依赖性。若阈值过大,则会导致字段断裂;反之,则既无法避免片状斑纹噪声、固有纹理与甲骨文字的粘连,又不能有效去除离散分布的片状斑纹、齿缝和盾纹。潘振赣提出了一种基于改进快速FCM的拓片图像分割算法,在标准模糊C

均值聚类算法中融入空间信息,并在隶属度函数中引入像素的邻域约束,从而克服粘连所引起的不确定性和模糊性并抑制点状噪声的干扰,却不能分辨较大面积的齿缝、盾纹和钻凿。
[0007]综上所述,欲想将甲骨文字从干扰严重的背景中自动、准确地分割出来,仍然是一件比较困难的图像处理任务。目前,尚没有一种可有效抵抗点状噪声、片状斑纹和固有纹理干扰的,准确性高、鲁棒性好、处理速度快、自适应能力强的甲骨文字自动分割方法。

技术实现思路

[0008]本专利技术是为了解决现有技术所存在的上述技术问题,提供一种准确性高、鲁棒性好、处理速度快、自适应能力强、基于数学形态学和区域连通性的甲骨文字自动分割方法。
[0009]本专利技术的技术解决方案是:一种混合高斯分布和二项分布的两阶段甲骨文字分割方法,其特征在于按照如下步骤进行:
[0010]步骤1.输入待分割的甲骨卜辞拓片图像I,令其高度为h
I
像素,宽度为w
I
像素;
[0011]步骤2.将I的颜色空间从RGB转换到HSV,并提取其亮度分量I
V

[0012]步骤3.统计I
V
中所有像素值的归一化直方图h
V

[0013]步骤4.利用混合高斯分布模型和相对熵测度对I
V
进行粗分割;
[0014]步骤4.1根据公式(1)和公式(2),建立混合高斯分布模型f(x
i
|Π,Θ);
[0015][0016][0017]所述x
i
表示I
V
的第i个像素且i∈{1,2,3,

,h
I
×
w
I
},C表示混合高斯分布模型中
的成分分布数量,j∈{1,2,

,C},π
ij
表示像素x
i
属于混合高斯分布模型中第j个高斯分布的先验概率,0≤π
ij
≤1且P
j
(x
i

j
)表示混合高斯分布模型中第j个高斯分布的概率密度函数,表示第j个高斯分布的概率密度函数的参数集,μ
j
和分别表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混合高斯分布和二项分布的两阶段甲骨文字分割方法,其特征在于按照如下步骤进行:步骤1.输入待分割的甲骨卜辞拓片图像I,令其高度为h
I
像素,宽度为w
I
像素;步骤2.将I的颜色空间从RGB转换到HSV,并提取其亮度分量I
V
;步骤3.统计I
V
中所有像素值的归一化直方图h
V
;步骤4.利用混合高斯分布模型和相对熵测度对I
V
进行粗分割;步骤4.1根据公式(1)和公式(2),建立混合高斯分布模型f(x
i
|Π,Θ);|Π,Θ);所述x
i
表示I
V
的第i个像素且i∈{1,2,3,

,h
I
×
w
I
},C表示混合高斯分布模型中的成分分布数量,j∈{1,2,

,C},π
ij
表示像素x
i
属于混合高斯分布模型中第j个高斯分布的先验概率,0≤π
ij
≤1且P
j
(x
i

j
)表示混合高斯分布模型中第j个高斯分布的概率密度函数,表示第j个高斯分布的概率密度函数的参数集,μ
j
和分别表示第j个高斯分布的数学期望和方差,Π={π
ij
},Θ={Θ1,Θ2,

,Θ
C
};步骤4.2将I
V
的全部h
I
×
w
I
个像素值作为观测值,采用K

均值算法进行聚类,令C等于聚类过程所得到的聚类数量,并令C
j
表示第j个聚类中心且j∈{1,2,

,C};步骤4.3利用C个聚类中心对μ
j
进行初始化,令μ
j
=C
j
;步骤4.4根据公式(3),对进行初始化;步骤4.5根据公式(4),计算像素x
i
属于第j个聚类的权重θ(x
i
,j);所述N
i
表示以像素x
i
为中心、大小为5
×
5的邻域,x
m
表示邻域N
i
中的任意像素;步骤4.6根据公式(5),计算像素x
i
属于各个聚类的权重之和Γ
i
;步骤4.7根据公式(6),对π
ij
进行初始化;步骤4.8利用期望最大化算法求解混合高斯分布模型f(x
i
|Π,Θ),得到其最优参数集
Π和Θ;步骤4.9令t

1,D
*

+∞,T
Z

1,所述t是一个循环计数器,P
B
表示反映背景区域像素值分布的高斯概率密度函数集合,P
O
表示反映甲骨文字区域像素值分布的高斯概率密度函数集合,D
*
表示最佳的相对熵测度,T
Z
表示最佳的粗分割阈值;步骤4.10根据公式(7)和公式(8),建立背景区域的累积直方图p
B
(t)和甲骨文字区域的累积直方图p
O
(t);(t);所述h
V
(v)表示在直方图h
V
中亮度值等于v的像素出现的归一化频率;步骤4.11对于任意的j∈{1,2,

,C},若f(x
i
|Π,Θ)中第j个高斯分布的概率密度函数P
j
(x
i

j
)的数学期望μ
j
小于t,则令P
B

P
B
∪P
j
(x
i

j
),否则,令P
O

P
O
∪P
j
(x
i

j
),从而利用t将f(x
i
|Π,Θ)中的C个成分分布划分为两个集合,并设P
B
集合包含N
B
个高斯概率密度函数,P
O
集合包含N
O
个高斯概率密度函数;步骤4.12根据公式(9),建立反映背景区域像素值分布的混合高斯概率密度函数步骤4.12根据公式(9),建立反映背景区域像素值分布的混合高斯概率密度函数所述x表示像素值且x∈{0,1,2,

,255},表示P
B
集合的第n个高斯概率密度函数,表示在f(x
i
|Π,Θ)中对应的最优的先验概率,表示在f(x
i
|Π,Θ)中对应的最优的参数集且μ
Bn
表示的数学期望,表示的方差;步骤4.13根据公式(10),建立反映甲骨文字区域像素值分布的混合高斯概率密度函数步骤4.13根据公式(10),建立反映甲骨文字区域像素值分布的混合高斯概率密度函数所述表示P
O
集合的第n个高斯概率密度函数,表示在f(x
i
|Π,
Θ)中对应的最优的先验概率,表示在f(x
i
|Π,Θ)中对应的最优的参数集且μ
On
表示的数学期望,表示的方差;步骤4.14根据公式(11),计算由多个高斯概率密度函数拟合的归一化先验概率分布p
V
(v);所述v表示像素值且v∈{0,1,2,

,255},表示当x=v时混合高斯概率密度函数的值,表示当x=v时混合高斯概率密...

【专利技术属性】
技术研发人员:宋传鸣张晋豪王一琦史丹洪飏王相海
申请(专利权)人:辽宁师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1