【技术实现步骤摘要】
混合高斯分布和二项分布的两阶段甲骨文字分割方法
[0001]本专利技术涉及数字图像处理和古文字信息处理的交叉领域,尤其是一种可有效抵抗龟甲和兽骨上存在的点状噪声、片状斑纹和固有纹理的干扰,准确性高、鲁棒性好、处理速度快、自适应能力强、基于混合高斯分布和二项分布的两阶段甲骨文字分割方法。
技术介绍
[0002]甲骨卜辞文字是镌刻于兽骨或龟甲上的一种古文字。由于甲骨深埋地下数千年受到严重腐蚀,加之挖掘、辗转流传过程中受到损坏,其字形往往模糊不清,字形边缘轮廓大多出现断裂和残缺等情况。另一方面,甲骨文字书写于龟甲和兽骨之上,文字的行分布不够明显,并且其书写载体不够光滑,本身存在齿缝和盾纹,在占卜时还会产生兆纹和钻凿,而这些人工痕迹经过墨拓后形成的白色区域又很容易与甲骨文字重叠。因此,甲骨拓片图像常受到点状噪声、片状斑纹和固有纹理的强烈干扰,这就不可避免地导致人工释读和计算机文字识别工作困难重重。
[0003]甲骨文字分割的根本目的是借助计算机数字图像处理技术,在甲骨拓片图像中提取出特征分明且互不交叠的独立文字区域,并对点状噪声、片状斑纹、固有纹理区域以及前景文字与甲骨背景的粘连区域进行填充。它对于保证后续的字模建立和字形复原的质量、提高字形特征提取和自动识别的精度具有基础且重要的意义,也是计算机辅助甲骨文字形研究、碎片缀合、文意释读等研究工作的基础任务之一。
[0004]典型的图像分割方法,如阈值分割、区域分割、边缘检测分割、边缘跟踪分割等,均要求前景目标和背景纹理存在明显的亮度差异和清晰界限,其硬阈值分割 ...
【技术保护点】
【技术特征摘要】
1.一种混合高斯分布和二项分布的两阶段甲骨文字分割方法,其特征在于按照如下步骤进行:步骤1.输入待分割的甲骨卜辞拓片图像I,令其高度为h
I
像素,宽度为w
I
像素;步骤2.将I的颜色空间从RGB转换到HSV,并提取其亮度分量I
V
;步骤3.统计I
V
中所有像素值的归一化直方图h
V
;步骤4.利用混合高斯分布模型和相对熵测度对I
V
进行粗分割;步骤4.1根据公式(1)和公式(2),建立混合高斯分布模型f(x
i
|Π,Θ);|Π,Θ);所述x
i
表示I
V
的第i个像素且i∈{1,2,3,
…
,h
I
×
w
I
},C表示混合高斯分布模型中的成分分布数量,j∈{1,2,
…
,C},π
ij
表示像素x
i
属于混合高斯分布模型中第j个高斯分布的先验概率,0≤π
ij
≤1且P
j
(x
i
|Θ
j
)表示混合高斯分布模型中第j个高斯分布的概率密度函数,表示第j个高斯分布的概率密度函数的参数集,μ
j
和分别表示第j个高斯分布的数学期望和方差,Π={π
ij
},Θ={Θ1,Θ2,
…
,Θ
C
};步骤4.2将I
V
的全部h
I
×
w
I
个像素值作为观测值,采用K
‑
均值算法进行聚类,令C等于聚类过程所得到的聚类数量,并令C
j
表示第j个聚类中心且j∈{1,2,
…
,C};步骤4.3利用C个聚类中心对μ
j
进行初始化,令μ
j
=C
j
;步骤4.4根据公式(3),对进行初始化;步骤4.5根据公式(4),计算像素x
i
属于第j个聚类的权重θ(x
i
,j);所述N
i
表示以像素x
i
为中心、大小为5
×
5的邻域,x
m
表示邻域N
i
中的任意像素;步骤4.6根据公式(5),计算像素x
i
属于各个聚类的权重之和Γ
i
;步骤4.7根据公式(6),对π
ij
进行初始化;步骤4.8利用期望最大化算法求解混合高斯分布模型f(x
i
|Π,Θ),得到其最优参数集
Π和Θ;步骤4.9令t
←
1,D
*
←
+∞,T
Z
←
1,所述t是一个循环计数器,P
B
表示反映背景区域像素值分布的高斯概率密度函数集合,P
O
表示反映甲骨文字区域像素值分布的高斯概率密度函数集合,D
*
表示最佳的相对熵测度,T
Z
表示最佳的粗分割阈值;步骤4.10根据公式(7)和公式(8),建立背景区域的累积直方图p
B
(t)和甲骨文字区域的累积直方图p
O
(t);(t);所述h
V
(v)表示在直方图h
V
中亮度值等于v的像素出现的归一化频率;步骤4.11对于任意的j∈{1,2,
…
,C},若f(x
i
|Π,Θ)中第j个高斯分布的概率密度函数P
j
(x
i
|Θ
j
)的数学期望μ
j
小于t,则令P
B
←
P
B
∪P
j
(x
i
|Θ
j
),否则,令P
O
←
P
O
∪P
j
(x
i
|Θ
j
),从而利用t将f(x
i
|Π,Θ)中的C个成分分布划分为两个集合,并设P
B
集合包含N
B
个高斯概率密度函数,P
O
集合包含N
O
个高斯概率密度函数;步骤4.12根据公式(9),建立反映背景区域像素值分布的混合高斯概率密度函数步骤4.12根据公式(9),建立反映背景区域像素值分布的混合高斯概率密度函数所述x表示像素值且x∈{0,1,2,
…
,255},表示P
B
集合的第n个高斯概率密度函数,表示在f(x
i
|Π,Θ)中对应的最优的先验概率,表示在f(x
i
|Π,Θ)中对应的最优的参数集且μ
Bn
表示的数学期望,表示的方差;步骤4.13根据公式(10),建立反映甲骨文字区域像素值分布的混合高斯概率密度函数步骤4.13根据公式(10),建立反映甲骨文字区域像素值分布的混合高斯概率密度函数所述表示P
O
集合的第n个高斯概率密度函数,表示在f(x
i
|Π,
Θ)中对应的最优的先验概率,表示在f(x
i
|Π,Θ)中对应的最优的参数集且μ
On
表示的数学期望,表示的方差;步骤4.14根据公式(11),计算由多个高斯概率密度函数拟合的归一化先验概率分布p
V
(v);所述v表示像素值且v∈{0,1,2,
…
,255},表示当x=v时混合高斯概率密度函数的值,表示当x=v时混合高斯概率密...
【专利技术属性】
技术研发人员:宋传鸣,张晋豪,王一琦,史丹,洪飏,王相海,
申请(专利权)人:辽宁师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。