当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于条件随机场的古籍扫描图像背面渗透盲去除方法技术

技术编号:11946062 阅读:198 留言:0更新日期:2015-08-26 16:26
本发明专利技术公开了一种基于条件随机场的古籍文本图像背面渗透盲去除方法。它包括以下步骤:先建立文本图像的随机概率分布模型,将图像分为前景部分,背面渗透部分以及背景部分三个组成成分,得到三者的灰度直方图的逼近函数,并采用K-means算法得到三者的参数估计,然后建立条件随机场模型对输入图像进行细分类,利用置信传播算法识别背面渗透部分,最后通过随机填充算法修复图像,得到最终的无背面渗透部分的文本扫描图像。本发明专利技术采用条件随机场与随即填充修复算法相结合的方法,能够完善的保留文本图像的前景部分,并有效地移除背面渗透部分,大大改善文本扫描图像的视觉效果,解决了历史文本扫描图像的显示和打印等问题,具有很高的实际应用价值。

【技术实现步骤摘要】

本专利技术涉及一种文本图像的处理方法,更具体的说是一种基于条件随机场的古籍扫描图像背面渗透盲去除方法
技术介绍
由于古籍文本稀少珍贵,现代的保护方法往往是把这些古籍数字化,以扫描图像的方式供研究人员翻阅。由于古籍纸张质量或者长时间保存的问题,许多双面书写或印刷的古籍都发生了背面渗透的现象,即墨水从纸张的另一面渗出的另一面的现象。这种现象会使古籍文本的内容难以阅读,同时,也影响了某些珍贵手稿的视觉美感。为了解决上述问题,现已提出很多背面渗透移除的方法。目前来说,这些方法大致可分为两类:盲去除方法和非盲去除方法。非盲去除方法需要一页古籍准确对齐的正反两面的扫描图像。由于自动配准正反两面的图像依然存在诸多难点,因此这类工作通常需要大量人工来完成。与之相对,盲去除方法只需要纸张的单面图像,避免了图像配准问题。A.Tonazzini等人提出使用盲源分离技术,将输入图像看作前景部分、背面渗透部分和背景部分的混合信号,并采用独立成分分析算法计算试图将这三部分恢复出来。因为这种方法需要不同的传感器搜集到的相同对象的信号,所以此方法需要彩色扫描图像。在此之外,同一作者又提出利用马尔科夫随机场和EM算法来解决盲源分离问题。有别于信号分离的想法,C.Wolf将背面渗透去除看作图像分割问题,提出基于双隐藏层的马尔科夫随机场和单一观测场方法。该方法通过最大流算法交替更新两个马尔可夫随机场的隐含值,直至收敛到最终的分割结果。但是这类算法计算消耗过高,很难满足一些实际应用要求。
技术实现思路
为了解决古籍扫描图像背面渗透盲去除存在的上述技术问题,本专利技术提供一种基于条件随机场的古籍扫描图像盲去除方法。本专利技术有效的去除文本扫描图像中的背面渗透部分,同时又较好的保证文本前景部分的完整性,提高了文本图像的可读性。本专利技术解决上述问题的技术方案包括以下步骤:1)将已知类别标签的扫描图像分为前景部分、背面渗透部分、背景部分,并建立图像前景部分、背面渗透部分、背景部分的条件概率分布模型,得到前景、背面渗透、背景三部分的逼近函数;2)根据步骤1)得到的逼近函数,用未知类别标签的文本图像作为输入,采用基于K-means聚类算法得到未知类别标签的文本图像的前景部分、背面渗透部分、背景部分,并计算图像前景部分、背面渗透部分、背景部分的灰度平均值和方差;3)对输入图像建立条件随机场模型,并根据步骤2)得到的图像前景部分、背面渗透部分、背景部分的灰度平均值和方差对图像进行细分类,得到背面渗透部分;4)修复已分类的图像,去除背面渗透部分,得到最终的无背面渗透部分的图像。本专利技术的技术效果在于:本专利技术将古籍文本图像分成三个不同的组成部分,并建立条件概率分布模型;利用K-means算法初始分类之后,估计出三种组份的参数;在此基础上,建立输入图像的条件随机场,通过信念传播算法确定每个像素对应的类别标签;最后采用随机填充算法修复图像中的背面渗透区域,去除图像中的背面渗透盲。本专利技术能有效去除图像中的背面渗透部分,较好的保存前景部分,大大提高了图像的可读性。附图说明图1为本专利技术的处理流程图;图2为不同分类方法的文本扫描图像分类结果比较;左起第一列为原文本图像,第二列为K-means聚类算法的结果,第三列为本专利技术基于条件随机场方法的结果。图3为不同分类方法的前景像素分类准确率和召回率比较;图4为不同背面渗透移除方法的文本扫描图像结果比较;图4中左起第一列为原文本图像,第二列为K-means聚类结合随机填充算法的结果,第三列为本专利技术的结果。具体实施方式图1为本专利技术的处理流程图。如图所示,本专利技术先建立文本图像的随机概率分布模型,将图像分为前景部分,背面渗透部分以及背景部分三个组成成分,得到三者的灰度直方图的逼近函数,并采用K-means算法得到三者的参数估计,然后建立条件随机场模型对输入图像进行细分类,利用置信传播算法识别背面渗透部分,最后通过随机填充算法修复图像,得到最终的无背面渗透部分的文本扫描图像。输入为带有背面渗透的灰度古籍图像,输出为无背面渗透的灰度古籍图像。本专利技术的详细步骤如下:1.将已知类别标签的扫描图像分为前景部分、背面渗透部分、背景部分,并建立图像三种成分的条件概率分布模型。整幅图像、前景部分、背面渗透部分和背景部分的灰度直方图分别为H,Hfg,Hbt,Hbg。则每种成分条件概率分布如公式(1)、(2)、(3)所示。P(s=0|d)=HfgH---(1)]]>P(s=1|d)=HbtH---(2)]]>P(s=2|d)=HbgH---(3)]]>其中s是类别标签,d是灰度值。P(s=0|d),P(s=1|d),P(s=2|d)分别为前景,背面渗透,背景部分条件概率分布。我们选择逻辑函数模拟前景和背景部分的条件概率分布,选择高斯函数模拟背面渗透部分的条件概率分布。P(s=0|d)=11+ed-u0σ0---(4)]]>P(s=2|d)=11+eu2-dσ2---(6)]]>其中是高斯函数的幅值因子,(u0,u1,u2)是中心位置因子,(σ0,σ1,σ2)是形状因子。2.对于未知类别标签的输入图像,将出现次数最多的灰度值作为背景组份的平均灰度c2,然后采用(7)式根据灰度值大于等于平均灰度的像素估计出背景组份的方差。σ2=Σj:Ij>c2(Ij-c2)2Σk=1N1{Ik-c2本文档来自技高网
...
一种基于条件随机场的古籍扫描图像背面渗透盲去除方法

【技术保护点】
一种基于条件随机场的古籍扫描图像背面渗透盲去除方法,包括以下步骤:1)将已知类别标签的扫描图像分为前景部分、背面渗透部分、背景部分,并建立图像前景部分、背面渗透部分、背景部分的条件概率分布模型,得到前景、背面渗透、背景三部分的逼近函数;2)根据步骤1)得到的逼近函数,用未知类别标签的文本图像作为输入,采用基于K‑means聚类算法得到未知类别标签的文本图像的前景部分、背面渗透部分、背景部分,并计算图像前景部分、背面渗透部分、背景部分的灰度平均值和方差;3)对输入图像建立条件随机场模型,并根据步骤2)得到的图像前景部分、背面渗透部分、背景部分的灰度平均值和方差对图像进行细分类,得到背面渗透部分;4)修复已分类的图像,去除背面渗透部分,得到最终的无背面渗透部分的图像。

【技术特征摘要】
1.一种基于条件随机场的古籍扫描图像背面渗透盲去除方法,包括以下步骤:
1)将已知类别标签的扫描图像分为前景部分、背面渗透部分、背景部分,
并建立图像前景部分、背面渗透部分、背景部分的条件概率分布模型,得到前
景、背面渗透、背景三部分的逼近函数;
2)根据步骤1)得到的逼近函数,用未知类别标签的文本图像作为输入,
采用基于K-means聚类算法得到未知类别标签的文本图像的前景部分、背面渗
透部分、背景部分,并计算图像前景部分、背面渗透部分、背景部分的灰度平
均值和方差;
3)对输入图像建立条件随机场模型,并根据步骤2)得到的图像前景部分、
背面渗透部分、背景部分的灰度平均值和方差对图像进行细分类,得到背面渗
透部分;
4)修复已分类的图像,去除背面渗透部分,得到最终的无背面渗透部分
的图像。
2.根据权利要求1所述的基于条件随机场的古籍扫...

【专利技术属性】
技术研发人员:李树涛孙斌孙俊
申请(专利权)人:湖南大学富士通株式会社
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1