【技术实现步骤摘要】
本专利技术涉及一种文本图像的处理方法,更具体的说是一种基于条件随机场的古籍扫描图像背面渗透盲去除方法。
技术介绍
由于古籍文本稀少珍贵,现代的保护方法往往是把这些古籍数字化,以扫描图像的方式供研究人员翻阅。由于古籍纸张质量或者长时间保存的问题,许多双面书写或印刷的古籍都发生了背面渗透的现象,即墨水从纸张的另一面渗出的另一面的现象。这种现象会使古籍文本的内容难以阅读,同时,也影响了某些珍贵手稿的视觉美感。为了解决上述问题,现已提出很多背面渗透移除的方法。目前来说,这些方法大致可分为两类:盲去除方法和非盲去除方法。非盲去除方法需要一页古籍准确对齐的正反两面的扫描图像。由于自动配准正反两面的图像依然存在诸多难点,因此这类工作通常需要大量人工来完成。与之相对,盲去除方法只需要纸张的单面图像,避免了图像配准问题。A.Tonazzini等人提出使用盲源分离技术,将输入图像看作前景部分、背面渗透部分和背景部分的混合信号,并采用独立成分分析算法计算试图将这三部分恢复出来。因为这种方法需要不同的传感器搜集到的相同对象的信号,所以此方法需要彩色扫描图像。在此之外,同一作者又提出利用马尔科夫随机场和EM算法来解决盲源分离问题。有别于信号分离的想法,C.Wolf将背面渗透去除看作图像分割问题,提出基于双隐藏层的马尔科夫随机场和单一观测场方法。该方法通过最大流算法交替更新两个马尔可夫随机场的隐含值,直至收敛到最终的分割结果。但是这类算法计 ...
【技术保护点】
一种基于条件随机场的古籍扫描图像背面渗透盲去除方法,包括以下步骤:1)将已知类别标签的扫描图像分为前景部分、背面渗透部分、背景部分,并建立图像前景部分、背面渗透部分、背景部分的条件概率分布模型,得到前景、背面渗透、背景三部分的逼近函数;2)根据步骤1)得到的逼近函数,用未知类别标签的文本图像作为输入,采用基于K‑means聚类算法得到未知类别标签的文本图像的前景部分、背面渗透部分、背景部分,并计算图像前景部分、背面渗透部分、背景部分的灰度平均值和方差;3)对输入图像建立条件随机场模型,并根据步骤2)得到的图像前景部分、背面渗透部分、背景部分的灰度平均值和方差对图像进行细分类,得到背面渗透部分;4)修复已分类的图像,去除背面渗透部分,得到最终的无背面渗透部分的图像。
【技术特征摘要】
1.一种基于条件随机场的古籍扫描图像背面渗透盲去除方法,包括以下步骤:
1)将已知类别标签的扫描图像分为前景部分、背面渗透部分、背景部分,
并建立图像前景部分、背面渗透部分、背景部分的条件概率分布模型,得到前
景、背面渗透、背景三部分的逼近函数;
2)根据步骤1)得到的逼近函数,用未知类别标签的文本图像作为输入,
采用基于K-means聚类算法得到未知类别标签的文本图像的前景部分、背面渗
透部分、背景部分,并计算图像前景部分、背面渗透部分、背景部分的灰度平
均值和方差;
3)对输入图像建立条件随机场模型,并根据步骤2)得到的图像前景部分、
背面渗透部分、背景部分的灰度平均值和方差对图像进行细分类,得到背面渗
透部分;
4)修复已分类的图像,去除背面渗透部分,得到最终的无背面渗透部分
的图像。
2.根据权利要求1所述的基于条件随机场的古籍扫...
【专利技术属性】
技术研发人员:李树涛,孙斌,孙俊,
申请(专利权)人:湖南大学,富士通株式会社,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。