一种基于内容的图像格式中文文档检索方法技术

技术编号:4046423 阅读:264 留言:0更新日期:2012-04-11 18:40
一种基于内容的图像格式中文文档检索方法,它涉及信息处理技术领域,它解决了现有的基于OCR技术的检索方法不能有效处理字符退化严重的图像格式文档的问题。本发明专利技术首先对图像格式文档进行字符分割,得到单个字符图像;然后提取字符图像特征矢量;接着基于局部敏感哈希变换原理LSH,构建hash函数,将每个字符图像特征矢量变换为伪码,并建立字符标引数据库;然后输入查询关键词,并获得所述查询关键词的伪码表示,再将查询关键词的伪码与字符标引数据库中伪码进行字符相似度比较,进而获取查询关键词的所有相似词,并按照其在文档中出现的先后顺序输出相似词,完成检索。本发明专利技术适用于图像格式的中文文档检索。

【技术实现步骤摘要】

本专利技术涉及信息处理
,具体涉及一种基于内容的图像格式中文文档检索 方法。
技术介绍
纸质文档的数字化存储与检索对于信息的获取和办公自动化领域有着深远的意 义。对于数据存储而言,一般采用扫描仪或数码相机先将纸质文档转换为图像格式进行保 存,即将纸质文档转换为图像格式文档,两个图像格式文档示例如图1所示。如何对大规模 图像格式文档数据集进行检索是一个非常具有挑战性的问题,也是最近几年研究领域的一对于图像格式文档的检索而言,一般都是利用目前较为成熟的OCR技术,将文档 电子化,即转换为ASCII文本。由于OCR会存在识别错误,且会丢失版面的一些原始信息, 所以一般利用OCR的文本进行检索,而检索的结果为图像格式的扫描文档的内容。由于OCR 会存在识别错误,特别是对于退化文档,识别率很低,此时检索性能会很差。尽管有一些克 服OCR识别错误的方法,如识别后处理,提供候选字等,但效果仍然很有限。鉴于目前的研 究现状,对退化字符的识别难以在短期内有很大的突破,如何解决低识别率文档的检索就 成为了一个非常有意义,也非常有挑战性的问题。
技术实现思路
为了解决现有的基于OCR技术的检索方法不能有效处理字符退化严重的图像格 式文档的问题,本专利技术提供了。本专利技术的,它包括以下步骤步骤一获取待检索的图像格式中文文档,并对每个图像格式中文文档进行字符分割,进而获取每个图像格式中文文档中的单个字符图像力;步骤二 根据所获取的单个字符图像力,提取该字符图像的字符图像特征矢量; 步骤三基于局部敏感哈希变换原理,构建hash函数h,并将所提取的字符图像 的字符图像特征矢量相应变换为伪码Ο、)= 2,…,Cyl,并根据所述伪码Cjj7J建立字符标引数据库,所述伪码Cj7J由L个16位整数Cjyf串接而成,其中, 的值由hash函数h和参数k决定; 步骤四在所述字符标引数据库中输入查询关键词,所述查询关键词的格式为文本格式或图像格式,判断所述查询关键词是否为文本格式,如果是,执行步骤五,否则执行步骤 六;步骤五设置文本格式的查询关键词的字体和字号,并将所述查询关键词由文本格式 转换为图像格式;步骤六对图像格式的查询关键词W进行字符分割,进而获取所述查询关键词W的所有 字符图像,即fr = Ic1,X2,...,,巧为所述查询关键词w中一个字符图像,! = IU,并根据所述字符图像A提取其字符图像特征矢量;步骤七基于局部敏感哈希变换原理,将字符图像A的字符图像特征矢量变换为伪码 所述伪码‘丨由!^个化位整数^串接而成; 步骤八令i=l, j=l ;步骤九获取字符图像的伪码C(A)与字符标引数据库中字符图像力的伪码Ctu之间的字符相似度S=M/L,其中,M为所述两个伪码之间属性相等的个数;步骤十判断所获取的字符相似度S是否小于相似度阈值1/L,如果是,则执行步骤 十四,否则,执行步骤十一;步骤十一判定字符图像巧与字符标引数据库中字符图像巧相似,将所述字符四像ι及步骤九获取的字符相似度S保存;步骤十二判断是否存在i=n,如果是,则令i=l,执行步骤十三,否则令i=i+l,执行 步骤十四;步骤十三将步骤十一所存储的乃与々之间的η个字符组成的词作为有效查询结果保存,并将步骤十一所存储的η个字符相似度S相乘作为所述词相似度保存,然后执行步 骤十四;步骤十四判断是否存在j<N,如果是,则令j=j+l,返回执行步骤九,否则执行步骤 十五;步骤十五将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出, 完成检索。本专利技术的有益效果本专利技术的完全抛 弃OCR技术,避免了复杂的OCR算法的设计、样本训练等过程,直接利用字符图像的特征,并 基于图像间的相似性进行检索,能够有效处理字符退化严重的图像格式文档;本专利技术的检 索方法简单,速度快,成本低廉;本专利技术的检索方法具有线性的查找速度,有效的缓解了基 于内容检索方法中存在的特征维数过高而导致的维数灾难问题。附图说明图1和图2是本专利技术的流程图,图3是用 扫描仪扫描获得的图像格式文档,图4是用数码相机拍摄获得的图像格式文档,图5是本发 明具体实施方式四中,查询关键词为文本格式时图像格式中文文档的检索流程示意图。具体实施例方式具体实施方式一根据说明书附图1和2具体说明本实施方式,本实施方式的一种 基于内容的图像格式中文文档检索方法,它包括以下步骤步骤一获取待检 索的图像格式中文文档,并对每个图像格式中文文档进行字符分割,进而获取每个图像格式中文文档中的单个字符图像力;步骤二 根据所获取的单个字符图像、,提取该字符图像的字符图像特征矢量; 步骤三基于局部敏感哈希变换原理,构建hash函数h,并将所提取的字符图 像ι的字符图像特征矢量相应变换为伪码 ,并根据所述伪码建立字符标引数据库,所述伪码由L个16位整数Cjy串接而成,其中, 的值由hash函数h和参数k决定;步骤四在所述字符标引数据库中输入查询关键词,所述查询关键词的格式为文本格 式或图像格式,判断所述查询关键词是否为文本格式,如果是,执行步骤五,否则执行步骤 六;步骤五设置文本格式的查询关键词的字体和字号,并将所述查询关键词由文本格式 转换为图像格式;步骤六对图像格式的查询关键词W进行字符分割,进而获取所述查询关键词W的所有 字符图像,即 力所述查询关键词w中一个字符图像,J =,并根据所述字符图像巧提取其字符图像特征矢量;步骤七基于局部敏感哈希变换原理,将字符图像A的字符图像特征矢量变换为伪码 所述伪码Ci(Xi)由L个16位整数Q串接而成; 步骤八令i=l, j=l ;步骤九获取字符图像\的伪码C(Ii)与字符标引数据库中字符图像1的伪码σ(>ν)之间的字符相似度S=M/L,其中,M为所述两个伪码之间属性相等的个数;步骤十判断所获取的字符相似度S是否小于相似度阈值1/L,如果是,则执行步骤 十四,否则,执行步骤十一;步骤十一判定字符图像^与字符标引数据库中字符图像力相似,将所述字符图像力及步骤九获取的字符相似度S保存;步骤十二判断是否存在i=n,如果是,则令i=l,执行步骤十三,否则令i=i+l,执行 步骤十四;步骤十三将步骤十一所存储的乃与々之间的η个字符组成的词作为有效查询结果保存,并将步骤十一所存储的η个字符相似度S相乘作为所述词相似度保存,然后执行步 骤十四;步骤十四判断是否存在j<N,如果是,则令j=j+l,返回执行步骤九,否则执行步骤 十五;步骤十五将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出, 完成检索。具体实施方式二本实施方式是对具体实施方式一的进一步说明,具体实施 方式一中在步骤三中,构建hash函数h的具体过程为首先定义m维空间中规则多面体的定点集合F = 、,...》;},其中,IhI = I,并定义旋转矩阵A,然后建立hash函数hC^sargmaxXA〗.! ),ρ为单位矢量,所述hash函数映射的结果集为{1义..,岣。具体实施方式三本实施方式是对具体实施方式一或二的进一步说明,具体实施方式一或二中,在步骤三中,伪码Crj7J中16位整数Cj^的个数L的范围为1 50。具体实施方式四本实施方式与具体实施方式三的进一步说明,具体实施方式三 中,伪码中16位整数Cjy的个数L=本文档来自技高网...

【技术保护点】
一种基于内容的图像格式中文文档检索方法,其特征在于所述检索方法包括以下步骤:步骤一:获取待检索的图像格式中文文档,并对每个图像格式中文文档进行字符分割,进而获取每个图像格式中文文档中的单个字符图像y↓[i];步骤二:根据所获取的单个字符图像y↓[i],提取该字符图像的字符图像特征矢量;步骤三:基于局部敏感哈希变换原理,构建hash函数h,并将所提取的字符图像y↓[i]的字符图像特征矢量相应变换为伪码C(y↓[j])={C↓[yj1],C↓[yj2],…,C↓[yjL]},并根询结果按照其在文档中出现的先后顺序输出,完成检索。据所述伪码C(y↓[j])建立字符标引数据库,所述伪码C(y↓[j])由L个16位整数C↓[yjt]串接而成,其中,c↓[yjt]=g↓[t](y↓[j])={h↓[i1(y↓[j]),h↓[i2](y↓[j]),…,h↓[ik](y↓[j])};t=1,2,…,L,j=1,2,…,N,C↓[y3t]的值由hash函数h和参数k决定;步骤四:在所述字符标引数据库中输入查询关键词,所述查询关键词的格式为文本格式或图像格式,判断所述查询关键词是否为文本格式,如果是,执行步骤五,否则执行步骤六;步骤五:设置文本格式的查询关键词的字体和字号,并将所述查询关键词由文本格式转换为图像格式;步骤六:对图像格式的查询关键词W进行字符分割,进而获取所述查询关键词W的所有字符图像,即W={x↓[1],x↓[2],…,x↓[n]},x↓[i]为所述查询关键词W中一个字符图像,i=1,2,…,n,并根据所述字符图像x↓[i]提取其字符图像特征矢量;步骤七:基于局部敏感哈希变换原理,将字符图像x↓[i]的字符图像特征矢量变换为伪码C(x↓[i])={C↓[x↓[2]1],C↓[x↓[2]2],…,C↓[x↓[i]L]},所述伪码C(x↓[i])由L个16位整数c↓[x↓[i]t]串接而成;步骤八:令i=1,j=1;步骤九:获取字符图像x↓[i]的伪码C(x↓[i])与字符标引数据库中字符图像y↓[i]的伪码C(y↓[i])之间的字符相似度S=M/L,其中,M为所述两个伪码之间属性相等的个数;步骤十:判断所获取的字符相似度S是否小于相似度阈值1/L,如果是,则执行步骤十四,否则,执行步骤十一;步骤十一:判定字符图像x↓[i]与字符标引数据库中字符图像y↓[j]相似,将所述字符图像y↓[j]及步骤九获取的字符相似度S保存...

【技术特征摘要】

【专利技术属性】
技术研发人员:夏勇王宽全左旺孟黎捷
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1