文档处理方法及其装置制造方法及图纸

技术编号：8161557 阅读：129 留言：0更新日期：2013-01-07 19:33

本申请涉及文档处理方法及其装置，其中对于多个输入的文档图像中的每个文档图像：检测与初始关键字符相匹配的初始关键字符图像，所述初始关键字符是所述多个文档图像的标题中的关键字符；针对每个初始关键字符图像，提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像，其中初始关键字符图像与相邻字符图像构成准标题区域；计算每个准标题区域的置信度值，并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选，其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性；基于从所述多个文档图像获得的标题候选对文档图像进行聚类，从而得到具有同类标题的文档分类。

全部详细技术资料下载

【技术实现步骤摘要】

本申请总体上涉及图像处理的领域，更具体而言，涉及一种文档处理方法及其装置。
技术介绍
文档标题通常隐含了文档的主题，对于分析、理解以及管理文档有重要意义。在文档系统中，通常将具有相同标题的文档划归一类文档。在传统方法中，通常提供了一种根据人工生成的模板来定位标题的位置和内容，从而对文档分类，然而此方法并不适合应用于大规模数据处理。此外，现有技术中还存在一种基于OCR识别的文档分类方法，其首先借助OCR识别检测文档的标题字符串并且基于所识别的文档标题对文档进行分类，然而此方法应用领域单一，并不适于包含多种标题的文档。
技术实现思路
在下文中将给出关于本专利技术的简要概述，以便提供关于本专利技术的某些方面的基本理解。应当理解，这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分，也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。根据本申请的实施例，在对文档进行处理时，对于多个输入的文档图像中的每个文档图像检测与初始关键字符相匹配的初始关键字符图像，所述初始关键字符是所述多个文档图像的标题中的关键字符；针对每个初始关键字符图像，提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像，其中初始关键字符图像与相邻字符图像构成准标题区域；计算每个准标题区域的置信度值，并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选，其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性；基于从所述多个文档图像获得的标题候选对文档图像进行聚类，从而得到具有同类...

【技术保护点】
一种文档处理方法，其包括：对于多个输入的文档图像中的每个文档图像：检测与初始关键字符相匹配的初始关键字符图像，所述初始关键字符是所述多个文档图像的标题中的关键字符；针对每个初始关键字符图像，提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像，其中初始关键字符图像与相邻字符图像构成准标题区域；计算每个准标题区域的置信度值，并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选，其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性；基于从所述多个文档图像获得的标题候选对文档图像进行聚类，从而得到具有同类标题的文档分类。

【技术特征摘要】

【专利技术属性】
技术研发人员：常兰兰，孙俊，何源，于浩，直井聪，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人