当前位置: 首页 > 专利查询>复旦大学专利>正文

处理和重复使用中文古籍的方法及其所采用的计算机软硬件系统技术方案

技术编号:2882645 阅读:311 留言:0更新日期:2012-04-11 18:40
本发明专利技术建立以视觉相似性为基础的计算机古籍内容检索方法和检索系统。设计按照古迹书写规则所确定的对象线性序编号位置特征、页面编号和页面内各对象的几何坐标构成的页面特征、多级重心分划区域笔画因素累计值形态特征和相应的提取技术;提出任意检索点标定方法和提高匹配精度的约束验证技术;创立以及允许检索者在检索阶段利用搜索精度控制参数权衡查全率与查准率,实现即时选择对象形态至对象语义映射的动态调整方法。发明专利技术中优化组合图象处理、高维特征空间索引和上述技术,用通用计算机及相关外部设备,实现软/硬件合一的中文古籍数字化和内容检索系统。达到直接在页面图象上自动完成的、支持任意检索点的计算机古籍内容检索技术效果。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及高速、且以内容为其目的的中文古籍文献数字化及在数字化古籍页面图象中直接实现内容检索的自动化方法和系统。古籍作为人类文化遗产的重要组成部分,具有极高的学术研究和艺术欣赏价值。由于其珍奇、稀有的特点,古籍的上述价值无法在大范围内为公众所利用,即使在严格限定的范围内,古籍原件的安全性和可持续保藏性依然难以保障。对古籍文献的发掘和有效利用已成为各国数字化图书馆(Digital Library)工程的主要目标之一。迄今为止,提出的各种古籍数字化和数字化媒体的利用方式可归纳如下标引加图象浏览方式。首先以预定的分辨率扫描古籍页面,消除噪声后作为古籍页面的数字化媒体(简称“页面图象”)保存于大容量存储装置(常用光盘)中。图书馆或博物馆专业人员对页面图象标引(如按部/类/属/目分类、书名、著者时代、著者姓名、著作方式、出版年代、出版地、出版者、版式、行款、批校者、题跋者、藏印、封面、扉页、序文、前/后添加页、凡例、目录、图、附录、跋等),作为页面图象的附加信息并建立相关索引,保存在存储装置中备查。检索者利用数据输入设备(键盘或鼠标),通过系统提供的有限数量的检索点(常见的是书号、部/类/属/目分类、书名、著者时代、著者姓名)检索古籍,然后浏览全书或部分页面的页面图象,也可根据预先标引信息浏览古籍的页面图象中的封面、前/后添加页、扉页、序文、凡例、目录、图、附录、跋等。系统一般还提供了浏览过程中可控制页面的进退和图象放大/缩小等辅助功能。这种方式的主要问题在于标引项目不会很多;检索点不会多于标引项目;标引项目难以覆盖检索者的特定检索目标;除检索点外,页面图象中的大部分内容只可浏览,不能达到古籍内容检索的效果。附带文本文件加文本文件全文检索方式。首先根据古籍制作与之对应的文本文件(如人工键盘录入),然后应用全文检索技术对该附带文本文件实现文字内容检索,最后再由对应关系调出页面图象。这种间接方式在其必不可少的附带正文文件的生成阶段,正文文本与古籍原稿内容的同一性判定、字符集规模、特殊符号处理、自动化程度等方面存在着图书馆或博物馆业务无法接受的制约条件;这些问题致使中国专利申请公开说明书CN-1151558A中提出的基于文本文件形式的信息检索方法和系统无法应用于以图象为其实质的古籍页面的内容检索应用。另外,通假字在古籍中的广泛使用,也使全文检索技术对古籍内容检索缺乏必要的能力。光学字符识别加文本文件全文检索方式。该方式用光学字符识别(OCR)技术生成古籍对应的文本文件和检索对象,然后应用全文检索技术对该附带文本文件实现文字内容检索,最后再由对应关系调出页面图象。然而,由于古籍出版年代、版本形式不同,古籍用字差别巨大,无法建立包括所有古今字词的词典;更由于中文古籍中毛笔手书汉字笔画模糊、不规范、笔画间/部件间的相对位置不稳定、笔画倾角/相对长度不稳定、书写风格差异、软笔笔画变形等诸多因素,难以完成软笔手书字体的准确识别。中国专利申请公开说明书CN-1165571A中提出了一种生成与检索对象形状相似的文字串(如“中间决算”与“牛间决算”)、对每种可能的变形分别应用一次文本文件全文检索的方法,以回避错误识别给检索带来的上述问题。但是,该方法对古籍而言是无能为力的。因为文字串的变形数是随文字串长度以指数规律增长的。例如,设每个字的平均变形数为k,文字串长度为n,则可能的变形文字串总数为kn。因此,该方法在算法上缺乏可伸缩性(Scalability),反映到应用中,是缺乏实用性。OCR作为附加文本文件生成工具的另一个重要缺陷是古籍文字/符号对象(以下简称“对象”)的语义在OCR识别阶段已“冻结”,即对象的图象已确定性地映射到一个文字。检索者在检索过程中没有任何能力改变已被附加文本文件制作者冻结的语义映射。在以毛笔手书为主要特征的中文古籍作品中,手写字体的变化、页面纸质的污损都不可避免地导致对象的语义无法唯一确定,需要检索者根据工作目标即时地做出选择,例如确定查全率和查准率的折中。这一要求无法被基于OCR的古籍内容检索方法所满足。总之,对于以毛笔手书汉字为其主要特征的中文古籍作品,其内容检索问题十分困难。目前尚无有效的、直接的内容检索方法和系统。本专利技术的目的是提出一种直接在页面图象上自动完成的、基于视觉相似性的、任意检索点的计算机古籍内容检索新方法。本专利技术的又一目的是提出一种允许检索者在检索阶段即时选择对象形态至对象语义映射的动态调整方法。本专利技术的另一目的是提出一种可以与目前图书馆常用的标引方法配合使用的查询/浏览相结合的古籍检索工具。本专利技术的再一目的是使用通用计算机及相关外部设备,建立能够实现上述方法技术效果的中文古籍数字化和内容检索系统。本专利技术中,基于视觉相似性的计算机古籍内容检索方法,其特征在于,由特征空间组织和内容检索两个相继阶段构成;特征空间组织为古籍中的内容(对象及其序列关系)生成其特征聚类,建立易于根据视觉相似性快速查找近似对象的索引结构;内容检索是利用该索引结构,自动地快速获得所有与检索者给定对象视觉内容近似的其他对象;对于待处理的古籍,特征空间组织阶段一次性地完成,而内容检索阶段可根据检索者的要求多次重复。本专利技术中利用了图象处理、特征提取、高维特征空间索引、任意检索点标定、特征快速匹配和约束验证等技术,其特征在于优化组合这些技术,利用通用的计算机和外部设备,实现直接在页面图象上自动完成的、基于视觉相似性的古籍内容检索;对从属于优化方法的按照古迹书写规则所确定的对象线性序编号位置特征、页面内对象几何布局的页面特征、多级重心分划区域笔画因素累计值的对象形态特征定义和对这些特征提取;对任意检索点标定和对提高匹配精度的约束验证;以及检索者在检索阶段利用搜索精度控制参数权衡查全率与查准率,实现即时选择对象形态至对象语义映射的动态调整。以上述特征和处理方法为核心,用通用计算机及相关外部设备,建立能够实现新技术效果的、软/硬件合一的中文古籍数字化和内容检索系统。本专利技术由检索者在古籍页面图象上随意地标定检索对象,可提供任意的检索入口点,完全满足检索者的特定检索目标的需要;由于检索对象直接出自于页面图象,无须考虑同一性判定、字符集规模、特殊符号处理、通假字、词库等问题,自动化程度高、操作简便,易于图书馆工作人员使用;利用“近似匹配”的技术路线,摆脱了由“识别”方法引进的额外困难——即目前尚不能完全准确的由对象形态到对象语义的抽象过程;利用搜索精度控制参数权衡查全率与查准率的动态语义映射选择机制适应了中文手写字体变化和古籍污损的工作环境;专利技术中提出的采用多级重心分划区域笔画因素累计值的对象形态特征,是一种特征提取的优化实施方案,它正确体现了手写文字的视觉内容,即相对灵活的笔画分布密度所表达的文字/符号。其中,以对象高度和宽度的最大值为单边长的正方形位图规格化方法较好地保持了对象的宽高比特征;依区域重心对位图作多级分划较好地解决了手写文字里笔画/部件间的相对位置偏移的问题;基于笔画因素的特征构成对软笔手写汉字笔画不均匀、笔画模糊、倾角/相对长度缺乏规律等现象,都有较强的容错能力,也便于对古籍中的非文字符号对象的统一处理。本专利技术的方法还能够与目前图书馆常用的标引方法配合使用,形成查询/浏览相结合的古籍检索工具。本文档来自技高网...

【技术保护点】
一种中文古籍数字化及内容检索的方法,其特征在于,它由一次性完成的特征空间组织(100)处理阶段和可多次重复的相继的古藉内容检索(120)处理阶段组成; 所述的特征空间组织处理(100)阶段包括以下步骤: 通过扫描和预处理模块(101)产生页面图和将它存入页面图象库(111),同时通过骨架传给后续的提取特征模块(102)以将页面图象中的对象分解为独立图象的有序集合; 通过提取特征模块(102)将所述对象的有序集合分离成页面特征,对象全局位置特征和形态特征向量并将这些特征保存在特征表(112)中; 通过索引特征模块(103)组织所述全局位置特征和形态特征向量并保存于数据结构特征空间索引模块(113); 通过数据结构特征空间索引模块(113)对形态特征向量进行视觉相似性聚类以及排除与检索点不相似的文字符号图象;以及 通过调整精度控制参数确定特征空间索引模块(113)中的搜索范围,以将其全局位置特征反馈; 所述内容检索(120)阶段包括以下步骤: 通过标定检索样本模块(121)设定页面图象的页面坐标和坐标序列的顺序以形成检索样本,并将座标序列的顺序作为约束条件传给验证约束条件模块(124); 通过获取特征模块(122)将页面坐标序列作为条件从特征表(112)中确定页面图象的具体对象,以获得与对象相对应的形态特征向量; 通过近似查询模块(123)以形态特征向量为参考点寻找最近邻元素以构成参考点的相似对象集合;并将对应的相似对象集合组成全局位置特征集簇传递给验证约束条件模块(124); 由验证约束条件模块(124)根据所述约束条件检验集簇元素的有效组合,以形成检索结果;以及 通过显示/浏览检索结果模块(125)将检索结果显现在检索者的客户机屏幕(206b)上并根据所述搜索范围的全局位置特征反馈结果对精度控制参数调整。...

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:施伯乐张亮王勇陈智峰印峻陈国梁舒韵宏焦宇翔
申请(专利权)人:复旦大学上海金鑫计算机系统工程有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1