当前位置: 首页 > 专利查询>王宏源专利>正文

一种基于图书知识元构建数字图书馆的方法技术

技术编号:2839707 阅读:190 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种通过切分和摘取存在于图书内的,依托于图书的独立的知识元,用以构建数字图书馆(库)的方法。该方法突破传统数字图书管理中以书页为基本管理单位的限制,以知识元的概念进行数据加工并与图书原始页面的影像建立连接。本发明专利技术不限于处理历史上出版印刷的各种文字的书籍、刊物、论文和图表、图纸等,也包括各类出土文献,以及诸如诗词、歌曲等等。这种方式可以克服传统的以书页为管理单位的方式所出现的信息量冗余或者信息残损两个方面的问题,从而提高数字图书馆(库)的使用效能,使用户能够得到更为精确、有效的检索结果。

【技术实现步骤摘要】

本专利技术属于计算机领域,具体涉及一种基于知识元构建数字图书馆的方法。
技术介绍
继Google在2004年12月宣布其“图书全文检索项目(Google Books SearchProject)”之后,微软于2005年11月4日宣布,已同英国图书馆签订了一项协议,将通过扫描把该馆的10万本图书数字化。亚马逊也表示,2006年将使消费者付费购买书籍在线阅读权,一本价值20美元的书在网上的阅读权可能只卖1.99美元左右。美国国会图书馆随即宣布了被评论家称为“最具雄心的文明复兴计划”——组建规模最大的“世界数字图书馆”,旨在让世界各地人民足不出户,就可以近距离欣赏其他国家、民族的古老文明和精粹文化。二十世纪九十年代以来,随着因特网的迅猛发展,高新技术的日益普及,特别是知识经济的兴起,网上信息的有序组织越来越引起世界各国的重视。为在新世纪掌握政治、经济主导权,各国纷纷提出发展经济的战略措施。1993年美国制订了“国家信息基础结构”(NII)行动计划,继而提出了建设“全球信息基础设施”(GII)的主张;1994年欧盟宣布在欧洲建立信息社会的计划,确定了欧洲信息社会应用领域;同年俄罗斯成立了俄联邦信息政策委员会;1995年俄杜马通过了《俄罗斯信息、信息化和信息保护法》;日本、加拿大、法、英、南非等许多国家也都以政府行为采取了相应的对策和行动。为在竞争中处于领先地位,不少国家和地区的图书馆在政府的大力支持下积极行动起来,配合NII的建设开展数字图书馆的研究和建设,并取得相当成效。我国于2000年底,国家发改委和教育部开始支持浙江大学、北京大学等高校研究数字图书馆。2002年9月,教育部确定在第二期“211工程”中设立专项,支持浙江大学、北京大学、清华大学等16所重点大学及中科院研究生院等单位与美国CMU及美国自然科学基金会合作研究“高等学校中英文图书数字化合作计划”,即CADAL项目。四年来经过数百位研究开发人员的努力,CADAL项目已经实现了一个集海量数据检索、个性化服务、双语翻译、知识服务、中国书法库检索和多媒体资源检索等技术为一体的,包含百万册数字图书的全球最大公益性数字图书馆,访问者遍布70余个国家和地区,目前月访问量已经突破900万人次,项目一期获得巨大影响和成功。该项目也是基于图书扫描影像和OCR文字辨识技术实施的。数字化不但使图书得到数字保存、同时提供检索和研究功能,从某种意义上讲,它还使每一本书中的每一个词都互相耦合、串联、引用、摘录、排序、注释、混合、重组,并且被融会到比以往更深化的文化中成了现实。图书一旦被数字化,就可以通过知识发掘、语义连接等技术使之从信息变为知识源,并通过跨媒体技术与图像、声音、视频打通,成为一个巨大的知识情报网络,能对教育、科研、文化、经济的发展和自主创新产生强大的支撑与推动作用。是国家知识创新的主要基础设施,也是21世纪竞争的新焦点之一。目前,使用者普遍接受了字段检索、引文链接、电子期刊文献知识分类等数字化图书管理与浏览检索方式。Google Books数据库首次“扩军”就增添了来自密歇根大学、哈佛大学、斯坦福大学、纽约公共图书馆的10000多册图书。这些图书均被逐页扫描,用户可以通过Google Books站点对这些图书的文本内容进行搜索和阅读,但是,用户每次只能检索和浏览一页的内容。除Google的图书全文检索项目外,包括史密森学会、惠普、雅虎、微软的MSN在内的合作伙伴联合公布的一项对全世界上所有图书进行数字化处理并开放的计划,并通过此计划成立了“开放内容联盟(OCA)”。上述提到的数字图书馆(库)的实施方法大都是基于书页扫描的方法,并将页面内的图像文字利用OCR文字辨识技术进行抽取,使用者在使用数字图书馆(库)的过程中均采取逐页检索和浏览的方式,提供下载则多为PDF可携式文件格式整篇文章或者图书。上述这种电子图书的管理方式我们可以称其为“数字图书馆(库)图书的逐页管理方式”。这种逐页管理模式的最大优点在于它可以凭借高速扫描设备和全自动的OCR文字辨识工具快速构建数字图书馆(库)。基于图书每个页面逐页构建的数字图书馆的图书文本在建立索引的时候或许不用关心书本中每个章节、段落的内容是什么,而仅仅依据在特定页面内的文字进行检索、管理、呈现。然而,图书虽然主要以页面为知识内容的载体,但是其内容一般却是不取决于图书页面的。因此,这种对图书中的内容知识采取逐页管理的方式显然是存在问题的,即它不关心存在于图书中的特定的知识点,或称之为知识元,与特定页面中的关系。或者说图书中的知识元是受制于图书每个页面的。虽然我们可以采取根据图书特定页面上下页面翻页的方法对上述缺陷进行修补,但是如果图书的上下页面分割了某一个知识元或者一个页面包括少于一个或者多于一个知识元的情况下,就会出现信息量冗余或者信息残损两个方面的问题,从而给使用带来不便,出现诸如检索匹配关联度降低,或者信息检索不到的情况。人类的知识是具有体系的。各种知识体系往往是由众多的知识点所构成,我们称其为知识元素或知识元。在信息爆炸的时代,人类有更关注小的知识元的倾向。历史上对图书采用知识元的管理方式比较著名的例子是对《圣经》的管理。在《圣经》中,每篇文章的每个句子都有编号,如果能说出特定号码,就唯一指定《圣经》中的一句话。换言之,一部《圣经》就是被人类切分成了数量众多的知识元。人们可以不关心各种不同语言文本或者不同版本的《圣经》页码与内容的对应关系,只要说出编号,就能够知道是指《圣经》中的哪一句话。本专利技术公开了一种通过切分和摘取存在于图书内的,依托于图书的独立的知识元,以构建数字图书馆(库)的方法。其中心特征是在一定的条件下,从特定图书中抽取的每个知识元素都具有唯一性,独立性和完整性,我们称其为图书知识元。进而采用XML文件格式存放这些众多的知识元,并建立索引,提供检索服务。这种将知识元素的思想引入数字图书馆(库)的图书管理中的方法,我们称其为“数字图书馆(库)图书的知识元管理方式”。即在每本图书放入数字图书馆(库)之前,不但将其图书在相关的知识领域上做出分类,还会进一步细化到图书的每一行文字内容上,精细地对其每个自然段落甚至每个字、词条进行分析、分类,形成一个个独立的相关信息单元。每个单元围绕一个话题,或者说,每个单元所要告诉读者的信息在全书、全文中可以被看作是相对独立的知识点,即知识元。这种方式并不关心图书页面中的知识元与特定页面的物理关系,但是强调以知识元为主。这种方法与“逐页管理方式”不同在于,在以知识元管理的图书中,图书的页面是受制于页面上的内容,即知识元的。例如一部字典中的一个字、词条可以被看作是一个知识元,一个中医典籍中的药方可以看成一个知识元,等等。当然,就字典而言某个字、词条中的某项解释也可以再切分称新的知识元。如果我们基于知识元来建构知识库,则图书中的页面就变成了辅助因素,在读者需要验证特定数字格式的知识元的图像形式的时候,可以调出特定页面浏览,当然这时候可能是一个页面中的一部分,也可能是多个页面。基于知识元管理的数字图书馆(库)将知识脱离开图书的页面,可以克服逐页管理的缺陷,提高数字图书馆(库)的使用效能。通过我们的实践发现,这种基于知识元的管理方式对学术类电子图书管理的优点明显,对辞书类本文档来自技高网...

【技术保护点】
一种通过切分和摘取存在于图书内的,依托于图书的独立的知识元,以构建数字图书馆(库)的方法,具体包括以下步骤:    1)将纸本书籍的文字或多媒体内容录入转换成电子文档,并且保留其对应的图书影像。    2)根据不同图书种类分析并定义特定图书知识元及其域。

【技术特征摘要】
1.一种通过切分和摘取存在于图书内的,依托于图书的独立的知识元,以构建数字图书馆(库)的方法,具体包括以下步骤1)将纸本书籍的文字或多媒体内容录入转换成电子文档,并且保留其对应的图书影像。2)根据不同图书种类分析并定义特定图书知识元及其域。2.如权利要求1所述的基于知识元构建数字图书馆(库)的方法,其特征在于根据所定义的图书知识元的域对其文字或多媒体内容进行切分。切分出来的每个知识元都是围绕特定内容的尽可能小的知识单位或知识点,但内容不得为空。3.如权利要求1和2所述的基于知识元构...

【专利技术属性】
技术研发人员:王宏源张晶晶赵锋
申请(专利权)人:王宏源
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1