一种对电子文件进行语义检索的方法和系统技术方案

技术编号：8022464 阅读：153 留言：0更新日期：2012-11-29 04:42

本发明专利技术涉及一种对电子文件进行语义检索的方法和系统，针对具有语义描述的电子书进行语义检索，返回的结果也是图书的一部分。特别是对图书的图片、音视频、动画、小程序等的检索具有明显优势，因为这些内容通过目前传统的方式是检索不到的。这对图书检索技术是一个很大的进步。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字图书领域，尤其是涉及一种对电子图书中的电子文件进行语义检索的方法和系统。
技术介绍
数字出版的核心竞争力是对数字内容的快速检索与方便查阅，而快速检索与方便查阅的核心是语义检索，目前基于电子书的语义检索在国内还是空白。目前各大图书馆的电子版图书的检索方法有三种，一是按传统的各种分类方法进行检索，二是按传统的CPI数据查找，三是按关键字检索(这种方法在图书的检索中非常少)，所有方法的检索结果是一本完整的图书。目前大部分电子书是没有语义内容的，但是从2011年开始，随着EPUB3.0的发展，逐渐会产生了一些具有语义的电子书。而本专利技术正是基于这一变化，可以实现通过语义来检索，返回的结果也是图书的一部分。特别是对图书的图片、音视频、动画、小程序等的检索具有明显优势，因为这些内容通过目前传统的方式是检索不到的。这对图书检索技术是一个很大的进步。
技术实现思路
鉴于现有技术中存在的问题，本专利技术的目的在于提供一种对电子文件进行语义检索的方法，该方法包括如下步骤步骤(I)在数据库中以结构文件形式建立一个相近词的字典；步骤(2)确认待处理的电子文件是否包含语义描述内容；步骤(3)接受用户查询条件，然后对该条件进行中文分词，获得若干词汇；步骤(4)词汇匹配，依据中文分词后的词汇，然后再读取一个或多个电子文件的每一个语义描述中的项目名与语义内容，把这些内容与上一步获得的中文分词词汇进行比较，如果是相同或者相近，则返回该项目名称及对应的语义内容；步骤(5)向外部显示所有的返回的项目名称及对应的语义内容，供用户选择其中的一部分；步骤(6)根据用户的选择，显...

【技术保护点】
一种对电子文件进行语义检索的方法，其特征在于该方法包括如下步骤：步骤(1)在数据库中以结构文件形式建立一个相近词的字典；步骤(2)确认待处理的电子文件是否包含语义描述内容；步骤(3)接受用户查询条件，然后对该条件进行中文分词，获得若干词汇；步骤(4)词汇匹配，依据中文分词后的词汇，然后再读取一个或多个电子文件的每一个语义描述中的项目名与语义内容，把这些内容与上一步获得的中文分词词汇进行比较，如果是相同或者相近，则返回该项目名称及对应的语义内容；步骤(5)向外部显示所有的返回的项目名称及对应的语义内容，供用户选择其中的一部分；步骤(6)根据用户的选择，显示该项目名称与语义内容所对应的图片、视频、文字块内容。

【技术特征摘要】

【专利技术属性】
技术研发人员：张训军，
申请(专利权)人：北京中科希望软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人