XML数据库全文检索方法及系统技术方案

技术编号：11032299 阅读：264 留言：0更新日期：2015-02-11 18:08

本发明专利技术提供了一种XML数据库全文检索方法及系统，该方法包括：在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表，并且各元数据表中每一行以一个字符串为主键；在进行查询时，利用所述字符串引用与其对应的词汇表。利用本发明专利技术，可以使用户根据自身应用需求来扩展和定制全文检索运行方式。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种XML数据库全文检索方法及系统，该方法包括：在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表，并且各元数据表中每一行以一个字符串为主键；在进行查询时，利用所述字符串引用与其对应的词汇表。利用本专利技术，可以使用户根据自身应用需求来扩展和定制全文检索运行方式。【专利说明】XI数据库全文检索方法及系统
本专利技术涉及数据库
，具体而言，涉及一种XII数据库全文检索方法及系统。
技术介绍
X见数据库管理系统是近年来快速发展的一种新型的数据库管理系统(0813),它存储和检索的数据是XII文档，并且支持更新XII文档。由于存储和检索的是XII文档，所以X见0813常常被用作文档数据库，全文检索就是X见数据库管理系统的一个重要功能。 X见数据的检索和更新语言是由13(:制定的标准的糾1161~7和糾1161~7邱(1社6。130同时制定了父如61~7标准，作为X祖1)813的标准的全文检索语言。父如61~7？11111:6^1:标准制定了在^如61~7 ？11111:6^1:查询中使用任意的停用词(31:01^0:^(18)、词汇关系(111685111:^118)和词根化(义一臟丨叩)词汇表的机制。 8^0^01-(18词汇表的作用是在全文检索过程中忽略非常常用的单词，比如冠词，助词，语气词，介词等等，因为这些词在大多数文本中都存在，失去了索引的意义和价值；这些词被列在一个31:0押01(18词汇表中，做分词和全文检索的词语匹配时,就忽略这些单词，认为它...

【技术保护点】
一种XML数据库全文检索方法，其特征在于，所述方法包括：在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表，并且各元数据表中每一行以一个字符串为主键；在进行查询时，利用所述字符串引用与其对应的词汇表。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵伟，李浩，郑程光，孙伟丰，罗正海，陈丽娟，
申请(专利权)人：北大方正集团有限公司，方正信息产业控股有限公司，上海方正数字出版技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人