XML数据库全文检索方法及系统技术方案

技术编号:11032299 阅读:264 留言:0更新日期:2015-02-11 18:08
本发明专利技术提供了一种XML数据库全文检索方法及系统,该方法包括:在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表,并且各元数据表中每一行以一个字符串为主键;在进行查询时,利用所述字符串引用与其对应的词汇表。利用本发明专利技术,可以使用户根据自身应用需求来扩展和定制全文检索运行方式。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种XML数据库全文检索方法及系统,该方法包括:在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表,并且各元数据表中每一行以一个字符串为主键;在进行查询时,利用所述字符串引用与其对应的词汇表。利用本专利技术,可以使用户根据自身应用需求来扩展和定制全文检索运行方式。【专利说明】XI数据库全文检索方法及系统
本专利技术涉及数据库
,具体而言,涉及一种XII数据库全文检索方法及系统。
技术介绍
X见数据库管理系统是近年来快速发展的一种新型的数据库管理系统(0813),它存储和检索的数据是XII文档,并且支持更新XII文档。由于存储和检索的是XII文档,所以X见0813常常被用作文档数据库,全文检索就是X见数据库管理系统的一个重要功能。 X见数据的检索和更新语言是由13(:制定的标准的糾1161~7和糾1161~7邱(1社6。130同时制定了父如61~7标准,作为X祖1)813的标准的全文检索语言。父如61~7?11111:6^1:标准制定了在^如61~7 ?11111:6^1:查询中使用任意的停用词(31:01^0:^(18)、词汇关系(111685111:^118)和词根化(义一臟丨叩)词汇表的机制。 8^0^01-(18词汇表的作用是在全文检索过程中忽略非常常用的单词,比如冠词,助词,语气词,介词等等,因为这些词在大多数文本中都存在,失去了索引的意义和价值;这些词被列在一个31:0押01(18词汇表中,做分词和全文检索的词语匹配时,就忽略这些单词,认为它们与任何单词都匹配。 111688111-118词汇表的作用是定义词汇之间的关系,比如词汇关系,词汇意义的扩展或者缩小关系,常用与不常用关系等,以便在查找一个词的时候也可以找到含有与之有指定关系的其他词语的文本。 义6臟1!18词汇表的作用是在英语等西文语言中作词根匹配,只要两个单词有相同的词根,就可以认为它们相等,虽然他们在字面上并不相同。比如英文中的如加和(101=8在启用词根化选项时是相同的单词。 然而,上述111688111-118和31:61111111118词汇表的机制显然不适用于中文。
技术实现思路
本专利技术提供一种XII数据库全文检索方法及系统,可以使用户根据自身应用需求来扩展和定制全文检索运行方式。 为此,本专利技术实施例提供如下技术方案: 一种XII数据库全文检索方法,所述方法包括: 在XII数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表,并且各元数据表中每一行以一个字符串为主键; 在进行查询时,利用所述字符串引用与其对应的词汇表。 优选地,所述方法还包括: 接收用户设定的词汇关系名称,并在词汇关系词汇表中使用所述词汇关系名称定义词汇关系; 根据所述词汇关系词汇表生成所述词汇关系元数据表。 优选地,所述方法还包括: 根据用户注册的词根化词汇表生成所述词根化元数据表。 优选地,所述方法还包括: 接收用户注册的一个或多个专业词汇表; 根据所述专业词汇表生成所述中文分词元数据表。 优选地,所述字符串为统一资源定位符字符串。 优选地,所述方法还包括: 在进行全文查询时,如果启用了词根化词汇表,则先获取用户查询语句中的关键词和XII节点数据行中的关键词这两个关键词的词根,然后比较这两个词根是否相同。 优选地,所述方法还包括: 如果启用了词根化词汇表,并且需要查询全文索引表,则将词根化词汇表中的每个词都去查询全文索引表,得到多个数据行标识110位图; 对所述多个110位图做或运算,得到符合全文检索条件的节点集合。 一种XII数据库全文检索系统,所述系统包括: 设置单元,用于在XII数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表,并且各元数据表中每一行以一个字符串为主键; 查询单元,用于在进行查询时,利用所述字符串引用与其对应的词汇表。 优选地,所述系统还包括: 接收单元,用于接收用户设定的词汇关系名称,和/或接收用户注册的一个或多个专业词汇表; 所述设置单元,具体用于在词汇关系词汇表中使用所述词汇关系名称定义词汇关系,并根据所述词汇关系词汇表生成所述词汇关系元数据表;根据用户注册的词根化词汇表生成所述词根化元数据表;根据所述专业词汇表生成所述中文分词元数据表。 优选地,所述查询单元在进行全文查询时,如果启用了词根化词汇表,则先获取用户查询语句中的关键词和XII节点数据行中的关键词这两个关键词的词根,然后比较这两个词根是否相同。 优选地,所述系统还包括: 所述查询单元,在启用了词根化词汇表,并且需要查询全文索引表时,将词根化词汇表中的每个词都去查询全文索引表,得到多个数据行标识110位图;对所述多个110位图做或运算,得到符合全文检索条件的节点集合。 本专利技术实施例提供的XII数据库全文检索方法及系统,本专利技术实施例的方法可以使从;1161~7的全文检索功能更加灵活、完备和可定制,使语料库的管理和使用变得高效,稳定、可靠;特别是可以动态配置的中文分词库的使用,大大提高了中文全文检索的精准度、灵活性和智能性。可扩动态配置的06臟1叩词库,因此可以使X祖^813不依赖任何人类语言的语言学特征完成词根化,保持X见0813全文检索内核的独立性和语言无关性。本专利技术实施例的方法还可以灵活地自定义词汇间关系,以便在全文检索中充分发挥人类语言的灵活性。 【专利附图】【附图说明】 图1是本专利技术实施例XII数据库检索方法的流程图; 图2是本专利技术实施例XII数据库检索系统的一种结构示意图; 图3是本专利技术实施例XII数据库检索系统的另一种结构示意图。 【具体实施方式】 下面将参考附图并结合实施例,来详细说明本专利技术。 现有系统的31:01)恥!'(18和1116851111*118词汇表是内建的,不可配置,并且它们的义6臟1!18词汇表是使用固定的程序算法实现的,因此需要针对每种自然语言实现不同的算法,灵活性和准确性较低,而且不适合中文语言。 为此,本专利技术实施例通过在系统中实现对这三种资源的配置,并且让用户可以在查询中选择使用他配置的词库来增强系统处理所有自然语言的灵活性。 对于全文检索的需求来说,特别是中文的全文检索需求来说,标准的X如60?1111丨以丨定义的功能还很不完整。首先,中文分词需要中文词库支持,但是词库根据文本内容不同,可能需要很多种,比如日常用语词库,各种科学技术专业词库,例如生物学专业词库,医疗专业词库,化学化工专业词库等等。中文分词库的作用是根据词库中的词汇进行字符切割以便把一个中文字符串切分为合乎语境语义的若干个词语。由于在各种专业词库中有大量专业词汇,这些词汇在日常生活中极少出现;甚至在不同的组合方式下可以分出不同意义的词语集合,导致同一份文本在使用不同的专业词库时可以得到完全不同的分词结果。所以需要为专业文本使用正确的专业词库以便准确分割出该专业的词汇。 另外,^如61~7 ?11111:6X1:标准中的31:6臟1118词汇表和1116851111*118词汇表不够灵活。 为此,本专利技术实本文档来自技高网
...

【技术保护点】
一种XML数据库全文检索方法,其特征在于,所述方法包括:在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表,并且各元数据表中每一行以一个字符串为主键;在进行查询时,利用所述字符串引用与其对应的词汇表。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵伟李浩郑程光孙伟丰罗正海陈丽娟
申请(专利权)人:北大方正集团有限公司方正信息产业控股有限公司上海方正数字出版技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1