信息存储及检索方法技术

技术编号:2826334 阅读:218 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种信息存储及检索方法包括将中文数据及将其经过分词处理后获得的单词的拼音首字母序列存入中文数据基本信息索引文件内;将标识及位置信息存入中文数据基本信息二级索引文件内;将所述单词所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内;将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。本发明专利技术还公开一种信息检索方法包括接收检索字母;中文数据基本信息索引文件、中文数据基本信息二级索引文件、单词拼音索引文件以及单词拼音二级索引文件之间的对应关系获得结果。采用本发明专利技术信息存储及检索方法能够快速、准确地定位查询目标而且能够实现跨词检索的功能。

【技术实现步骤摘要】

本专利技术涉及中文信息的存储及检索领域,尤指一种信息存储及检索方法
技术介绍
随着信息化时代的到来和发展步伐的不断加快,中文信息检索技术也已逐步渗透到人们的日常生活、工作和学习中,对中文信息检索技术的检索性能和质量也提出了更高的要求。所述中文信息检索指在由中文数据构成的文档集内查询或者检索符合查询条件的文档对象。20世纪80年代中期以后,由于计算机处理能力的大大提高和使用的逐步普及,中文信息检索技术的研究进入一个快速发展的黄金期,各种中文信息索引方法、检索算法以及实用化系统不断涌现,各种基于中文信息检索技术的商用产品也纷纷出现。如,文本检索技术,改进和应用了当前较为流行的三种信息信息检索模型:布尔模型、概率模型和向量空间模型。TRS(拓尔思),从1994年开始就推出文本检索系统TRS 1.0,经过多年的研究与改进,如今已经发展到第四代产品(基于自然语言处理的知识检索)。在上世纪80年代中叶,少数研究人员开始研究中文信息检索技术的另一分支——拼音检索;同时,随着PDA、手机、触摸屏等移动终端的广泛应用,且这些设备也不便于用户快速输入信息,为此“汉字拼音首字母检索法”也就应运而生。2001年,拼音首字母检索法首先出现于期刊上],经过几年的研究与发展,不断提出了各种拼音检索法:形序排检法、音序排检法、主题或分类排检法、时序或地序排检法等。上述各种拼音检索法,都可保证“输入尽可能少的信息即可查询到中文信息”的能力,但在中文数据信息数据量比较庞大的情况下,就会出现“返回符合检索条件的中文数据信息过多,而往往不是用户真实需要的,无法保证快速、准确的给用户返回目标结果”。-->
技术实现思路
本专利技术要解决的问题是提供一种能够快速准确地返回目标结果的基于中文语义的信息存储及检索方法。为了解决上述问题,本专利技术基于中文语义的信息存储方法的技术方案包括:将中文数据及将其经过分词处理后获得的单词的拼音首字母序列存入中文数据基本信息索引文件内;将每条中文数据的标识及其在所述中文数据基本信息索引文件中的位置信息存入中文数据基本信息二级索引文件内;将所述单词在所述中文数据基本信息索引文件内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内,所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内;将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。所述步骤将中文数据及将其经过分词处理后获得的单词的拼音首字母序列存入中文数据基本信息索引文件内进一步包括步骤:对中文数据进行分词处理以获得若干单词;获取每个单词的拼音首字母;将所述中文数据及其对应的若干单词的拼音首字母序列存入中文数据基本信息索引文件内。所述步骤获取每个单词的拼音首字母进一步包括步骤:获取每个单词内所有汉字的汉字码;在简体中文字符码表内根据所述汉字码获取其对应的汉语拼音;从汉语拼音字符串中抽析出每个拼音的首字母。相应地,本专利技术基于中文语义的信息检索方法的技术方案包括:A1)接收检索字母;A2)判断所述检索字母是否是第一个字母,执行步骤A3),否则执行A7);A3)从单词拼音二级索引文件中获得以所述检索字母为开头的单词拼音索引的数据簇在单词拼音索引文件内的位置;A4)根据所述位置从所述单词拼音索引内获得所有以所述检索字母为开头的单词所属的中文数据标识以及所述单词在所属的中文数据内的位置;-->A5)根据所述中文数据标识从中文数据二级索引文件内获得其对应的中文数据记录在中文数据索引文件内的位置;A6)根据中文数据记录在中文数据索引内的位置取出所述中文数据记录,并与所述中文数据标识以及单词在中文数据内的位置共同构成记录结果集,执行步骤A1);A7)将所述检索字母依次与记录结果集中的单词拼音首字母比较,将不包含所述检索字母的记录从所述记录结果集中删除,执行步骤A1)。步骤A4)进一步包括步骤:A41)判断起始位置是否小于终止位置,若是执行步骤A42);否则执行步骤A5);A42)从单词拼音索引中取出所述起始位置处的中文数据标识以及所述单词在所属的中文数据内的位置;A43)移动起始位置使其指向下一个中文数据标识,执行步骤A41)。与现有技术相比,本专利技术信息存储及检索方法的有益效果为:由于是以中文数据及其所分得的若干单词的拼音首字母为基础的,通过中文数据及其所分得的若干单词的拼音首字母的对应关系,使得用户输入拼音首字母这样的检索字,就能够在海量的中文数据集内快速、准确定位和查询中文数据的功能。由于是利用中文分词技术对中文数据进行分词处理以获取若干单词,且每个单词都具有自身含义,则对中文数据进行分词处理,就是解析中文数据的基本语义,因此,就能够基于中文数据的基本语义查询中文数据。由于是利用中文分词技术对中文数据进行分词处理以获取若干单词,并以每个单词信息为基础构建单词拼音索引,则遵照本专利技术信息检索方法,就能够实现跨词检索的功能。附图说明图1是本专利技术信息存储方法的流程图;图2是图1中步骤1)进一步细分的流程图;图3是图2中步骤12)进一步细分的流程图;图4是中文数据基本信息索引的示意图;图5是中文数据基本信息二级索引的示意图;-->图6是单词拼音索引的示意图;图7是单词拼音二级索引的示意图;图8是本专利技术信息检索方法的流程图;图9是图8中步骤A4)进一步细分的流程图。具体实施方式如图1所示,本专利技术信息存储方法包括下述步骤:1)将中文数据及将其经过分词处理后获得的单词的拼音首字母序列存入中文数据基本信息索引文件内,所述拼音首字母指每个汉字所对应的汉语拼音的第一个字母;2)将每条中文数据的标识及其在所述中文数据基本信息索引文件中的位置信息存入中文数据基本信息二级索引文件内;3)将所述单词在所述中文数据基本信息索引文件内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内,所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内;4)将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。其中,如图2所示,所述步骤1)进一步包括步骤:11)对中文数据进行分词处理以获得若干单词;12)获取每个单词的拼音首字母;13)将所述中文数据及其对应的若干单词的拼音首字母序列存入中文数据基本信息索引文件内。进一步地,如图3所示,所述12)还可包括步骤:121)获取每个单词内所有汉字的汉字码;122)在简体中文字符码表内根据所述汉字码获取其对应的汉语拼音;123)从汉语拼音字符串中抽析出每个拼音的首字母。由上述可知,本专利技术基于中文语义的信息存储方法是以中文数据为基础的,所述中文数据不是简单的由多个单字构成,而是由若干单字所组成一个个具有特定含义的单词共同构成的,也就是说,整条中文数据的语义是由其内部所包含的单词的含义来共同表达的。-->对中文数据进行分词处理以获得若干单词,中文分词技术目前已相当成熟,可采用正向/逆向最大匹配词典分词法,即在所构建的含有丰富且全面单词的词典的基础上,按照一定的字符串匹配与词频统计策略,将待分词的中文数据与词典内词条进行逐一、快速的匹配并进行词频统计,由此可从中文数据内分析出若干相对独立且具有自身含义的单词。例如,中文数据:北京市海淀区人民法院,采用正向最大本文档来自技高网
...

【技术保护点】
一种信息存储方法,其特征在于,包括下述步骤:将中文数据及将其经过分词处理后获得的单词的拼音首字母序列存入中文数据基本信息索引文件内;将每条中文数据的标识及其在所述中文数据基本信息索引文件中的位置信息存入中文数据基本信息二级索引文件内;将所述单词在所述中文数据基本信息索引文件内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内,所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内;将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。

【技术特征摘要】
1. 一种信息存储方法,其特征在于,包括下述步骤:将中文数据及将其经过分词处理后获得的单词的拼音首字母序列存入中文数据基本信息索引文件内;将每条中文数据的标识及其在所述中文数据基本信息索引文件中的位置信息存入中文数据基本信息二级索引文件内;将所述单词在所述中文数据基本信息索引文件内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内,所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内;将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。2. 如权利要求1所述的信息存储方法,其特征在于,所述步骤将中文数据及将其经过分词处理后获得的单词的拼音首字母序列存入中文数据基本信息索引文件内进一步包括步骤:对中文数据进行分词处理以获得若干单词;获取每个单词的拼音首字母;将所述中文数据及其对应的若干单词的拼音首字母序列存入中文数据基本信息索引文件内。3. 如权利要求1或者2所述的信息存储方法,其特征在于,所述步骤获取每个单词的拼音首字母进一步包括步骤:获取每个单词内所有汉字的汉字码;在简体中文字符码表内根据所述汉字码获取其对应的汉语拼音;从汉语拼音字符串中抽析出每个拼音的首字母。4. 基于权利要求1或者2或者...

【专利技术属性】
技术研发人员:姜德荣董振宁吴跃进
申请(专利权)人:高德软件有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利