一种中文字体对照的查询索引建立方法及其查询方法技术

技术编号:2821884 阅读:346 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种中文字体对照的查询索引建立方法及其查询方法,该包括以下步骤:11)从一原始数据中选取可供查询的第一字体的中文字;12)纪录该第一字体的中文字及其在原始数据中的第一索引;13)判断该第一字体的中文字是否有对应的任一第二字体,若是,则纪录对应于该第二字体的中文字及其在原始数据中的第二索引。本发明专利技术所提供的中文字体对照的查询索引建立方法及其查询方法具有可提高中文查询的正确性和速度的优点。

【技术实现步骤摘要】

本专利技术涉及一种査询方法,特别是一种中文字体对照的查询索引建立方法 及其查询方法。技术背景目前, 一般所使用的中文简繁体查询方式可分为下列二种方式第一种为 统一转换型, 一般系统利用此种方式可将数据统一转换为简体文字,而繁体中 文到简体中文是多对一的映射关系,所以只能将繁体转换为简体,再记录字对应的索引。若是在线(online)处理查询请求时,需将被査词组也转换为简体, 再使用简体文字的索引进行查询。统一转换型的优点是额外数据量为零,并且 只需要一次査询;缺点是当多个繁体字(a, b, c,...)都对应到一个简体字(m) 时,如查询a,会错误的将{b, c, ...}等查询出来。而第二种方式是在线转换型在离线状态只记录字本身的索引;而在线状 态处理查询请求时,穷举列出被査词组的所有可能的简繁体变形,然后分别进 行查询。优点是额外数据量为零,缺点是需要多次查询,尤其在被查字词组含 多个可转换字时组合很多,会影响查询速度。总之,不管统一转换型还是在线转换型,都不同程度地存在错误查询、查 询速度慢的缺点,效果很不理想。
技术实现思路
本专利技术的目的是通过一种中文字体对照的查询索引建立方法及其査询方法, 以提高中文查询的正确性和速度。本专利技术的技术解决方案是一种中文字体对照的查询索引建立方法,包括以下步骤 11)、从一原始数据中选取可供查询的第一字体的中文字;12) 、纪录该第一字体的中文字及其在原始数据中的第一索引;13) 、判断该第一字体的中文字是否有对应的任一第二字体,若是,则纪录 对应于该第二字体的中文字及其在原始数据中的第二索引。一种基于上述的中文字体对照的査询索引建立方法的中文字体对照的査询 方法,用于在多个原始数据中进行查询,且每一原始数据是具有对应于第一字体 及第二字体的中文字索引,该方法包括以下步骤21) 、输入一中文字;22) 、使用第一字体的中文字索引,在多个原始数据中查询出具有输入中文 字的原始数据;23) 、使用第二字体的中文字索引,在多个原始数据中杳询出具有该输入中 文字的原始数据;24) 、显示所杳询到的原始数据。 上述原始数据是一翻译数据或一词句解释数据。上述第一字体、第二,体是中文繁体字体或中文简体字体,且,当第一字体 的中文字为一繁体中文字时,第二字体的中文字为-一简体中文字,而当第一字体 的中文T为一简体中文字时,第二字体的中文字为一繁体中文字。综上所述,本专利技术具有以下优点1、 对于繁体屮文字,可记录其本身及其所对应的简体中文的附加索引,以 省略査询时所花费的时间。2、 对于简体屮文字,可记录其本身及其所对应的所有繁体字的附加索引,以提高查询的时效。3、 此查询方法可直接对于输入内容进行查询,从而节省繁-简字体转换的时间。附图说明图1是本专利技术的中文字体对照查询索引建立方法示意图; 图2是本专利技术的中文字体对照查询方法示意图; 图3是本专利技术的较佳实施例的示意图一; 图4是本专利技术的较佳实施例的示意图二;图5是本专利技术的较佳实施例的示意图三;具体实施方式参见图l,本专利技术的中文字体对照查询索引建立方法,其步骤如下11) 、从一原始数据中选取可供查询的第一字体的中文字;12) 、纪录该第一字体的中文字及其在原始数据中的第一索引;13) 、判断该第一字体的中文字是否有对应的任一第二字体;若是,则纪录对应于第二字体的中文字及其在该原始数据中的第二索引。 其中原始数据可以是一翻译数据,也可以是一词句解释数据,以提供学习者 査询使用。上述的第一字体、第二字体是中文繁体字体或中文简体字体,且,当第一字 体的中文字为一繁体中文字时,第二字体的中文字为一简体中文字,而当第一字 体的中文字为一简体中文字时,第二字体的中文字为一繁体中文字。上述索引至少可供查询的中文字以及此中文字在原始数据中的位置,例如原 始数据是local attraction的解释数据「局部磁干扰」,则所建立的查询索引的一实 施例如表一所示1局2部3磁4干5扰4乾4幹由于"干"为"乾"及"幹"的简体字,所以本专利技术的查询索引建立方法会把"乾" 及"幹,,加入「局部磁干扰」的索引中。参见图2,本专利技术的基于上述的中文字体对照的查询索引建立方法的中文字 体对照的査询方法,可应用于一电子装置,用来提供一查询不同中文字体的原始数据,该方法包括以下歩骤 21)、输入一中文字;22) 、使用该第一字体的中文字索引,在多个原始数据中查询出具有该输入 中文字的原始数据;23) 、使用该第二字体的中文字索引,在多个原始数据中查询出具有该输入 中文字的原始数据;24) 、显示所查询到的原始数据。其中,所述电子装置可以是一桌上型个人计算机、 一笔记型计算机、 一平板 型计算机、 一网络工作站、 一个人数字助理装置或一电子字典。参见图3、 4、 5,其为本专利技术的一较佳实施例的示意图,现以欲要査询的繁体中文字"乾"为例,其所对应的简体中文字"干"。参见图3,在关键词字段输入"乾",然后按下确认键以输入,所查询到的索 引内容将会显示在输入框下面。若使用在线转换型,即穷举列出被査询的内容的 所有可能的简繁体变形,然后分别进行查询。对于这个例子则需要进行两次查找, 第一次找"干",第二次找"草辛",才能将所有的内容找全。本例子仅是査找一个汉字,如果是词组,穷举列出被查词组的所有可能的简、 繁体变形,分别进行查询。例如预査询内容是"乾乾赣擀酐幹榦榦IA籙"由于"干" 字有对应的三个繁体字"赣"、"乾"及"幹",此时的组合数字为31()种组合方式即 59049种,所以查询速度非常慢。参见图4,因为"乾"及"幹"对应的简体字都是"干",若使用统一转换型,己 预先将数据库从繁体中文统一全部转换为简体,并记录简体中文字对应的索引, 但是统一转换型在进行查询时,会将输入的中文转换成简体再査询,例如输入中 文为"乾",则转换成"干"再查询一次,所以会找出错误的第3项和第4项。参见图5,使用本专利技术的中文字体对照查询方法,先对翻译数据进行预处理, 对于所有字体除了记录其本身的索引外,还需将其所对应的其它字体及其索引进 行记录,也就是说,对于简体字,记录其本身及其对应的所有繁体字的索引;而 对于繁体字,记录其本身及其对应的简体字的索引。在作在线查询时,可直接对输入文字或词组进行查询,不需做转换,仅需要 输入一次欲査询的文字或词组,即可快速又准确的找出所有内容。权利要求1、一种中文字体对照的查询索引建立方法,包括以下步骤11)、从一原始数据中选取可供查询的第一字体的中文字;12)、纪录该第一字体的中文字及其在原始数据中的第一索引;13)、判断该第一字体的中文字是否有对应的任一第二字体,若是,则纪录对应于该第二字体的中文字及其在原始数据中的第二索引。2、 根据权利要求1所述的中文字体对照的查询索引建立方法,其特征是 所述原始数据是一翻译数据或一词句解释数据。3、 根据权利要求1或2所述的中文字体对照的査询方法,其特征是所述 第一字体、第二字体是中文繁体字体或中文简体字体,且,当第一字体的中文 字为一繁体中文字时,第二字体的中文字为一简体中文字,而当第一字体的中 文字为一简体中文字时,第二字体的中文字为一繁体中文字。4、 一种基亍权利要求1所述的中文字体对照的査询索引建立方法的本文档来自技高网...

【技术保护点】
一种中文字体对照的查询索引建立方法,包括以下步骤:11)、从一原始数据中选取可供查询的第一字体的中文字;12)、纪录该第一字体的中文字及其在原始数据中的第一索引;13)、判断该第一字体的中文字是否有对应的任一第二字体,若是,则纪录对应于该第二字体的中文字及其在原始数据中的第二索引。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈淮琰王莉刘海斌
申请(专利权)人:无敌科技西安有限公司
类型:发明
国别省市:87[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1