一种基于数字标记的汉字输出方法和系统技术方案

技术编号:19057286 阅读:34 留言:0更新日期:2018-09-29 12:15
本发明专利技术公开了一种基于数字标记的汉字输出方法和系统,该步骤:赋予拼音字母一个数字标记;建立包括若干级节点的树结构;识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;根据数字串遍历树结构以输出对应的汉字。系统包括:标记模块,用于赋予拼音字母一个数字标记;存储模块,用于建立包括若干级节点的树结构;识别模块,用于识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;处理模块,用于根据数字串遍历树结构以输出对应的汉字。本发明专利技术通过转换拼音字母为数字,能够提高计算机语言的处理速度,通过多级节点的树结构进行汉字的存储,能够提高查找汉字的效率,降低查找时间。

【技术实现步骤摘要】
一种基于数字标记的汉字输出方法和系统
本专利技术涉及汉字检索
,尤其涉及一种基于数字标记的汉字输出方法和系统。
技术介绍
现有汉字检索一般是通过汉字拼音、或拼音首字母或汉字本身开始位置检索,检索效率依赖与数据库索引;但索引机制无法支持任意位置检索,首字母也无法任意拼音补全检索。随着智能设备的普及与智能设备操作系统的发展,汉字检索的使用场景越来越多,对于检索的精度和效率的要求也越来越高;根据使用体验研究,当检索时长超过100毫秒时用户会感觉到明显的延迟,当检索结果数量过多选择结果时存在一定难度,一般会再次输入关键字进行再次筛选。传统的检索方法存在以下不足:检索结果过多,不准确;检索方式只支持从左至右的汉字拼音码或拼音首字母;检索匹配速度慢,体验差。
技术实现思路
为了解决上述问题,本专利技术提供一种基于数字标记的汉字输出方法和系统。本专利技术采用的技术方案一方面为一种基于数字标记的汉字输出方法,包括步骤:赋予拼音字母一个数字标记;建立包括若干级节点的树结构;识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;根据数字串遍历树结构以输出对应的汉字。优选地,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。优选地,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。本专利技术采用的技术方案一方面为一种基于数字标记的汉字输出系统,包括:标记模块,用于赋予拼音字母一个数字标记;存储模块,用于建立包括若干级节点的树结构;识别模块,用于识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;处理模块,用于根据数字串遍历树结构以输出对应的汉字。优选地,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。优选地,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。本专利技术的有益效果为转换拼音字母为数字,能够提高计算机语言的处理速度,通过多级节点的树结构进行汉字的存储,能够提高查找汉字的效率,降低查找时间。附图说明图1所示为基于本专利技术实施例的一种基于数字标记的汉字输出方法的示意图;图2所示为基于本专利技术实施例的检索流程示意图。具体实施方式以下结合实施例对本专利技术进行说明。基于专利技术的实施例,如图1所示一种基于数字标记的汉字输出方法,包括步骤:赋予拼音字母一个数字标记;建立包括若干级节点的树结构;识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;根据数字串遍历树结构以输出对应的汉字。所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。作为实施例的进一步改进,针对拼音字母进行对应的数字标记,例如以九宫格输入法的拼音字母对应的数字按键(即数字标记),输入王上易,则根据用户的习惯,可能出现的检索组合包括:拼音键数字键拼音键数字键wangsy926479syi794wangshangy9264742649sy79wshangyi97426494wangs92647wsyi9794ws97wsy979shangyi7426494在上述的情况下,实际的输入的字符串(即拼音键)有10种可能性,其对应的数字串(即数字键)也有10种,则设置最大级数为11级(wangshangyi的对应数位)的树结构,数位逐级对应每一级的树结构的节点,根据字符串对应的数字串遍历树结构,可知第一级(即节点级数的第一级)对应的拼音为w(对应的节点索引信息为9),显然以w开头的汉字会非常的多,则从第二级继续往下遍历,根据上述的表格可知,第二级(即节点级数的第二级)可能是a也可能是s,此时,从第二级a(对应的节点)、s(对应的节点)所存储的可能的(储存于关键字列表)汉字全部输出,当可供输出的汉字非常少的时候则认为是符合需要的汉字,否则继续逐级遍历以获取最终的结构,要点在于随着树结构的逐步查找,可供选择的符合拼音规则的汉字的数量会发生变化,当符合的汉字的数量少于一阈值时,则认为找到最合适的汉字。如图2所示的检索流程示意图,遍历检测开始位置为0~N的树节点:判断检索到的内容(即数字串)是否匹配存在当前节点的Key(即汉字);搜索内容剩余部分是否包含在下级Key列表中(即检测是否存在下一级树节点,例如第五数位为9(对应的字母为w),但是从语法上不存在第五数位为w的拼音,则认为可能是输入错误或者存在未收录的新汉字);判断是否匹配完所有搜索内容,是则记录匹配到的数据(即汉字),判断数据是否达到限定结果数(即阈值),是就结束检索流程。基于专利技术的实施例,一种基于数字标记的汉字输出系统,包括:标记模块,用于赋予拼音字母一个数字标记;存储模块,用于建立包括若干级节点的树结构;识别模块,用于识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;处理模块,用于根据数字串遍历树结构以输出对应的汉字。所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。以上所述,只是本专利技术的较佳实施例而已,本专利技术并不局限于上述实施方式,只要其以相同的手段达到本专利技术的技术效果,都应属于本专利技术的保护范围。在本专利技术的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。本文档来自技高网...

【技术保护点】
1.一种基于数字标记的汉字输出方法,其特征在于,包括步骤:赋予拼音字母一个数字标记;建立包括若干级节点的树结构;识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;根据数字串遍历树结构以输出对应的汉字。

【技术特征摘要】
1.一种基于数字标记的汉字输出方法,其特征在于,包括步骤:赋予拼音字母一个数字标记;建立包括若干级节点的树结构;识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;根据数字串遍历树结构以输出对应的汉字。2.根据权利要求1所述的基于数字标记的汉字输出方法,其特征在于,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。3.根据权利要求2所述的基于数字标记的汉字输出方法,其特征在于,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。4.一种基于数字标记的汉字输出...

【专利技术属性】
技术研发人员:雷少杰
申请(专利权)人:卓望数码技术深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1