一种信息处理方法及装置制造方法及图纸

技术编号:10106543 阅读:142 留言:0更新日期:2014-06-01 21:01
本发明专利技术实施例公开了一种信息处理方法及装置,用于据用户输入的汉语拼音在大容量词库中快速查询到该拼音对应的词语。本发明专利技术实施例方法包括:根据拼音音节及拼音ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量,接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列,在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语,输出查找到的词语。

【技术实现步骤摘要】
【专利摘要】本专利技术实施例公开了一种信息处理方法及装置,用于据用户输入的汉语拼音在大容量词库中快速查询到该拼音对应的词语。本专利技术实施例方法包括:根据拼音音节及拼音ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量,接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列,在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语,输出查找到的词语。【专利说明】一种信息处理方法及装置
本专利技术涉及通信
,尤其涉及一种信息处理方法及装置。
技术介绍
随着计算机硬件性能的不断提升和软件智能性的不断提高,人们越来越期望计算机能够提供更加自然的人机交互方式,例如:(1)提供更加智能的汉语输入法;(2)提供更加精确的语音识别功能。而这些交互方式的实现,底层都需要有大而全的拼音词库的支持,所以,大规模拼音词库的查询效率直接影响着上述人机交互软件的执行速度,从而也就决定了它们的优劣。以拼音输入法为例,毫无疑问,准确和快速是它的生命线,为了提高准确率,目前的输入法系统都采用了超大规模的词库,用户进行输入时,程序需要根据输入的拼音进行大频繁的词库查询,从而提供准确的候选词语。现有技术中,现有的拼音词库系统大都使用基于拼音和词长分组的存储查询方法,即对词库按照词长和词语的前N个拼音进行了索引,对于给定的一个拼音串,先获取其前N个音节及词长,到词库中对应词长的拼音分组表,找到该音节对应的分组,遍历该分组中的所有词语,返回拼音与要查找的拼音串相匹配的词语。但在上述现有技术中,词库查询效率低,需要遍历同一分组中的所有词语,且词库扩容性能较差,当词库不断增大时,查询耗时将成倍增加,导致软件无法正常工作。
技术实现思路
本专利技术实施例提供了一种信息处理方法及装置,用以实现在拼音词库中,根据用户输入的拼音字符快速查找对应的词语。本专利技术实施例提供的信息处理方法,包括:根据拼音音节及拼音身份标识号码ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量;接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列;在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语;输出查找到的词语。优选地,所述根据拼音音节及拼音ID的对应关系生成双数组字典树之前包括:设置拼音ID与拼音音节的对应关系。进一步地,所述在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语包括:从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语;若所述拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首个比特位为1,则输出当前查找到的词语。进一步地,所述从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语之后包括:若所述拼音ID对应的不是结束符,则判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等;若是,则按照所述需要查找的拼音ID串中的下一个拼音ID和当前基值数组的值之和继续查找下一个节点。进一步地,所述接收需要查询的拼音ID串之前包括:将所述用户输入的拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串。本专利技术实施例提供的信息处理装置,包括:生成单元,根据拼音音节及拼音身份标识号码ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量;接收单元,用于接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列;查找单元,用于在拼音词库中根据所述双数组字典树查找所述接收单元接收的所述拼音ID串对应的词语;输出单元,用于输出所述查找单元查找到的词语。优选地,所述装置还包括:设置单元,用于设置拼音ID与拼音音节的对应关系。进一步地,所述查找单元,还用于从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语;所述输出单元,还用于若所述拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首个比特位为1,则输出当前查找到的词语。进一步地,所述装置还包括:判断单元,用于若所述拼音ID对应的不是结束符,则判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等;所述查找单元,还用于若是,则按照所述需要查找的拼音ID串中的下一个拼音ID和当前基值数组的值之和继续查找下一个节点。进一步地,所述装置还包括:转换单元,用于将所述用户输入的拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串。从以上技术方案可以看出,本专利技术实施例具有以下优点:由于根据拼音音节及拼音ID生成双数组字典树,在查找用户需要查找的拼音字符时,可以根据拼音音节在双数组字典树中的一个分支上进行查找,而不需要遍历拼音分组中的所有词语,查询工作量小,查询速度更快。【专利附图】【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为汉字的词组字典树示意图;图2为本专利技术实施例中的信息处理方法的一个实施例示意图;图3为本专利技术实施例中的信息处理方法的另一个实施例示意图;图4为本专利技术实施例中生成双数组字典树结构的一个实例示意图;图5为本专利技术实施例中的信息处理方法中查询词语流程图;图6为本专利技术实施例中的信息处理方法的一个实例示意图;图7为本专利技术实施例中的信息处理装置的一个实施例示意图;图8为本专利技术实施例中的信息处理装置的另一个实施例示意图。【具体实施方式】下面结合附图和具体实施例进一步说明本专利技术实施例的技术方案,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种信息处理方法及装置,用于根据用户输入的汉语拼音在大容量词库中快速查询到该拼音对应的词或词组。Trie树是搜索树的一种,可以建立有效的数据检索组织结构,实现词库中的查找词语的算法。它本质上是一个确定的有限状态自动机(DFA, Deterministic FiniteAutomaton),每个节点代表自动机的一个状态。在词典中这种状态包括“词前缀”,“已成词”坐寸ο双数组字典树(Double Array Trie)是trie树的一个简单而有效的实现,由两个整数数组构成,设数组下标为i,i为大于等于I的整数,则双数组的一个数组是基值数组base,另一个数组是校验数组check ,其各分支就是从某个状态遇到特定字符后到达另一个状态的一个状态转换。如,对于状态s遇到字符c到达状态t的一个状态转换,在双数组中有:check +c] =Sbase +c=t本本文档来自技高网
...
一种信息处理方法及装置

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:李鑫李东华刘廷超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1