一种智能的拼音输入方法技术

技术编号:2871465 阅读:154 留言:0更新日期:2012-04-11 18:40
一种智能的拼音输入方法,其包含存储文字信息的数据库,以及对应的输入、查询数据方式,其特征在于将经常使用的专业词汇或者特殊用语作为固定词汇编码,并录入到数据库中;同时采用输入汉字拼音的声母(英文的辅音字母)作为检索途径。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及文字的输入方法,尤其是针对专业词汇数据库的汉字的拼音输入方法。
技术介绍
目前,现有的一些输入法有很多,从拼音这个角度来看有全拼,双拼和智能ABC拼音输入法等等。这些输入法实际上也是建立在字码匹配技术基础上的,而且它们使用的是都是静态的数据库(即之前已经构造了一个大型的词库供查询)。其应用主要是针对文案信息的录入,如打印文件、稿件等,所以针对日常使用的情况,平时经常使用的词汇可以预先存储在数据库中,其它的内容则需要全文录入才可能找到需要的文字,其优点是因为输入法的词库中涵盖了多个领域的一些专有名词,并且在输入的方式上多种多样,所以在通常应用的输入工作中带来了不少方便。并且在输入的过程中,它还运用某些技巧使输入进一步的简化和快捷。比如智能ABC输入法中采用了分割接近式的输入方式,可以将用户输入的一串字符串分开来识别以达到匹配多个词组的目的。并且还有自动记忆新词组的功能,在用户对一个新词组输入三次后就会将其记录到系统的数据库中,方便了用户的再次输入。还有就是词频的调整,也就是原来的优先级在经过用户一段时间的输入之后根据用户对某些词的使用频率进行调整,加快下次用户的输入和选择速度。其缺点是考虑了输入法应用的通用性,所以使用面很广,存储的词很多,需要比较大的存储空间和较多检索运算,如果应用在嵌入式的平台(如WINCE)中可能就会显得过于臃肿。因为这些大量的词汇可能对于我们的应用来说是没有用的,尤其是涉及到比较专业的应用情况(此时涉及的词汇专业化,而且量小,使用频率高),所以会造成存储空间的浪费,当然也会影响检索的速度了。在比较专业的输入查询系统中,对于输入查询的基本要求一是输入简单;二是查询速度快。这种情况下,需要查询的很多专有名词对于通用词汇来说可能根本就不能算是一个词组,所以用通用的系统输入法会造成诸多不方便,很多的名称输入都只能通过单字的方式来输入,这样的效率是很慢的。
技术实现思路
本专利技术的目的在于提供一种能够用于专业词汇数据库的汉字的拼音输入方法,该方法能够针对经常使用的专业词汇和特殊词汇通过简单的方式迅速输入、查询,并反馈回来。本专利技术的另一个目的是提供一种能够用于专业词汇数据库的汉字的拼音输入方法,该方法能够充分利用专业资料库的信息,使用时节省资料占用空间,冗余数据少。为此,本专利技术是这样实现的,其包含存储文字信息的数据库,以及对应的输入、查询数据方式,其特征在于将经常使用的专业词汇或者特殊用语作为固定词汇编码,并录入到数据库中;同时采用输入汉字拼音的声母(英文的辅音字母)作为检索途径。由于所存储信息的数据库对于常用的或者特殊的词汇是专门记录的,所以可以按照汉字的拼音声母(英文的辅音字母)的方式输入内容,减少了大量的韵母的输入,输入快捷,可以大大地提升输入速度,减少输入的时间,方便查询。进行输入时,只输入词汇的单个第一位的辅音字母,词汇或者词组构成这些单个辅音字母的组合,符合条件的词汇字码已经存储在数据库中,可以很快地被读取出来。专业词汇或者特殊用语作为固定词汇编码是利用现有的文字与字码的对应关系,将专业词汇或者特殊用语作为固定词汇根据上述的对应关系编制成新的字码,并预先存储到数据库中。以上所描绘的就是片语码。片语码即是词组码,是指通过拼音字码串与专用词组之间的匹配技术,通过片语码,我们把一些拼音的字码串查询到其在数据库中的中文词组,并反馈回来。具体的实现方式,举例说明如下假设用户输入sg,那传统的输入法可能的输出就是1、时光2、水果……\但是本专利技术可能就是用户希望的本地建筑物的名称1、赛格广场(sggc)2、赛格天桥(sgtq)……对此,我们说明一下本专利技术的原理。参见图1。如图所示,单字码的匹配技术使我们能够继承传统拼音输入法的单字输入方法,而且也继承了其它一些以传统全拼为基础的输入法的特性,比如象智能ABC输入法等。而我们独特的片语码匹配技术却是能够配合我们自身的各种系统进行运用,对我们需要输入的内容起到智能的目的。这种技术主要是加入了针对专门资料的考虑,将传统的输入方法和特殊的需要考虑在一起,起到了独特的智能效果。并且输入法的模块中有部分的接口是允许用户进行扩充的,也就是提供了二次开发的接口,方便用户加强功能和根据需要做适当的修改。需要注意的,输入法中输入的词组都是特定的,而不可能是任意的词组,因为这些词组最终都是从我们的数据库中来的。数据库的资料组织,主要是针对资料存储格式方面的技术,不但包括静态的资料(存储在永久介质中的),也包括动态的资料(内存中临时使用的)。为了提高速度,提高效率,我们组织资料必须符合高效和易用的原则。具体会使用建立良好的数据库索引、限定资料检索范围、建立中间缓冲区来优化资料的存储。索引的设置,主要是针对拼音字母的顺序对整体数据进行位置的索引。利用索引之后,可以加快查找处在位置编排比较靠后的资料,而不需要遍历大量的资料记录才能找到需要的资料。按照索引排列则可以通过简单的移动记录的指针就能够查询到临近的记录,便于翻页查询等操作。缓冲区其实是一块内存区域,但这块内存区域并不是一直被占用,当检索完毕时便可释放出来,当被检索的资料量很大时,并不需要在第一次时就检索出所有符合条件的记录,而是先取出其中的一部份将其放入缓冲区中,如果此时缓冲区中已存有使用者所要的资料,则将该资料递交给使用者,然后再将后续检索得到的记录放入缓冲区中,这样就能加快每次取出记录的速度,所有的检索操作都会针对这个缓冲区中已置入的记录进行查核,如果要检索的资料尚不存在缓冲区中时,就必须重新对数据库做一次完整的检索,并将检索得到的资料依序置入缓冲区。另外由于检索的信息内容为文本型资料,实际上的检索结果所占用的字节数并不是很多,所以缓冲区对内存的占用并不是很多。当缓冲区占用内存到一定程度时,为了防止它过度的膨胀,必须要处理缓冲区的刷新,回收没有使用内存或可能不会使用的内存。本专利技术的特点总体是一种分层结合的设计,资料和算法分离,他们之间通过特定的接口进行沟通。所述的接口,就是管理数据模块的接口,或者是借助于辅助表格之后达到共同的外部访问接口。接口的设计要根据实际情况的需要,考虑数据的总体结构和系统的各种需要后定出,并且要做到尽量简洁高效,避免冗余。本专利技术一般可应用与嵌入式平台操作系统,也可以应用于PC机等的使用情况,这取决于使用时的条件和环境。本专利技术所需要的资料库是由专门的需要而构成的信息组成的,并且数据存储的方式与通常的输入法中应用的数据并不相同,通常输入法的对照数据是建立在文件对照表的基础上的,而本专利技术的对照数据是建立在数据库和词组码匹配技术的基础之上的。比如在导航系统中,专门的资料就是一些路名、街道名,如“深南大道”、“滨海路”等,又如在图书查询系统中,专门资料就是一些书籍的名称,如“钢铁是怎样炼成的”、“鲁迅文集”等,再如一些超市的导购系统当中,专门资料就是一些商品的名称,虽然商品非常多,但是在里面我们不会发现有“深南大道”或是“滨海路”这样的数据,因此实际使用的过程中能够较快地找到我们所需的数据,比如“多功能健身器”、“MP3播放器”等。而通用的输入法就不能做到这样了,它里面的词组也是很丰富,但多是一些日常的使用语,所以在专用系统的使用上不如我们的输入法快捷方便。因此,本专利技术能够a本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:张炎竹黄志佳林家成蔡荣华孙贵明
申请(专利权)人:深圳麦士威科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1