一种中文词库更新系统及方法技术方案

技术编号:2918632 阅读:226 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种中文词库更新系统,所述中文词库与中文输入模块连接并包括有位于终端设备的核心词典和用户词典,还包括位于所述终端设备并通过网络连接到服务器的同步模块,所述服务器用于保存与用户词典对应的词典数据,所述同步模块使所述用户词典与服务器中的词典数据同步。本发明专利技术还提供一种对应的中文词库更新方法。本发明专利技术通过在服务器共享用户词典,实现了不同终端用户词典的同步;从而方便了中文词组或短语的输入,并提高了中文输入效率。

【技术实现步骤摘要】

本专利技术涉及计算机
,更具体地说,涉及。
技术介绍
在通过计算机等输入设备进行中文输入时,通常要使用到中文输入系统。中文输入系统为运行于操作系统上的一个工具软件,其用于把键盘输入的编码或其他非键盘输入的媒体数据转换成汉字输入。目前,中文输入系统可分为键盘输入和非键盘输入,而使用最广的就是基于键盘的中文输入软件。键盘中文输入系统为利用键盘并根据一定的编码规则来输入汉字的软件。由于键盘上的按键个数有限,而汉字的字数有几万个,因此必须对汉字进行编码,并将这些编码与键盘上的键联系起来,从而可通过键盘输入某个汉字的编码,然后根据编码转换成汉字。目前,汉字的输入通常采用将汉字的音、形或义与特定的键相联系,再进行组合来完成汉字的输入。而非键盘中文输入系统则包括手写输入系统、语音输入系统、OCR输入系统等。现在中文输入系统还具有学习功能,可以学习用户输入的词或短语,即在第一次输入某一词或短语后,第二次输入相同的词或短语时,只需输入第一个字即可自动显示后续的字,或者通过简写的代码即可显示该词或短语,从而方便了输入。如图1所示,一般中文输入系统包括有用户接口(User Interface)模块11、备选词查询模块12、核心词典13、用户词典14以及自学习模块15。其中用户接口11模块完成中文输入系统与用户的交互,获取用户输入的拼音或其他编码;备选词查询模块12根据查询算法检索核心词典13和用户词典14,获取最可能的一序列备选字、词或短语;核心词典13是由系统提供的词库,在输入系统安装完成后该词典不会改变;用户词典14是用户自己定义的字、词或短语,或者在使用过程中系统自学习用户输入生成的词、短语组成的词库,随用户使用过程不断增加;自学习模块15用于学习用户输入的词或短语,并把核心词典和用户词典没有的词、短语加入到用户词典。然而,上述中文输入系统的用户词典都存储在本地存储装置,如果在某台输入设备使用中文输入系统生成的词并加入到用户词典,然后在另一输入设备使用相同的中文输入系统输入相同的词时,必须重新定义这个词,并加入到当前输入设备的中文输入系统的用户词典。即用户需在其使用的所有输入设备中分别定义相同的用户词,生成用户词典,极为不便。另外当用户重新安装中文输入系统时,用户词典往往会丢失,导致用户以前自定义的或曾经自学习得到的词或短语丢失,需要重新定义这些词或短语。
技术实现思路
本专利技术要解决的技术问题在于,针对上述在不同终端进行中文词组或短语输入时无法共享用户词典的问题,提供。本专利技术解决上述技术问题的技术方案是,提供一种中文词库更新系统,所述中文词库与中文输入模块连接并包括有位于终端设备的核心词典和用户词典,还包括位于所述终端设备并通过网络连接到服务器的同步模块,所述服务器用于保存与用户词典对应的词典数据,所述同步模块使所述用户词典与服务器中的词典数据同步。在本专利技术所述的一种中文词库更新系统中,所述服务器包括有存储词典数据的用户数据库以及建立和维护所述用户数据库中词典数据的网络词典模块,所述网络词典模块分别与同步模块和用户数据库连接。在本专利技术所述的一种中文词库更新系统中,所述网络词典模块根据用户帐号对用户数据库中的多个不同用户的词典数据进行维护。在本专利技术所述的一种中文词库更新系统中,所述同步模块通过定时器定时执行用户词典与用户数据库中的词典数据的同步操作,或者在启动或关闭中文输入模块时执行同步操作。在本专利技术所述的一种中文词库更新系统中,所述同步模块在进行用户词典与词典数据同步时,若用户词典的更新时间早于服务器中词典数据的更新时间,则根据所述词典数据更新用户词典;若词典数据的更新时间早于用户词典的更新时间,则根据所述用户词典更新服务器中的词典数据。在本专利技术所述的一种中文词库更新系统中,所述同步模块使用更新序列号参数实现最新数据判断,网络词典模块在客户端请求更新一次词典数据的同时使词典数据的更新序列号加1,并在更新时通过更新序列号的值来选择数据进行更新。本专利技术还提供一种中文词库更新方法,所述中文词库与中文输入模块连接并包括有位于终端设备的核心词典和用户词典,包括以下步骤(a)所述用户词典根据中文输入模块的输入存储中文词组或短语;(b)使所述用户词典与位于远端服务器中用户数据库的词典数据同步。在本专利技术所述的一种中文词库更新方法中,进一步包括以下步骤(b1)比较所述用户词典与用户数据库中词典数据的更新时间;(b2)若用户词典的更新时间早于用户数据库中的词典数据的更新时间,则根据所述词典数据更新用户词典;若词典数据的更新时间早于用户词典的更新时间,则根据所述用户词典更新用户数据库中的词典数据。在本专利技术所述的一种中文词库更新方法中,所述步骤(b1)中进一步包括(b11)终端发送用户词典备份请求消息服务器,所述用户词典备份请求消息包括用户帐号、用户密码及词典备份数据;(b12)服务器收到所述用户词典备份请求消息后,验证用户帐号和密码,并在验证通过后备份用户词典到用户数据库中。或者所述步骤(b1)中进一步包括(b1’)终端发送用户词典更新请求消息服务器,所述用户词典更新请求消息包括用户帐号、用户密码、更新序列号;(b2’)服务器收到所述用户词典更新请求消息后,验证用户帐号和密码,并在验证通过后根据更新序列号计算上次更新请求到现在新增加的词典数据,读取新增加的用户词典; (b3’)网络词典模块返回新增加的词典数据给终端;(b4’)终端把新增加的词典数据加入到本地的用户词典。本专利技术的,通过在服务器共享用户词典,实现了不同终端用户词典的同步。从而方便了中文词组或短语的输入,并提高了中文输入效率。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中图1是现有中文输入系统的结构示意图;图2是本专利技术一种中文词库更新系统的结构示意图;图3是本专利技术一种中文词库更新方法的流程图;图4是图3中同步操作的第一实施例的流程图;图5是图3中同步操作的第二实施例的流程图。具体实施例方式如图2所示,在本专利技术的一种中文词库更新系统中,包括有位于终端21的用户词典213和同步模块211,以及位于服务器22的网络词典模块222和用户数据库221,其中用户词典213连接到中文输入模块214,与核心词典212共同为中文输入模块214提供字、词或短语,同步模块211通过网络23连接到网络词典模块222。网络23可以是连接终端21与服务器23的任意网络,例如互联网、无线网、局域网等。中文输入模块214用于实现中文字或词的输入,其可以是键盘输入模块、手写输入模块、语音输入模块或OCR输入模块等。在进行中文词组或短语输入时,中文输入模块214结合核心词典212以及用户词典213中的词组或短语进行中文的输入。其中核心词典212是由中文输入模块214的开发商根据词典或语料库生成的核心词库,在安装后该词典中的数据不会改变。而用户词典213中的数据为用户自己定义的字、词或短语,以及中文输入模块214在使用过程中学习输入生成的字、词、短语组成的词库,该用户词典213中的数据随用户使用过程不断增加。同步模块211用于将终端21上的用户词典213备份到服务器22。在进行备份的时候,可按照输入的操作指令进行备份,也可以定期备份(例如每天、每周等),也可以在启动或关闭中文输入模块2本文档来自技高网
...

【技术保护点】
一种中文词库更新系统,所述中文词库与中文输入模块连接并包括有位于终端设备的核心词典和用户词典,其特征在于,还包括位于所述终端设备并通过网络连接到服务器的同步模块,所述服务器用于保存与用户词典对应的词典数据,所述同步模块使所述用户词典与服务器中的词典数据同步。

【技术特征摘要】

【专利技术属性】
技术研发人员:余祥鑫张会鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1