本发明专利技术公开了一种更新输入法词库的方法及系统,其中,所述方法包括:获取词条更新信息;根据所述词条更新信息对输入法词库中已有词条的属性进行更新;依据更新后的词条属性提供候选项。通过本发明专利技术,能够针对热词实现较短的词库更新周期,有利于提高输入法系统的性能。
【技术实现步骤摘要】
本专利技术涉及输入法
,特别是涉及一种更新输入法词库的方法及系统。
技术介绍
输入法系统作为人机对话的接口,提供了将各种文字输入计算机或其他设备(如手机)的编码方法。换言之,对于需要编码才能完成输入的文字,如果想要将某些文字内容输入到计算机中,则需要借助于输入法系统才能完成。因此,输入法系统在人机交互过程中其中举足轻重的作用。输入法系统通常都具有自己的词库,对于中文、日文等文字而言,输入法的词库中保存了常用词条以及对应的编码字符串(如拼音等),当用户通过键盘等输入设备输入了某编码字符串之后,输入法系统就可以通过查询词库,将该编码字符串对应的词条展现给用户。当然,由于同音字词的存在,同一编码字符串往往对应着多个词条,但各个词条的使用频率可能各有不同,因此,词库中通常还保存有各个词条对应的词频。这样,当用户输入一个编码字符串之后,如果发现对应着多个词条,输入法系统就可以依据词频由大到小的顺序,将各个词条展现给用户。对于输入法系统而言,词库的质量是衡量其性能的很重要的一个方面,一个高质量的词库能够提高首选词的命中率,进而提高字词输入的速度。目前的主流输入法则是通过统计搜索引擎中收录的页面中文字的出现概率来得到。具体实现时,首先由服务器端通过网络爬虫抓取页面,然后做分词处理,再将其中的有效部分制作成词库,只有当服务器端生成了新版本的词库,客户端的输入法词库才会得到更新。而这一周期会比较长,往往需要几个月的时间,在实际应用中,涉及更多流程步骤,迁延的时期更长。每次作词库更新时,都需要重复该过程,因此,词库的更新周期会比较长。现有技术中,针对新词,通常可以通过词库增量的方式,实现较短的更新周期。例如,有些输入法系统可以每天或者用户每次开机时,将新词添加到输入法词库中。但是,在实际应用中,还有些词条具有以下特征这些词条在系统词库中存在,但相对于同音下的其他词条而言,平均词频可能比较低,因此,当用户输入其编码字符串时,该词条在候选项中的排序可能比较靠后;但是,这些词条却可能存在阶段性的使用频率增高的现象(通常将这种词条称为热词),此时,如果仍然按照当前词库给出候选项,则会影响到输入速度。如果等待服务器端生成新的词库,则长的更新周期可能会导致该词条的热度可能已经过了,即使在新的词库中,该词条的词频等发生了变化,也已经失去意义了。
技术实现思路
本专利技术提供一种更新输入法词库的方法及系统,能够针对热词实现较短的词库更新周期,有利于提高输入法系统的性能。本专利技术提供了如下方案一种更新输入法词库的方法,包括获取词条更新信息;根据所述词条更新信息对输入法词库中已有词条的属性进行更新;依据更新后的词条属性提供候选项。优选地,所述词条更新信息包括至少一个已有词条的词频和/或多元关系的更新指示; 所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括对输入法词库中已有词条的词频和/或多元关系进行更新。其中,所述对已有词条的多元关系进行更新包括修改已有多元关系的强度、增加词条之间新的多元关系、或删除词条之间已有的多元关系。优选地,所述词条更新信息包括至少一个已有词条的热词标签更新指示;所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括为输入法词库中的已有词条或已有词条的多元关系添加热词标签;所述依据更新后的词条属性提供候选项包括在展现候选项时,将带有热词标签的词条或多元关系进行优先展现。其中,所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括为输入法词库中的已有词条或已有词条的多元关系删除热词标签。优选地,所述方法还包括获取所述词条更新信息的有效时间;当到达所述有效时间时,将所述输入法词库中已有词条的属性恢复到更新前的状态。优选地,所述获取词条更新信息包括从服务器接收所述词条更新信息。优选地,所述获取词条更新信息包括从预置的热词相关信息中,获取所述词条更新信息;所述热词相关信息包括已有词条的属性更新指示及触发条件;所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括在满足所述触发条件时,根据所述更新指示对已有词条的属性进行更新。一种更新输入法词库的系统,包括词条更新信息获取单元,用于获取词条更新信息;更新单元,用于根据所述词条更新信息对输入法词库中已有词条的属性进行更新;候选项提供单元,用于依据更新后的词条属性提供候选项。优选地,所述词条更新信息包括至少一个已有词条的词频和/或多元关系的更新指示;所述更新单元包括第一更新子单元,用于对输入法词库中已有词条的词频和/或多元关系进行更新。其中,所述第一更新子单元对已有词条的多元关系进行更新包括修改已有多元关系的强度、增加词条之间新的多元关系、或删除词条之间已有的多元关系。优选地,所述词条更新信息包括至少一个已有词条的热词标签更新指示;所述更新单元包括第二更新子单元,用于为输入法词库中的已有词条或已有词条的多元关系添加热词标签;所述候选项提供单元具体用于在展现候选项时,将带有热词标签的词条或多元关系进行优先展现。优选地,所述更新单元包括第三更新子单元,用于为输入法词库中的已有词条或已有词条的多元关系删除热词标签。优选地,所述系统还包括有效时间获取单元,用于获取所述词条更新信息的有效时间;属性恢复单元,用于当到达所述有效时间时,将所述输入法词库中已有词条的属·性恢复到更新前的状态。优选地,所述词条更新信息获取单元包括第一获取子单元,用于从服务器接收所述词条更新信息。优选地,所述词条更新信息获取单元包括第二获取子单元,用于从预置的热词相关信息中,获取所述词条更新信息;所述热词相关信息包括已有词条的属性更新指示及触发条件;所述更新单元具体用于在满足所述触发条件时,根据所述更新指示对已有词条的属性进行更新。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果本专利技术实施例中,可以将输入法词库中已有词条的属性进行与时事相关的更新,进而改变候选项的展现,这样,针对热词也能够实现较短的更新周期,从而提高输入法词库的质量,提高输入速度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I是本专利技术实施例提供的方法的流程图;图2是本专利技术实施例提供的系统的示意图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。首先,为了便于理解,首先对输入法词库进行简单的介绍。通常,输入法词库中保存有词条及其对应的词频,以及词条之间的多元关系。其中,对于输入法词库而言,传统概念中的字、词、词组、句子、段落,凡能够一次编码输入的都不加以区别,而作为同样的一个数据输入单元,统称为“词条”,也就是说,输入法词库中的“词条”可能是仅有一个字,也可能由多个字组成。如果用户输入了编码字符串之后,能够直接命中词库中的词条,则该词条就可以作为候选项展现给用户供用户选择。其中,一个编码字符串可能对应着多个词条,本文档来自技高网...
【技术保护点】
一种更新输入法词库的方法,其特征在于,包括:获取词条更新信息;根据所述词条更新信息对输入法词库中已有词条的属性进行更新;依据更新后的词条属性提供候选项。
【技术特征摘要】
【专利技术属性】
技术研发人员:查文,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。