用于生成输入法词库中的词条组合的方法和装置制造方法及图纸

技术编号:15690394 阅读:67 留言:0更新日期:2017-06-24 02:45
本申请公开了用于生成输入法词库中的词条组合的方法和装置。该方法的一具体实施方式包括:对预设语料进行切词,得到预设语料中的词条集合;将预设语料中的词条集合中每组相邻出现的上文词条与下文词条提取为词条组合,形成词条组合集合;基于词条组合在预设语料中的互信息量和/或词条组合对应的拼音被用户使用输入法应用输入的输入次数,从词条组合集合中筛选出词条组合子集;使用词条组合子集生成输入法词库中的至少一个词条组合。该实施方式生成了输入法词库中的高质量词条组合。

Method and apparatus for generating entry combinations in an input method lexicon

Methods and apparatus for generating combinations of entries in an input method lexicon are disclosed. One embodiment of the method includes: segmentation of presupposition presupposition in the corpus corpus, get entry set; the default entries in each corpus set appear above and below the adjacent entry entry for extraction of word combination, the formation of word combination set; a combination of words in the default data in the mutual information and / or the entry corresponding to the combination of Pinyin input by users based on the number of input method, from the collection of word combination selected subset of word combination; using word combination subset generation enter at least one entry in the lexicon combination method. The embodiment generates a high-quality lexical combination in the input method thesaurus.

【技术实现步骤摘要】
用于生成输入法词库中的词条组合的方法和装置
本申请涉及计算机
,具体涉及输入法
,尤其涉及用于生成输入法词库中的词条组合的方法和装置。
技术介绍
输入法是一种能够实现文字输入的软件。在用户使用输入法输入整句或者根据用户已上屏的上文词条主动提供下文的候选词条时,可以使用到由相邻的上文词条和下文词条组成的二元词条组合。高质量的词条组合,有利于输入法提供整句输入或基于上文词条提供下文的候选词条时提高出词的质量,有助于用户花费更少的时间选择需要上屏的词条。现有技术中生成二元词条组合的方案,或者生成的词条组合过多,或者词条组合的质量较差,词条组合的质量较差容易造成出词时的效果较差,词条组合过多造成终端所需要安装的词库占用较大的存储空间,因此需要进一度精选出高质量的词条组合作为输入法词库中的词条组合。
技术实现思路
本申请的目的在于提出一种改进的用于生成输入法词库中的词条组合的方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请实施例提供了一种用于生成输入法词库中的词条组合的方法,该方法包括:对预设语料进行切词,得到预设语料中的词条集合;将预设语料中的词条集合中每组相邻出现的上文词条与下文词条提取为词条组合,形成词条组合集合;基于词条组合在预设语料中的互信息量和/或词条组合对应的拼音被用户使用输入法应用输入的输入次数,从词条组合集合中筛选出词条组合子集;使用词条组合子集生成输入法词库中的至少一个词条组合。在一些实施例中,上述方法还包括:基于词条组合、词条组合的上文词条以及词条组合的下文词条在所述预设语料中的出现输入次数以及所述预设语料的总频次,生成所述词条集合中每个词条组合的互信息量。在一些实施例中,在所述对预设语料进行切词,得到词条集合之后,上述方法还包括:从所述词条集合去除未出现在预设词典中的词条。在一些实施例中,在所述将所述预设语料中的词条集合中每组相邻出现的上文词条与下文词条提取为词条组合,形成词条组合集合之后,上述方法还包括:从所述词条组合集合中去除未出现在预设词典中的词条组合。在一些实施例中,上述基于词条组合在所述预设语料中的互信息量从所述词条组合集合中筛选出词条组合子集,包括以下任一项:从所述词条组合中筛选出互信息量大于预设阈值的词条组合;从所述词条组合中筛选出互信息量最大的预设数目个词条组合。在一些实施例中,上述基于词条组合在所述预设语料中的互信息量和词条组合对应的拼音被用户使用输入法应用输入的输入次数,从所述词条组合集合中筛选出词条组合子集,包括:基于所述词条组合的互信息量从所述词条组合集合中筛选出词条组合第一子集;基于词条组合对应的拼音被用户使用输入法应用输入的输入次数从所述词条组合集合中筛选出词条组合第二子集;合并所述词条组合第一子集以及所述词条组合第二子集并去重,得到所述词条组合子集。在一些实施例中,上述使用所述词条组合子集生成输入法词库中的至少一个词条组合,包括:将所述词条组合子集中分成至少一个词条组合分组,其中每个词条组合分组是由上文词条相同且下文词条匹配的拼音相同的至少一个词条组合组成;基于词条组合中上文词条在所述预设语料中转移到下文词条的转移概率,对所述至少一个词条组合分组中的各个词条组合分组进行过滤;将过滤后的所述至少一个词条组合分组中的词条组合添加至所述输入法词库中。在一些实施例中,上述使用所述词条组合子集生成输入法词库中的至少一个词条组合,还包括:基于词条组合在所述预设语料中的出现输入次数与词条组合的上文词条在所述预设语料中的出现输入次数的比值,生成词条组合中上文词条在所述预设语料中转移到下文词条的转移概率。在一些实施例中,上述基于词条组合中上文词条在所述预设语料中转移到下文词条的转移概率,对所述至少一个词条组合分组中的各个词条组合分组进行过滤,包括以下任一项:保留词条组合分组中转移概率最大的预设数目个词条组合;保留词条组合分组中转移概率大于概率阈值的词条组合。第二方面,本申请实施例提供了一种用于生成输入法词库中的词条组合的装置,装置包括:切词单元,用于对预设语料进行切词,得到所述预设语料中的词条集合;提取单元,用于将所述预设语料中的词条集合中每组相邻出现的上文词条与下文词条提取为词条组合,形成词条组合集合;筛选单元,用于基于词条组合在所述预设语料中的互信息量和/或词条组合对应的拼音被用户使用输入法应用输入的输入次数,从所述词条组合集合中筛选出词条组合子集;生成单元,用于使用所述词条组合子集生成输入法词库中的至少一个词条组合。在一些实施例中,上述装置还包括:互信息量生成单元,用于基于词条组合、词条组合的上文词条以及词条组合的下文词条在所述预设语料中的出现输入次数以及所述预设语料的总频次,生成所述词条集合中每个词条组合的互信息量。在一些实施例中,所述装置还包括:词条去除单元,用于在所述对预设语料进行切词,得到词条集合之后,从所述词条集合去除未出现在预设词典中的词条。在一些实施例中,上述装置还包括:词条组合去除单元,用于在所述将所述预设语料中的词条集合中每组相邻出现的上文词条与下文词条提取为词条组合,形成词条组合集合之后,从所述词条组合集合中去除未出现在预设词典中的词条组合。在一些实施例中,筛选单元用于执行以下任一项:从所述词条组合中筛选出互信息量大于预设阈值的词条组合;从所述词条组合中筛选出互信息量最大的预设数目个词条组合。在一些实施例中,所述筛选单元,包括:第一筛选子单元,用于基于词条组合的互信息量从词条组合集合中筛选出词条组合第一子集;第二筛选子单元,用于基于词条组合对应的拼音被用户使用输入法应用输入的输入次数从词条组合集合中筛选出词条组合第二子集;合并去重子单元,用于合并词条组合第一子集以及词条组合第二子集并去重,得到词条组合子集。在一些实施例中,生成单元包括:分组子单元,用于将词条组合子集分成至少一个词条组合分组,其中每个词条组合分组是由上文词条相同且下文词条匹配的拼音相同的至少一个词条组合组成;过滤子单元,用于基于词条组合中上文词条在预设语料中转移到下文词条的转移概率,对至少一个词条组合分组中的各个词条组合分组进行过滤;添加子单元,用于将过滤后的至少一个词条组合分组中的词条组合添加至输入法词库中。在一些实施例中,生成单元,还包括:转移概率生成单元,用于基于词条组合在预设语料中的出现输入次数与词条组合的上文词条在预设语料中的出现输入次数的比值,生成词条组合中上文词条在预设语料中转移到下文词条的转移概率。在一些实施例中,过滤子单元用于执行以下任一项:保留词条组合分组中转移概率最大的预设数目个词条组合;保留词条组合分组中转移概率大于概率阈值的词条组合。第三方面,本申请实施例提供一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一项所描述的方法。第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面中任一项所描述的方法。本申请提供的用于生成输入法词库中的词条组合的方法和装置,通过切词得到词条并提取出词条组合后,利用词条组合在预设语料中的互信息量和/或词条组合对应的拼音被用户使用输入法本文档来自技高网...
用于生成输入法词库中的词条组合的方法和装置

【技术保护点】
一种用于生成输入法词库中的词条组合的方法,其特征在于,所述方法包括:对预设语料进行切词,得到所述预设语料中的词条集合;将所述预设语料中的词条集合中每组相邻出现的上文词条与下文词条提取为词条组合,形成词条组合集合;基于词条组合在所述预设语料中的互信息量和/或词条组合对应的拼音被用户使用输入法应用输入的输入次数,从所述词条组合集合中筛选出词条组合子集;使用所述词条组合子集生成输入法词库中的至少一个词条组合。

【技术特征摘要】
1.一种用于生成输入法词库中的词条组合的方法,其特征在于,所述方法包括:对预设语料进行切词,得到所述预设语料中的词条集合;将所述预设语料中的词条集合中每组相邻出现的上文词条与下文词条提取为词条组合,形成词条组合集合;基于词条组合在所述预设语料中的互信息量和/或词条组合对应的拼音被用户使用输入法应用输入的输入次数,从所述词条组合集合中筛选出词条组合子集;使用所述词条组合子集生成输入法词库中的至少一个词条组合。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于词条组合、词条组合的上文词条以及词条组合的下文词条在所述预设语料中的出现输入次数以及所述预设语料的总频次,生成所述词条集合中每个词条组合的互信息量。3.根据权利要求1所述的方法,其特征在于,在所述对预设语料进行切词,得到词条集合之后,所述方法还包括:从所述词条集合去除未出现在预设词典中的词条。4.根据权利要求1所述的方法,其特征在于,在所述将所述预设语料中的词条集合中每组相邻出现的上文词条与下文词条提取为词条组合,形成词条组合集合之后,所述方法还包括:从所述词条组合集合中去除未出现在预设词典中的词条组合。5.根据权利要求1所述的方法,其特征在于,所述基于词条组合在所述预设语料中的互信息量从所述词条组合集合中筛选出词条组合子集,包括以下任一项:从所述词条组合中筛选出互信息量大于预设阈值的词条组合;从所述词条组合中筛选出互信息量最大的预设数目个词条组合。6.根据权利要求5所述的方法,其特征在于,所述基于词条组合在所述预设语料中的互信息量和词条组合对应的拼音被用户使用输入法应用输入的输入次数,从所述词条组合集合中筛选出词条组合子集,包括:基于所述词条组合的互信息量从所述词条组合集合中筛选出词条组合第一子集;基于词条组合对应的拼音被用户使用输入法应用输入的输入次数从所述词条组合集合中筛选出词条组合第二子集;合并所述词条组合第一子集以及所述词条组合第二子集并去重,得到所述词条组合子集。7.根据权利要求1-6之一所述的方法,其特征在于,所述使用所述词条组合子集生成输入法词库中的至少一个词条组合,包括:将所述词条组合子集中分成至少一个词条组合分组,其中每个词条组合分组是由上文词条相同且下文词条匹配的拼音相同的至少一个词条组合组成;基于词条组合中上文词条在所述预设语料中转移到下文词条的转移概率,对所述至少一个词条组合分组中的各个词条组合分组进行过滤;将过滤后的所述至少一个词条组合分组中的词条组合添加至所述输入法词库中。8.根据权利要求7所述的方法,其特征在于,所述使用所述词条组合子集生成输入法词库中的至少一个词条组合,还包括:基于词条组合在所述预设语料中的出现输入次数与词条组合的上文词条在所述预设语料中的出现输入次数的比值,生成词条组合中上文词条在所述预设语料中转移到下文词条的转移概率。9.根据权利要求7所述的方法,其特征在于,所述基于词条组合中上文词条在所述预设语料中转移到下文词条的转移概率,对所述至少一个词条组合分组中的各个词条组合分组进行过滤,包括以下任一项:保留词条组合分组中转移概率最大的预设数目个词条组合;保留词条组合分组中转移概率大于概率阈值的词条组合。10.一种用于生成输入法词库中的词条组合的装置,其特征在于,所述方法包括:切词单元,用于对预设语料...

【专利技术属性】
技术研发人员:陈丽敏李阳陈万顺陈珠
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1