【技术实现步骤摘要】
组词方法和装置、用于组词的装置
本专利技术涉及计算机信息输入
,特别是涉及一种组词方法和装置、以及一种用于组词的装置。
技术介绍
目前,涉及交互的设备,通常需要用户通过输入法程序将自己的操作意图与设备交互识别。例如,用户可以输入输入串,然后由输入法程序依据其预置的标准映射规则将该输入串转换为相应语言的候选项并展示,进而将用户选择的候选项上屏。当词库中不存在输入串直接命中的词条时,输入法程序可以触发组词功能。现有的组词过程具体为:查找多元库中的多元关系,该依据该多元关系的命中情况计算每个组词方案中词汇串的路径概率,并将具有最大路径概率的组词方案作为首选项返回给用户。其中,该多元关系是指词汇与词汇之间的搭配关系,如“天气-好热”、“我-知道”、“喜欢-你”、“十万-八千”等可以具有二元关系。组词功能非常重要,组词结果的好坏可以影响输入法程序的质量,也将影响到用户的体验。在实际应用中,由于数字和单位对应的组合为无限集,故对于包含数字和单位的组词,往往需要非常多的多元关系。然而,一方面,受限于存储空间,存储的多元关系有限;另一方面,多元库中存储的多元关系往往是通过统 ...
【技术保护点】
1.一种组词方法,其特征在于,包括:接收用户的输入串;若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。
【技术特征摘要】
1.一种组词方法,其特征在于,包括:接收用户的输入串;若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。2.根据权利要求1所述的方法,其特征在于,通过如下步骤判断所述输入串在预置数据集的命中情况是否符合预置条件:对所述输入串进行切分,得到对应的切分结果;判断所述输入串对应的切分结果是否命中所述预置数据集。3.根据权利要求2所述的方法,其特征在于,所述根据所述输入串获取符合组合规则的组词路径,包括:依据所述切分结果,在编码单元集与字集之间的映射关系中进行查找,以得到与所述切分结果相匹配的单字,作为所述输入串对应的待组单字;依据所述输入串对应的待组单字,确定组词路径;获取符合组合规则的组词路径。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:依据所述输入串对应的上下文,确定所述切分结果对应的单字。5.根据权利要求1所述的方法,其特征在于,所述字集包括:数字单字集和单位字集,所述组合规则用于表征数字单字和/或单位字对应的组合规则。6.根据权利要求1至5中任一所述的方法,其特征在于,所述组合规则包括:所述组词路径在所述首个第一数字单位字之前、相邻的第一数字单位字之间、或者尾个第一数字单位字之后包括的第二数字单位组的数量不超过1;和/或第一数字单位字不位于所述组词路径的首位;和/或若第一数字单位字与第二数字单位字相邻,或者,两个第一数字单位字相邻,则在前的数字单位小于在后的数字单位;和/或所述组词路径的第二数字单位组包括的第二数字单位字呈现从大数字单位到小数字单位的顺序;和/或所述组词路径的第二数字单位组包括的任意两个第二数字单位字不相邻;和/或当所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零;和/或当所述组词路径在相邻的第一数字单位字之间不存在第二数字单位组和数字时,在后的第一数字单位字省略;和/或所述组词路径包括的零位于非末尾位置;和/或所述组词路径包括的零对应的前一个单字不为数字单字,或者,所述待组单字对应的组词路径包括的零对应的后一个单字为数字单字或者货币单位字;和/或所述组词路径的首位为拾或者十,第二位不为拾、十、百、佰、仟、千、整或者零;和/或所述组词路径的货币单位组在所述组词路径中的出现次数不超过1;和/或数字单位字位于所述组词路径中货币单位组的前面;和/或所述组词路径的货币单位组包括的货币单位字呈现从大到小的顺序;和/或所述组词路径的货币单位组包括的货币单位字不相邻;和/或所述组词路径的货币单位组包括第一货币单位字,所述第一货币单位字的前一个单字为数...
【专利技术属性】
技术研发人员:左艳波,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。