一种智能组词方法和装置、一种用于智能组词的装置制造方法及图纸

技术编号:18049425 阅读:229 留言:0更新日期:2018-05-26 07:42
本发明专利技术实施例提供了一种智能组词方法和装置、一种用于智能组词的装置,其中的方法具体包括:获取用户的输入内容;获取所述输入内容对应的待组词汇、以及各待组词汇的词性;依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;依据所述路径得分,从所述组词路径中获取组词候选。本发明专利技术实施例能够提高组词候选的合理性和质量,这样,即使在智能组词失败的情形下,也能够提供较为合理的组词候选,进而提高用户的输入效率。

【技术实现步骤摘要】
一种智能组词方法和装置、一种用于智能组词的装置
本专利技术涉及计算机信息输入
,特别是涉及一种智能组词方法和装置、一种用于智能组词的装置。
技术介绍
目前,涉及交互的设备,通常需要用户通过输入法系统将自己的操作意图与设备交互识别。例如,用户可以输入输入串,然后由输入法系统依据其预置的标准映射规则将该输入串转换为相应语言的候选项并展示,进而将用户选择的候选项上屏。当词库中不存在输入串直接命中的词条时,输入法系统可以触发智能组词功能。现有的智能组词方案为:查找二元库中的二元关系,该依据该二元关系的命中情况计算每个组词方案中词汇串的路径概率,并将具有最大路径概率的组词方案作为首选项返回给用户。其中,该二元关系是指词汇与词汇之间的搭配关系,如“天气-好热”、“我-知道”、“喜欢-你”、“十万-八千”等可以具有二元关系。智能组词功能非常重要,智能组词结果的好坏将直接决定输入法系统的质量,也将直接影响到用户的体验。在实际应用中,对于包含数词、量词或者副词的智能组词,其往往需要非常多的二元关系。然而,一方面,受限于存储空间,存储的二元关系有限;另一方面,二元库中存储的二元关系往往是通过统计学习的方式得到,通常存储的二元关系很难保证能够覆盖所有的情况;这样,在智能组词过程中若无法命中二元库中的二元关系,将导致智能组词失败。例如,若二元库中未存储“九万-八千”和“八千-元”,则输入串“jiuwanliangqianyuan”对应的词汇“九万”和“八千”、以及“八千”和“元”将无法命中二元库中的二元关系,进而导致智能组词失败。在智能组词失败时,现有方案往往选取词频最高的词进行组合,以得到对应的组词候选,例如,上述输入串“jiuwanliangqianyuan”对应的组词候选为“就玩梁倩院”,但“就玩梁倩院”明显为一个质量较低、较为不合理的候选,符合用户的输入意图的概率较低。
技术实现思路
鉴于上述问题,本专利技术实施例提出了一种克服上述问题或者至少部分地解决上述问题的智能组词方法、智能组词装置及用于智能组词的装置,本专利技术实施例能够提高组词候选的合理性和质量,这样,即使在智能组词失败的情形下,也能够提供较为合理的组词候选,进而提高用户的输入效率。为了解决上述问题,本专利技术公开了一种智能组词方法,包括:获取用户的输入内容;获取所述输入内容对应的待组词汇、以及各待组词汇的词性;依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;依据所述路径得分,从所述组词路径中获取组词候选。可选地,所述确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤,包括:依据所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇的词性;在所述相邻词汇的词性搭配符合预置词性搭配规则时,将所述预置词性搭配规则对应的得分,作为所述相邻词汇之间的词性搭配得分。可选地,通过如下步骤获取所述预置词性搭配规则对应的得分:从预置语料中获取符合所述预置词性搭配规则的词性搭配内容;统计各词性搭配内容中相邻词汇之间的搭配概率;依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分。可选地,所述输入内容包括:输入串,则所述方法还包括:对所述输入串进行切分,以得到对应的切分结果;在词库中进行查找,以得到与所述切分结果相匹配的词汇,作为所述输入串对应的待组词汇。可选地,所述输入内容还包括:所述输入串对应的上下文,则所述输入内容对应的待组词汇包括:所述输入串对应的待组词汇和所述上下文。可选地,所述依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分的步骤,包括:依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分,得到所述组词路径的路径得分;或者依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。可选地,在所述依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤之前,所述方法还包括:依据所述待组词汇对应的组词路径中相邻词汇,在二元库中进行查找,以得到与所述相邻词汇相匹配的二元关系;在所述二元库的查找未命中时,执行所述依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤。可选地,所述依据所述路径得分,从所述组词路径中获取组词候选的步骤,包括:对所述路径得分进行排序;依据所述路径得分的排序结果,从所述组词路径中选取排在前N位的组词路径作为组词候选。可选地,所述预置词性搭配规则包括:数词与数词之间的搭配规则、数词与量词之间的搭配规则、副词与动词之间的搭配规则、副词与形容词之间的搭配规则、动词与名词之间的搭配规则、形容词与名词之间的搭配规则、以及量词与名词之间的搭配规则中的至少一种。另一方面,本专利技术公开了一种智能组词装置,包括:内容接收模块,用于获取用户的输入内容;词汇词性获取模块,用于获取所述输入内容对应的待组词汇、以及各待组词汇的词性;搭配得分确定模块,用于依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;路径得分确定模块,用于依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;以及组词候选获取模块,用于依据所述路径得分,从所述组词路径中获取组词候选。可选地,所述搭配得分确定模块包括:词性确定子模块,用于依据所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇的词性;以及得分确定子模块,用于在所述相邻词汇的词性搭配符合预置词性搭配规则时,将所述预置词性搭配规则对应的得分,作为所述相邻词汇之间的词性搭配得分。可选地,所述装置还包括:用于获取所述预置词性搭配规则对应的得分的得分获取模块;所述得分获取模块包括:词性搭配内容子模块,用于从预置语料中获取符合所述预置词性搭配规则的词性搭配内容;搭配概率统计子模块,用于统计各词性搭配内容中相邻词汇之间的搭配概率;以及得分确定子模块,用于依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分。可选地,所述输入内容包括:输入串,则所述装置还包括:切分模块,用于对所述输入串进行切分,以得到对应的切分结果;词库查找模块,用于在词库中进行查找,以得到与所述切分结果相匹配的词汇,作为所述输入串对应的待组词汇。可选地,所述输入内容还包括:所述输入串对应的上下文,则所述输入内容对应的待组词汇包括:所述输入串对应的待组词汇和所述上下文。可选地,所述路径得分确定模块包括:第一路径得分确定子模块,用于依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分,得到所述组词路径的路径得分;或者第二路径得分确定子模块,用于依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。可选地,所述装置还包括:二元库查找模块本文档来自技高网
...
一种智能组词方法和装置、一种用于智能组词的装置

【技术保护点】
一种智能组词方法,其特征在于,包括:获取用户的输入内容;获取所述输入内容对应的待组词汇、以及各待组词汇的词性;依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;依据所述路径得分,从所述组词路径中获取组词候选。

【技术特征摘要】
1.一种智能组词方法,其特征在于,包括:获取用户的输入内容;获取所述输入内容对应的待组词汇、以及各待组词汇的词性;依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;依据所述路径得分,从所述组词路径中获取组词候选。2.根据权利要求1所述的方法,其特征在于,所述确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤,包括:依据所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇的词性;在所述相邻词汇的词性搭配符合预置词性搭配规则时,将所述预置词性搭配规则对应的得分,作为所述相邻词汇之间的词性搭配得分。3.根据权利要求1或2所述的方法,其特征在于,通过如下步骤获取所述预置词性搭配规则对应的得分:从预置语料中获取符合所述预置词性搭配规则的词性搭配内容;统计各词性搭配内容中相邻词汇之间的搭配概率;依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分。4.根据权利要求1或2所述的方法,其特征在于,所述输入内容包括:输入串,则所述方法还包括:对所述输入串进行切分,以得到对应的切分结果;在词库中进行查找,以得到与所述切分结果相匹配的词汇,作为所述输入串对应的待组词汇。5.根据权利要求4所述的方法,其特征在于,所述输入内容还包括:所述输入串对应的上下文,则所述输入内容对应的待组词汇包括:所述输入串对应的待组词汇和所述上下文。6.根据权利要求1或2所述的方法,其特征在于,所述依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分的步骤,包括:依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分,得到所述组词路径的路径得分;或者依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。7.根据权利要求1或2所述的方法,其特征在于,在所述依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性...

【专利技术属性】
技术研发人员:费腾
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1