【技术实现步骤摘要】
候选字符串的处理方法、装置、电子设备及存储介质
本申请涉及计算机技术,尤其涉及人工智能,具体涉及一种候选字符串的处理方法、装置、电子设备及存储介质。
技术介绍
移动设备(例如智能手机,平板电脑)在日常生活中扮演着非常重要的角色,越来越多的互联网活动通过移动设备进行。并且在众多的互联网活动中,最为主要的沟通方式便是通过移动设备的输入法进行文字输入。由于移动设备体积的限制,使得移动设备显示屏幕较小,位于屏幕软键盘上的字符区域也较小,因此用户在输入过程中非常容易触到字符区域之外,产生输入错误,用户不得不进行删除以及重新输入。例如,为了提高输入效率,现有的输入法可以根据用户的输入信息,获取与输入信息的拼写相似或者意思相似的词语,作为候选字符串,向用户推荐。但是,按照上述方式获取的候选字符串很难预测到用户的真正意图,预测的候选字符串的准确性较差。
技术实现思路
为了解决上述技术问题,本申请提供了一种用于候选字符串的处理方法、装置、电子设备及存储介质。根据第一方面,提供了一种输入法中的候选字符串的处理方法,其包括:采集用户输入的坐标序列;基于所述坐标序列以及预先训练的候选字符串预测模型,预测至少一个候选字符串。根据第二方面,提供了一种候选字符串预测模型的训练方法,所述方法包括:采集数条训练数据;各条所述训练数据中包括训练字符串及用户想要输入所述训练字符串时输入的训练坐标序列;采用各条所述训练数据,对所述候选字符串预测模型进行训练。根据第三 ...
【技术保护点】
1.一种输入法中的候选字符串的处理方法,其特征在于,包括:/n采集用户输入的坐标序列;/n基于所述坐标序列以及预先训练的候选字符串预测模型,预测至少一个候选字符串。/n
【技术特征摘要】
1.一种输入法中的候选字符串的处理方法,其特征在于,包括:
采集用户输入的坐标序列;
基于所述坐标序列以及预先训练的候选字符串预测模型,预测至少一个候选字符串。
2.根据权利要求1所述的方法,其特征在于,基于所述坐标序列以及预先训练的候选字符串预测模型,预测至少一个候选字符串,包括:
采用所述候选字符串预测模型中的编码器,基于所述坐标序列进行编码处理,获取到所述坐标序列的特征表达;
采用所述候选字符串预测模型中的解码器,基于所述坐标序列的特征表达进行解码,获取所述至少一个候选字符串。
3.根据权利要求2所述的方法,其特征在于,采用所述候选字符串预测模型中的编码器,基于所述坐标序列进行编码处理,获取到所述坐标序列的特征表达,包括:
采用所述编码器,对所述坐标序列中的各坐标进行映射表达,得到各所述坐标的特征表达;
采用所述编码器,基于各所述坐标的特征表达进行编码处理,获取到所述坐标序列的特征表达。
4.根据权利要求3所述的方法,其特征在于,采用所述编码器,对所述坐标序列中的各坐标进行映射表达,得到各所述坐标的特征表达之前,所述方法还包括:
对所述坐标序列中各坐标进行归一化处理,得到归一化后的所述坐标序列。
5.根据权利要求2所述的方法,其特征在于,采用所述候选字符串预测模型中的解码器,基于所述坐标序列的特征表达进行解码,获取所述至少一个候选字符串,包括:
采用所述解码器,以所述坐标序列的特征表达作为初始的隐含层状态进行解码,获取候选字符集合中各字符成为解码字符的解码概率;
从所述候选字符集合中搜索解码概率最大的N个字符;
对所述N个字符中各所述字符进行特征映射,得到相应的特征表达;
对于所述N个字符中各所述字符,采用所述字符的特征表达,更新隐含层状态;并基于更新后的所述隐含层状态,继续解码,再次获取所述候选字符集合中各所述字符成为解码字符的解码概率,并获取解码概率最大的N个字符,以此类推,直至解码到结束符或者解码得到的字符串长度达预设阈值,解码结束,获取得到所述至少一个候选字符串。
6.根据权利要求1-5任一所述的方法,其特征在于,所述方法还包括:
基于所述坐标序列以及所述候选字符串预测模型,预测各所述候选字符串的概率;
按照概率由大到小的顺序,向所述用户推荐所述至少一个候选字符串。
7.一种候选字符串预测模型的训练方法,其特征在于,所述方法包括:
采集数条训练数据;各条所述训练数据中包括训练字符串及用户想要输入所述训练字符串时输入的训练坐标序列;
采用各条所述训练数据,对所述候选字符串预测模型进行训练。
8.根据权利要求7所述的方法,其特征在于,采用各条所述训练数据,对所述候选字符串预测模型进行训练,包括:
对于各条所述训练数据,基于所述训练数据中的所述训练坐标序列以及所述候选字符串预测模型,生成预测字符串的各预测字符的预测概率分布;
检测所述预测字符串的各预测字符的预测概率分布与所述训练字符串对应字符的已知概率分布是否一致;
若不一致,调整所述候选字符串预测模型的参数,使得各所述预测字符的预测概率分布趋于所述已知概率分布。
9.根据权利要求8所述的方法,其特征在于,对于各条所述训练数据,基于所述训练数据中的所述训练坐标序列以及所述候选字符串预测模型,生成预测字符串的各预测字符的预测概率分布,包括:
对于各条所述训练数据,采用所述候选字符串预测模型中的编码器,基于所述训练坐标序列进行编码处理,获取到所述训练坐标序列的特征表达;
采用所述候选字符串预测模型中的解码器,基于所述训练坐标序列的特征表达进行解码,获取所述预测字符串的各预测字符的预测概率分布。
10.根据权利要求9所述的方法,其特征在于,采用所述候选字符串预测模型中的解码器,基于所述训练坐标序列的特征表达进行解码,获取所述预测字符串的各预测字符的预测概率分布,包括:
若解码所述预测字符串中第一个字符时,采用所述解码器,以所述训练坐标序列的特征表达作为初始的隐含层状态进行解码,获取候选字符集合中各字符成为解码字符的解码概率;并基于所述候选字符集合中各字符的解码概率,生成所述预测字符串中第一个字符的预测概率分布;
若解码所述预测字符串中第一个字符之外的其他字符时,采用所述编码器,对所述解码得到前一个字符进行特征映射,得到相应的特征表达;采用所述解码器基于所述前一个字符的特征表达,更新隐含层状态;并基于更新后的所述隐含层状态,继续解码,获取所述预测字符串中的所述其他字符的预测概率分布。
11.一种输入法中的候选字符串处理装置,其特征在于...
【专利技术属性】
技术研发人员:王鑫,李旭,孙明明,李平,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。