候选文本排序方法、装置、设备及存储介质制造方法及图纸

技术编号:19820385 阅读:42 留言:0更新日期:2018-12-19 14:12
本发明专利技术实施例公开了一种候选文本排序方法、装置、设备及存储介质。所述方法包括:获取用户输入的拼音片段;对所述拼音片段进行处理,得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分;根据各所述候选文本与所述用户的历史输入文本之间的关联性,得到与各所述候选文本对应的第二评分;根据所述第一评分以及所述第二评分,确定各所述候选文本的排列顺序,并按照所述排列顺序,对各所述候选文本进行显示。通过本发明专利技术实施例的技术方案,能够提高输入法的个性化效果,提升用户体验。

【技术实现步骤摘要】
候选文本排序方法、装置、设备及存储介质
本专利技术实施例涉及输入法技术,尤其涉及一种候选文本排序方法、装置、设备及存储介质。
技术介绍
输入法指为了将各种符号输入计算机或其他设备(如手机)而采用的编码方法。汉字输入的编码方法,基本上都是采用将音、形、义与特定的键相联系,再根据不同汉字进行组合来完成汉字的输入的。拼音输入法是最常见和最常用的输入法,它按照拼音规定来输入汉字。由于汉语的一个拼音,可能会对应多个字或者多个词,例如拼音“dianya”对应了词语“电压”和“典雅”,而不同用户因为身份、职业、时间、语言习惯等原因,在使用过程中,会有不同的词语使用偏好。比如一个工程师可能更希望“电压”排在“典雅”前面,而一个艺术家更希望“典雅”排在前面。因此我们需要对输入法进行个性化。目前的输入法个性化的做法是,为每一个用户保留个性化词库。当用户在输入法键入某一个拼音,选择一个靠后的词时,会将这次记录存入用户的个性化词库中,当用户再次输入这一拼音时,会适当提高上回用户选择的词的权重,将其排在更合适的位置。该技术本身并没有学出用户的兴趣点,只是记录了用户使用过的词语。例如,用户在写一篇动物相关的文档本文档来自技高网...

【技术保护点】
1.一种候选文本排序方法,其特征在于,包括:获取用户输入的拼音片段;对所述拼音片段进行处理,得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分;根据各所述候选文本与所述用户的历史输入文本之间的关联性,得到与各所述候选文本对应的第二评分;根据所述第一评分以及所述第二评分,确定各所述候选文本的排列顺序,并按照所述排列顺序,对各所述候选文本进行显示。

【技术特征摘要】
1.一种候选文本排序方法,其特征在于,包括:获取用户输入的拼音片段;对所述拼音片段进行处理,得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分;根据各所述候选文本与所述用户的历史输入文本之间的关联性,得到与各所述候选文本对应的第二评分;根据所述第一评分以及所述第二评分,确定各所述候选文本的排列顺序,并按照所述排列顺序,对各所述候选文本进行显示。2.根据权利要求1所述的方法,其特征在于,对所述拼音片段进行处理,得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分,包括:按照拼音表对所述拼音片段进行切分处理,得到与所述拼音片段对应的至少一个切分结果;将所述至少一个切分结果输入至预先训练的音字转换模型中,得到至少两个候选文本以及与各所述候选文本对应的第一评分。3.根据权利要求2所述的方法,其特征在于,所述音字转换模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。4.根据权利要求1所述的方法,其特征在于,根据各所述候选文本与所述用户的历史输入文本之间的关联性,得到与各所述候选文本对应的第二评分,包括:按照输入时间对所述用户的历史输入文本进行抽样,得到参考历史文本集;分别计算各所述候选文本与所述参考历史文本集之间的相似度得分作为所述第二评分。5.根据权利要求4所述的方法,其特征在于,计算各所述候选文本与所述参考历史文本集之间的相似度得分,包括:在所述参考历史文本集中获取一个参考历史文本作为目标历史文本;将所述候选文本与所述目标历史文本共同输入至预先训练的语义相似度模型中,得到所述候选文本与所述目标历史文本的局部相似度;返回执行在所述参考历史文本集中获取一个参考历史文本作为目标历史文本,直至完成对所述参考历史文本集中全部参考历史文本的处理;将处理结束后,得到的各所述局部相似度进行加权求和,得到与所述候选文本对应的相似度得分。6.根据权利要求5所述的方法,其特征在于,在将所述候选文本与所述目标历史文本共同输入至预先训练的语义相似度模型中,得到所述候选文本与所述目标历史文本的局部相似度之前,还包括:获取至少两条用户的点击行为日志,所述点击行为日志包括:用户输入的搜索式,基于所述搜索式召回的URL集合,以及用户基于所述URL集合选择的目标URL;根据所述用户点击行为日志中,用户输入的搜索式以及与目标URL对应的文本信息,构造正例样本;根据所述用户点击行为日志中,用户输入的搜索式以及基于所述搜索式召回的URL集合中除去所述目标U...

【专利技术属性】
技术研发人员:王硕寰孙宇曾刚
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1