The embodiment of the present invention discloses a data processing method, device and medium, which relates to the field of computer and information retrieval technology. The method includes: determining the attenuation ratio of the words according to the number of times each word in the lexicon is screened in the upper screen time period of the words in the lexicon, in which the upper screen time period is the time period between the last screen time of the words and the last screen time of the lexicon; The weight of each word in the thesaurus is updated by the declining proportion of words. The embodiment of the invention provides a data processing method, device and medium, realizes the management of the old words in the lexicon, and solves the problem that the old words interfere with the normal input of users.
【技术实现步骤摘要】
一种数据处理方法、装置、设备和介质
本专利技术实施例涉及计算机和信息检索
,尤其涉及一种数据处理方法、装置设备和介质。
技术介绍
随着数字时代的兴起,人们越来越习惯将资料、信息及文档电子化,日常交流也更倾向于通过电子邮件和即时通信软件进行。因此在电子时代,作为用户在电子设备上“书写”工具的输入法,也在人们的学习、工作及生活中占据着愈加重要的地位。为了提高用户的输入效率,当今主流的输入法都会以自学习的方式将用户曾经输入的词(通常称为自造词)记录下来,以便以后的使用。这项技术让用户在输入自造词时不用再逐字的去拼凑。并且将权重高的自造词以前置的方式放在候选词序列的前列,以方便用户选择,从而大大降低了用户的输入成本。其中自造词的权重由自造词的使用词频决定。然而,伴随用户对输入法使用时长的增长,越来越多的词开始被自造出来并且堆积在候选词的前列。一些老旧的自造词排在了用户真正期望输入的词的前面,从而干扰用户正常输入,降低用户输入效率。
技术实现思路
本专利技术实施例提供一种数据处理方法、装置设备和介质,以实现对词库中老旧的词语的管理,解决老旧词语干扰用户正常输入的问题。第一 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;根据所述词语的衰减比例对所述词库中各词语的权重进行更新。2.根据权利要求1所述的方法,其特征在于,根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例包括:根据词库中每个词语最近至少两次的上屏时间确定词语的最近上屏时间;根据上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近上屏时间与所述词库的最近一次的上屏时间之间的时间段。3.根据权利要求1所述的方法,其特征在于,根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例包括:根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,和词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度,确定所述词语的衰减比例。4.根据权利要求1所述的方法,其特征在于,在根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例之前,还包括:若词库中词语上屏的总次数大于设定上屏次数阈值,则获取词库中每个词语在所述词语的上屏时间段内的词库上屏次数。5.根据权利要求1所述的方法,其特征在于,在根据所述词语的衰减比例对所述词库中各词语的权重进行更新之后,还包括:若衰减后词语的权重小于设定清除权重阈值,则将所述词语从词库中删除。6.根据权利要求1-5中任一权利要求所述的方法,其特征在于,还包括:根据候选词序列中的候选词在所述候选词的上屏时间段内的词库上屏次数对所述候选词的权重进行衰减;根据衰减后的权重确定所述候选词在候选词序列中的排序。7.一种数据处理装置,其特征在于,包括:衰减比例确定模块,用于根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词...
【专利技术属性】
技术研发人员:孟可丰,贺亮,马鸣,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。