【技术实现步骤摘要】
处理文本的方法和装置
本说明书的实施例涉及信息
,并且更具体地,涉及处理文本的方法、装置、计算设备和机器可读存储介质。
技术介绍
随着通信和互联网等技术的快速发展,已经可以向用户终端传送各种各样的信息。例如,可以向用户终端传送用于描述对象的文本(比如文案),然后通过用户终端向用户呈现这样的文本,使得用户能够便捷地了解相应的对象。
技术实现思路
考虑到现有技术的上述问题,本说明书的实施例提供了处理文本的方法、装置、计算设备和机器可读存储介质。一方面,本说明书的实施例提供了一种处理文本的方法,包括:对当前文本进行分词处理,以获得m个词汇,m为正整数;基于预先确定的权重信息,确定所述m个词汇各自对应的权重,其中,所述权重信息用于指示n个词汇各自对应的权重,所述n个词汇是从h条历史文本中获得的,所述n个词汇各自对应的权重表示所述n个词汇各自与历史用户点击率之间的相关性,h和n为正整数;基于所述m个词汇各自对应的权重,确定所述m个词汇中的要进行标记的至少一个目标词汇;对所述至少一个目标词汇进行标记,生 ...
【技术保护点】
1.一种处理文本的方法,包括:/n对当前文本进行分词处理,以获得m个词汇,m为正整数;/n基于预先确定的权重信息,确定所述m个词汇各自对应的权重,其中,所述权重信息用于指示n个词汇各自对应的权重,所述n个词汇是从h条历史文本中获得的,所述n个词汇各自对应的权重表示所述n个词汇各自与历史用户点击率之间的相关性,h和n为正整数;/n基于所述m个词汇各自对应的权重,确定所述m个词汇中的要进行标记的至少一个目标词汇;/n对所述至少一个目标词汇进行标记,生成要呈现给用户的最终文本。/n
【技术特征摘要】
1.一种处理文本的方法,包括:
对当前文本进行分词处理,以获得m个词汇,m为正整数;
基于预先确定的权重信息,确定所述m个词汇各自对应的权重,其中,所述权重信息用于指示n个词汇各自对应的权重,所述n个词汇是从h条历史文本中获得的,所述n个词汇各自对应的权重表示所述n个词汇各自与历史用户点击率之间的相关性,h和n为正整数;
基于所述m个词汇各自对应的权重,确定所述m个词汇中的要进行标记的至少一个目标词汇;
对所述至少一个目标词汇进行标记,生成要呈现给用户的最终文本。
2.根据权利要求1所述的方法,还包括:
获取所述h条历史文本以及所述h条历史文本各自的历史用户点击率;
对所述h条历史文本进行分词处理,以得到所述n个词汇;
利用所述n个词汇和所述h条历史文本各自的历史用户点击率,对线性回归模型进行训练,以获得所述n个词汇各自对应的权重。
3.根据权利要求1或2所述的方法,其中,基于预先确定的权重信息,确定所述m个词汇分别对应的权重,包括:
针对所述m个词汇中的已知词汇,从所述权重信息中获得所述已知词汇对应的权重,其中,所述已知词汇是在所述权重信息中存在的词汇;
针对所述m个词汇中的未知词汇,将所述未知词汇对应的权重设置为预定权重,其中,所述未知词汇是在所述权重信息中不存在的词汇。
4.根据权利要求1至3中任一项所述的方法,其中,所述至少一个目标词汇对应的权重比所述m个词汇中的其它词汇对应的权重高。
5.根据权利要求1至4中任一项所述的方法,其中,如果所述至少一个目标词汇的数量大于1,则所述至少一个目标词汇在所述当前文本中是连续出现的。
6.一种处理文本的装置,包括:
分词单元,其对当前文本进行分词处理,以获得m个词汇,m为正整数;
确定单元,其执行以下操作:
基于预先确定的权重信息,确定所述m个词汇各自对应的权重,其中,所述...
【专利技术属性】
技术研发人员:江少华,钟文亮,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。