本说明书的实施例提供了处理文本的方法、装置、计算设备和机器可读存储介质。该方法包括:对的当前文本进行分词处理,以获得m个词汇;基于预先确定的权重信息,确定m个词汇各自对应的权重,其中,权重信息用于指示n个词汇各自对应的权重,n个词汇是从h条历史文本中获得的,n个词汇各自对应的权重表示n个词汇各自与历史用户点击率之间的相关性;基于m个词汇各自对应的权重,确定m个词汇中的要进行标记的至少一个目标词汇;对至少一个目标词汇进行标记,生成要呈现给用户的最终文本。
Methods and devices for text processing
【技术实现步骤摘要】
处理文本的方法和装置
本说明书的实施例涉及信息
,并且更具体地,涉及处理文本的方法、装置、计算设备和机器可读存储介质。
技术介绍
随着通信和互联网等技术的快速发展,已经可以向用户终端传送各种各样的信息。例如,可以向用户终端传送用于描述对象的文本(比如文案),然后通过用户终端向用户呈现这样的文本,使得用户能够便捷地了解相应的对象。
技术实现思路
考虑到现有技术的上述问题,本说明书的实施例提供了处理文本的方法、装置、计算设备和机器可读存储介质。一方面,本说明书的实施例提供了一种处理文本的方法,包括:对当前文本进行分词处理,以获得m个词汇,m为正整数;基于预先确定的权重信息,确定所述m个词汇各自对应的权重,其中,所述权重信息用于指示n个词汇各自对应的权重,所述n个词汇是从h条历史文本中获得的,所述n个词汇各自对应的权重表示所述n个词汇各自与历史用户点击率之间的相关性,h和n为正整数;基于所述m个词汇各自对应的权重,确定所述m个词汇中的要进行标记的至少一个目标词汇;对所述至少一个目标词汇进行标记,生成要呈现给用户的最终文本。另一方面,本说明书的实施例提供了一种用于处理信息的装置,包括:分词单元,其对当前文本进行分词处理,以获得m个词汇,m为正整数;确定单元,其执行以下操作:基于预先确定的权重信息,确定所述m个词汇各自对应的权重,其中,所述权重信息用于指示n个词汇各自对应的权重,所述n个词汇是从h条历史文本中获得的,所述n个词汇各自对应的权重表示所述n个词汇各自与历史用户点击率之间的相关性,h和n为正整数;基于所述m个词汇各自对应的权重,确定所述m个词汇中的要进行标记的至少一个目标词汇;标记单元,其对所述至少一个目标词汇进行标记,生成要呈现给用户的最终文本。另一方面,本说明书的实施例提供了一种计算设备,包括:至少一个处理器;与所述至少一个处理器进行通信的存储器,其上存储有可执行指令,所述可执行指令在被所述至少一个处理器执行时使得所述至少一个处理器实现上述方法。另一方面,本说明书的实施例提供了一种机器可读存储介质,其存储有可执行指令,所述可执行指令在被执行时使得机器执行上述方法。附图说明通过结合附图对本说明书的实施例的更详细的描述,本说明书的实施例的上述以及其它目的、特征和优势将变得更加明显,其中,在本说明书的实施例中,相同的附图标记通常代表相同的元素。图1是根据一个实施例的处理文本的方法的示意性流程图。图2是根据一个实施例的处理文本的过程的示意性流程图。图3是根据一个实施例的处理文本的装置的示意性框图。图4是根据一个实施例的处理文本的计算设备的硬件结构图。具体实施方式现在将参考各实施例讨论本文描述的主题。应当理解的是,讨论这些实施例仅是为了使得本领域技术人员能够更好地理解并且实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者例子的限制。可以在不脱离权利要求书的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个实施例可以根据需要,省略、替换或者添加各种过程或组件。如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其它实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其它的定义,无论是明确的还是隐含的,除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。目前,可以向用户终端传送各种各样的文本。例如,文本可以用于描述对象,通过用户终端向用户呈现这样的文本,使得用户能够快速且方便地了解相应的对象。例如,这种文本的一个例子是文案。文案通常可以用于描述对象,比如描述对象的属性、优缺点、使用场景等等。在一些情况下,可能期望对文本中的一个或多个词汇进行标记,比如将其显示为特殊颜色、加粗、将其高亮显示、将其字号增大等等,使得用户能够快速掌握文本的关键点,从而增强用户体验。那么,如何高效地对文本进行这样的处理,成为需要解决的问题之一。鉴于此,本说明书的实施例提供了一种处理文本的技术方案。下面将结合具体实施例进行描述。图1是根据一个实施例的处理文本的方法的示意性流程图。如图1所示,在步骤102中,可以对当前文本进行分词处理,以获得m个词汇。m可以为正整数。在步骤104中,可以基于预先确定的权重信息,确定m个词汇各自对应的权重。权重信息可以用于指示n个词汇各自对应的权重。n个词汇可以是从h条历史文本中获得的。n个词汇各自对应的权重可以表示n个词汇各自与历史用户点击率之间的相关性。h和n可以为正整数。在步骤106中,可以基于m个词汇各自对应的权重,确定m个词汇中的要进行标记的至少一个目标词汇。在步骤108中,可以对至少一个目标词汇进行标记,以生成要呈现给用户的最终文本。容易明白的是,如果通过人工来标记文本中的词汇,可能耗费时间长,效率低下,而且可能在确定要标记的词汇时较为主观,而非用户实际感兴趣的关键点,容易导致用户体验差以及文本的点击率低,影响文本的呈现效果。然而,在该实施例中,基于用于表示词汇与历史用户点击率之间的相关性的权重,来确定当前文本中要进行标记的目标词汇,进而通过对目标词汇进行标记来得到最终文本。可见,该实施例能够高效且准确地确定在文本中用户可能感兴趣的关键点,从而提升用户体验,进而有利于提高用户对文本的点击率,由此提升文本的呈现效果。点击率通常可以表示点击信息的用户数量与该信息被呈现给(也可以被称为“曝光”)的用户数量之间的比。在一个实施例中,可以首先确定权重信息。具体地,可以获取历史数据,比如先前曝光的h条历史文本以及这h条历史文本各自的历史用户点击率。此处,h的取值可以基于实际需求、计算资源等等各种因素来确定,本文中不作限定。可以对h条历史文本进行分词处理,从而得到n个词汇。可以理解的是,可以采用任何适用的算法来对文本进行分词处理,本文对此不作限定。可以利用所得到的n个词汇以及h条历史文本各自的历史用户点击率,来对线性回归(LinearRegression,LR)模型进行训练,从而得到n个词汇各自对应的权重。可以理解的是,此处对LR模型进行训练,所得到的模型参数即为n个词汇各自对应的权重。每个词汇的权重可以表示该词汇与历史用户点击率之间的相关性。例如,权重越高,可以表示词汇的历史用户点击率越高,这也可以说明该词汇可能是用户较为感兴趣的。而权重越低,可以表示词汇的历史用户点击率越低,这可以说明该词汇可能是用户不太感兴趣的。在该实施例中,利用历史文本以及其相应的用户点击率来训练LR模型,实质上是学习历史文本中的词汇与用户点击率之间的相关性。这样,能够为后续确定要标记的词汇提供有效的依据。此外,随着历史数据的不断累积,可以不断地对LR模型进行优化,从而优化n个词汇各本文档来自技高网...
【技术保护点】
1.一种处理文本的方法,包括:/n对当前文本进行分词处理,以获得m个词汇,m为正整数;/n基于预先确定的权重信息,确定所述m个词汇各自对应的权重,其中,所述权重信息用于指示n个词汇各自对应的权重,所述n个词汇是从h条历史文本中获得的,所述n个词汇各自对应的权重表示所述n个词汇各自与历史用户点击率之间的相关性,h和n为正整数;/n基于所述m个词汇各自对应的权重,确定所述m个词汇中的要进行标记的至少一个目标词汇;/n对所述至少一个目标词汇进行标记,生成要呈现给用户的最终文本。/n
【技术特征摘要】
1.一种处理文本的方法,包括:
对当前文本进行分词处理,以获得m个词汇,m为正整数;
基于预先确定的权重信息,确定所述m个词汇各自对应的权重,其中,所述权重信息用于指示n个词汇各自对应的权重,所述n个词汇是从h条历史文本中获得的,所述n个词汇各自对应的权重表示所述n个词汇各自与历史用户点击率之间的相关性,h和n为正整数;
基于所述m个词汇各自对应的权重,确定所述m个词汇中的要进行标记的至少一个目标词汇;
对所述至少一个目标词汇进行标记,生成要呈现给用户的最终文本。
2.根据权利要求1所述的方法,还包括:
获取所述h条历史文本以及所述h条历史文本各自的历史用户点击率;
对所述h条历史文本进行分词处理,以得到所述n个词汇;
利用所述n个词汇和所述h条历史文本各自的历史用户点击率,对线性回归模型进行训练,以获得所述n个词汇各自对应的权重。
3.根据权利要求1或2所述的方法,其中,基于预先确定的权重信息,确定所述m个词汇分别对应的权重,包括:
针对所述m个词汇中的已知词汇,从所述权重信息中获得所述已知词汇对应的权重,其中,所述已知词汇是在所述权重信息中存在的词汇;
针对所述m个词汇中的未知词汇,将所述未知词汇对应的权重设置为预定权重,其中,所述未知词汇是在所述权重信息中不存在的词汇。
4.根据权利要求1至3中任一项所述的方法,其中,所述至少一个目标词汇对应的权重比所述m个词汇中的其它词汇对应的权重高。
5.根据权利要求1至4中任一项所述的方法,其中,如果所述至少一个目标词汇的数量大于1,则所述至少一个目标词汇在所述当前文本中是连续出现的。
6.一种处理文本的装置,包括:
分词单元,其对当前文本进行分词处理,以获得m个词汇,m为正整数;
确定单元,其执行以下操作:
基于预先确定的权重信息,确定所述m个词汇各自对应的权重,其中,所述...
【专利技术属性】
技术研发人员:江少华,钟文亮,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。