一种用户标签的预测方法及系统技术方案

技术编号:29758821 阅读:27 留言:0更新日期:2021-08-20 21:12
本发明专利技术提供一种用户标签的预测方法及系统,所述的用户标签的预测方法包括:获取用户文本集和预设的关键词库;通过关键词获取一用户文本中的各个近似词,按照关联度的大小,获取排名前m的近似词所对应的关键词,并确定所述对应的关键词匹配的n维向量,通过m个所述n维向量确定特征矩阵;将特征矩阵输入神经网络进行训练,获取预测模型;通过预测模型预测待处理的用户文本,获取预测的用户标签。通过设置关键词库,获取一用户文本中与关键词相匹配的近似词,确定与近似词相匹配的关键词以及确定关键词匹配的n维向量,并通过m个所述n维向量确定特征矩阵,提高了处理用户文本获取用户标签的速度和精度。

【技术实现步骤摘要】
一种用户标签的预测方法及系统
本专利技术涉及自然语言处理
,特别是涉及一种用户标签的预测方法及系统。
技术介绍
用户标签是构成用户画像的核心因素,是将用户在平台内所产生的行为数据,分析提炼后生成具有差异性特征的形容词。即用户通过平台,在什么时间什么场景下做了什么行为,平台将用户所有行为数据提炼出来形成支撑业务实现的可视化信息或者可视化标签。随着用户行为的特异化和个性化,每个用户的用户标签也相应地存在差异,而基于用户文本的标签预测受限制于文本语义的深层次和多模态等问题,往往精确性较低。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种用户标签的预测方法及系统,用于解决现有技术中的问题。为实现上述目的及其他相关目的,本专利技术提供一种用户标签的预测方法,包括:获取用户文本集和预设的关键词库,所述用户文本集中包括多个用户文本,所述关键词库包括多个关键词;通过关键词获取一用户文本中的各个近似词,按照关联度的大小,获取排名前m的近似词所对应的关键词,并确定所述对应的关键词匹配的n维向量,通过m个所述n维向量确定特征矩阵,其中,m和n均为正整数;将多个用户文本分别对应的特征矩阵输入神经网络进行训练,获取预测模型;通过预测模型预测待处理的用户文本,获取预测的用户标签。可选的,包括:定义L为关联度,关键词的n维向量为(X1、……、Xi、……、Xn),近似词的n维向量为(Y1、……、Yi、……、Yn);当(X1、……、Xi、……、Xn)和(Y1、……、Yi、……、Yn)不相等时,关联度的数学表达为:当(X1、……、Xi、……、Xn)=(Y1、……、Yi、……、Yn)时,关联度为1。可选的,将获取的用户标签与m个n维向量相匹配,获取关联度小于1的各个近似词,并确定为近似词集;获取一用户标签的各个近似词集,并从各个所述近似词集中确定交集;将所述交集对应的近似词更新为所述关键词库中的关键词。可选的,包括:通过更新后的关键词库中的关键词,确定用户文本中更新后的各个近似词汇;按照关联度的大小,获取排名前m的近似词所对应的更新后的关键词,并确定所述更新后的关键词匹配的n维向量,通过m个所述n维向量确定更新后的特征矩阵;将多个用户文本分别对应的更新后的特征矩阵输入神经网络进行训练,获取更新后的预测模型;通过所述更新后的预测模型预测待处理的用户文本,获取更新后的用户标签。一种用户标签的预测系统,包括:预处理模块,用于获取用户文本集和预设的关键词库,所述用户文本集中包括多个用户文本,所述关键词库包括多个关键词,通过关键词获取一用户文本中的各个近似词,按照关联度的大小获取排名前m的近似词所对应的关键词,并确定所述对应的关键词匹配的n维向量,通过m个所述n维向量确定特征矩阵,其中,m和n均为正整数;模型模块,用于将多个用户文本分别对应的特征矩阵输入神经网络进行训练,获取预测模型;处理模块,用于通过预测模型处理待处理的用户文本,获取预测的用户标签;所述预处理模块、所述模型模块以及所述处理模块之间信号连接。可选的,定义L为关联度,关键词的n维向量为(X1、……、Xi、……、Xn),近似词的n维向量为(Y1、……、Yi、……、Yn);当(X1、……、Xi、……、Xn)和(Y1、……、Yi、……、Yn)不相等时,关联度的数学表达为:当(X1、……、Xi、……、Xn)=(Y1、……、Yi、……、Yn)时,关联度为1。可选的,预处理模块将获取的用户标签与m个n维向量相匹配,获取关联度小于1的各个近似词,并确定为近似词集;获取一用户标签的各个近似词集,并从各个所述近似词集中确定交集;将所述交集对应的近似词更新为所述关键词库中的关键词。可选的,模型模块通过更新后的关键词库中的关键词,确定用户文本中更新后的各个近似词汇;按照关联度的大小,获取排名前m的近似词所对应的更新后的关键词,并确定所述更新后的关键词匹配的n维向量,通过m个所述n维向量确定更新后的特征矩阵;将多个用户文本分别对应的更新后的特征矩阵输入神经网络进行训练,获取更新后的预测模型;处理模块通过所述更新后的预测模型预测待处理的用户文本,获取更新后的用户标签。一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述电子设备执行所述的方法。一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行所述的方法。如上所述,本专利技术的用户标签的预测方法及系统,具有以下有益效果:本方案通过设置关键词库,获取一用户文本中与该关键词库中的关键词相匹配的近似词,确定与近似词相匹配的关键词以及确定一关键词匹配的n维向量,并通过m个所述n维向量确定特征矩阵,避免直接处理用户文本中的近似词出现的高离散性和多模态的问题,提高了处理用户文本获取用户标签的速度和精度。附图说明图1显示为本专利技术实施例的用户标签的预测方法的流程示意图。图2显示为本专利技术另一实施例的用户标签的预测方法的流程示意图。图3显示为本专利技术实施例的用户标签的预测系统的结构示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需要说明的是,本实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本专利技术可实施的范围,其相对关系的改变或调整,在无实质变更
技术实现思路
下,当亦视为本专利技术可实施的范畴。目前,存在一些通过关键词来获取用户文本中出现的相应的关键词,并进行自然语言处理,获取用户文本的语义以及用户标签,受限制于用户的表述能力和词汇表达能力,自然语言处理的精度往往与关键词的精确性以及库容量相关,在实际操作过程中,往往会出现用户文本中没有相应的关键词的情况,为理解用户文本的语义以及获取用户标签造成了很大的障碍,请参阅图1,本专利技术提供一种用户标本文档来自技高网
...

【技术保护点】
1.一种用户标签的预测方法,其特征在于,包括:/n获取用户文本集和预设的关键词库,所述用户文本集中包括多个用户文本,所述关键词库包括多个关键词;/n通过关键词获取一用户文本中的各个近似词,按照关联度的大小,获取排名前m的近似词所对应的关键词,并确定所述对应的关键词匹配的n维向量,通过m个所述n维向量确定特征矩阵,其中,m和n均为正整数;/n将多个用户文本分别对应的特征矩阵输入神经网络进行训练,获取预测模型;/n通过预测模型预测待处理的用户文本,获取预测的用户标签。/n

【技术特征摘要】
1.一种用户标签的预测方法,其特征在于,包括:
获取用户文本集和预设的关键词库,所述用户文本集中包括多个用户文本,所述关键词库包括多个关键词;
通过关键词获取一用户文本中的各个近似词,按照关联度的大小,获取排名前m的近似词所对应的关键词,并确定所述对应的关键词匹配的n维向量,通过m个所述n维向量确定特征矩阵,其中,m和n均为正整数;
将多个用户文本分别对应的特征矩阵输入神经网络进行训练,获取预测模型;
通过预测模型预测待处理的用户文本,获取预测的用户标签。


2.根据权利要求1所述的用户标签的预测方法,其特征在于,包括:
定义L为关联度,关键词的n维向量为(X1、……、Xi、……、Xn),近似词的n维向量为(Y1、……、Yi、……、Yn);
当(X1、……、Xi、……、Xn)和(Y1、……、Yi、……、Yn)不相等时,关联度的数学表达为:



当(X1、……、Xi、……、Xn)=(Y1、……、Yi、……、Yn)时,关联度为1。


3.根据权利要求2所述的用户标签的预测方法,其特征在于,将获取的用户标签与m个n维向量相匹配,获取关联度小于1的各个近似词,并确定为近似词集;
获取一用户标签的各个近似词集,并从各个所述近似词集中确定交集;
将所述交集对应的近似词更新为所述关键词库中的关键词。


4.根据权利要求3所述的用户标签的预测方法,其特征在于,包括:
通过更新后的关键词库中的关键词,确定用户文本中更新后的各个近似词汇;
按照关联度的大小,获取排名前m的近似词所对应的更新后的关键词,并确定所述更新后的关键词匹配的n维向量,通过m个所述n维向量确定更新后的特征矩阵;
将多个用户文本分别对应的更新后的特征矩阵输入神经网络进行训练,获取更新后的预测模型;
通过所述更新后的预测模型预测待处理的用户文本,获取更新后的用户标签。


5.一种用户标签的预测系统,其特征在于,包括:
预处理模块,用于获取用户文本集和预设的关键词库,所述用户文本集中包括多个用户文本,所述关键词库包括多个关键词,通过关键词获取一用户文本中的各个近似词,按照关联度...

【专利技术属性】
技术研发人员:姚娟娟钟南山
申请(专利权)人:明品云北京数据科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1