一种用户标签的预测方法及系统技术方案

技术编号：29758821 阅读：27 留言：0更新日期：2021-08-20 21:12

本发明专利技术提供一种用户标签的预测方法及系统，所述的用户标签的预测方法包括：获取用户文本集和预设的关键词库；通过关键词获取一用户文本中的各个近似词，按照关联度的大小，获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵；将特征矩阵输入神经网络进行训练，获取预测模型；通过预测模型预测待处理的用户文本，获取预测的用户标签。通过设置关键词库，获取一用户文本中与关键词相匹配的近似词，确定与近似词相匹配的关键词以及确定关键词匹配的n维向量，并通过m个所述n维向量确定特征矩阵，提高了处理用户文本获取用户标签的速度和精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种用户标签的预测方法及系统
本专利技术涉及自然语言处理
，特别是涉及一种用户标签的预测方法及系统。
技术介绍
用户标签是构成用户画像的核心因素，是将用户在平台内所产生的行为数据，分析提炼后生成具有差异性特征的形容词。即用户通过平台，在什么时间什么场景下做了什么行为，平台将用户所有行为数据提炼出来形成支撑业务实现的可视化信息或者可视化标签。随着用户行为的特异化和个性化，每个用户的用户标签也相应地存在差异，而基于用户文本的标签预测受限制于文本语义的深层次和多模态等问题，往往精确性较低。
技术实现思路
鉴于以上所述现有技术的缺点，本专利技术的目的在于提供一种用户标签的预测方法及系统，用于解决现有技术中的问题。为实现上述目的及其他相关目的，本专利技术提供一种用户标签的预测方法，包括：获取用户文本集和预设的关键词库，所述用户文本集中包括多个用户文本，所述关键词库包括多个关键词；通过关键词获取一用户文本中的各个近似词，按照关联度的大小，获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵，其中，m和n均为正整数；将多个用户文本分别对应的特征矩阵输入神经网络进行训练，获取预测模型；通过预测模型预测待处理的用户文本，获取预测的用户标签。可选的，包括：定义L为关联度，关键词的n维向量为（X1、……、Xi、……、Xn），近似词的n维向量为（Y1、……、Yi、……、Yn）；当（X1、……、Xi、...

【技术保护点】
1.一种用户标签的预测方法，其特征在于，包括：/n获取用户文本集和预设的关键词库，所述用户文本集中包括多个用户文本，所述关键词库包括多个关键词；/n通过关键词获取一用户文本中的各个近似词，按照关联度的大小，获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵，其中，m和n均为正整数；/n将多个用户文本分别对应的特征矩阵输入神经网络进行训练，获取预测模型；/n通过预测模型预测待处理的用户文本，获取预测的用户标签。/n

【技术特征摘要】
1.一种用户标签的预测方法，其特征在于，包括：
获取用户文本集和预设的关键词库，所述用户文本集中包括多个用户文本，所述关键词库包括多个关键词；
通过关键词获取一用户文本中的各个近似词，按照关联度的大小，获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵，其中，m和n均为正整数；
将多个用户文本分别对应的特征矩阵输入神经网络进行训练，获取预测模型；
通过预测模型预测待处理的用户文本，获取预测的用户标签。

2.根据权利要求1所述的用户标签的预测方法，其特征在于，包括：
定义L为关联度，关键词的n维向量为（X1、……、Xi、……、Xn），近似词的n维向量为（Y1、……、Yi、……、Yn）；
当（X1、……、Xi、……、Xn）和（Y1、……、Yi、……、Yn）不相等时，关联度的数学表达为：

当（X1、……、Xi、……、Xn）=（Y1、……、Yi、……、Yn）时，关联度为1。

3.根据权利要求2所述的用户标签的预测方法，其特征在于，将获取的用户标签与m个n维向量相匹配，获取关联度小于1的各个近似词，并确定为近似词集；
获取一用户标签的各个近似词集，并从各个所述近似词集中确定交集；
将所述交集对应的近似词更新为所述关键词库中的关键词。

4.根据权利要求3所述的用户标签的预测方法，其特征在于，包括：
通过更新后的关键词库中的关键词，确定用户文本中更新后的各个近似词汇；
按照关联度的大小，获取排名前m的近似词所对应的更新后的关键词，并确定所述更新后的关键词匹配的n维向量，通过m个所述n维向量确定更新后的特征矩阵；
将多个用户文本分别对应的更新后的特征矩阵输入神经网络进行训练，获取更新后的预测模型；
通过所述更新后的预测模型预测待处理的用户文本，获取更新后的用户标签。

5.一种用户标签的预测系统，其特征在于，包括：
预处理模块，用于获取用户文本集和预设的关键词库，所述用户文本集中包括多个用户文本，所述关键词库包括多个关键词，通过关键词获取一用户文本中的各个近似词，按照关联度...

【专利技术属性】
技术研发人员：姚娟娟，钟南山，
申请(专利权)人：明品云北京数据科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人