【技术实现步骤摘要】
应用于用户标签识别的模型训练方法、推荐方法和设备
[0001]本申请涉及数据处理
,尤其涉及一种应用于用户标签识别的模型训练方法、推荐方法和设备。
技术介绍
[0002]在为用户进行信息推荐的时候,需要获知用户的标签。例如,用户的标签为具有车辆,则基于该标签为用户推荐与车辆相关的产品;用户的标签为偏向于球类运动,则基于该标签为用户推荐与球类相关的产品。在识别用户的标签的时候,可以基于分类器对用户数据进行识别,得到用户的标签;进而首先需要对分类器进行训练。
[0003]现有技术中,需要基于大量已知标签的用户数据,对分类器进行训练。
[0004]但是上述方式中,需要依赖于大量的已知标签的用户数据,但是真实情况下,无法获取到大量的已知标签的用户数据,从而只能基于大量的不具有标签的用户数据对分类器进行训练,从而导致训练出的模型不准确;进一步导致基于该模型无法对用户的标签进行准确识别,并且该方式需要多次迭代,需要大量算力支撑,训练时间较长。
技术实现思路
[0005]本申请提供一种应用于用户标签识 ...
【技术保护点】
【技术特征摘要】
1.一种应用于用户标签识别的模型训练方法,其特征在于,所述方法包括:获取第一待训练数据集合和第二待训练数据集合,其中,所述第一待训练数据集合中的用户的待训练数据为具有第一预设标签的数据,所述第二待训练数据集合中的用户的待训练数据为不具有任何标签的数据;所述第一待训练数据集合包括第一数据子集和第二数据子集;将所述第一数据子集、所述第二数据子集以及所述第二待训练数据集合,输入至第一分类器中,得到初始识别结果,所述初始识别结果中包括所述第一数据子集中待训练数据的归属于第二预设标签的概率、所述第二数据子集中待训练数据的归属于第二预设标签的概率以及所述第二待训练数据集合中待训练数据的归属于第二预设标签的概率;根据所述第二数据子集中待训练数据的归属于第二预设标签的概率和所述第二待训练数据集合中待训练数据的归属于第二预设标签的概率,对所述第二待训练数据集合进行待训练数据的剔除,得到处理后的待训练数据集合;将所述第一待训练数据集合和所述处理后的待训练数据集合输入至第二分类器中进行训练,得到用户标签识别模型;其中,所述用户标签识别模型用于对用户的待识别数据进行识别后得到用户的标签。2.根据权利要求1所述的方法,其特征在于,根据所述第二数据子集中待训练数据的归属于第二预设标签的概率和所述第二待训练数据集合中待训练数据的归属于第二预设标签的概率,对所述第二待训练数据集合进行待训练数据的剔除,得到处理后的待训练数据集合,包括:确定所述第二数据子集中待训练数据的归属于第二预设标签的概率中的最大概率;若确定所述第二待训练数据集合中待训练数据的归属于第二预设标签的概率,小于所述最大概率,则剔除所述第二待训练数据集合中的该待训练数据;若确定所述第二待训练数据集合中待训练数据的归属于第二预设标签的概率,大于或等于所述最大概率,则保留所述第二待训练数据集合中的该待训练数据,以得到所述处理后的待训练数据集合。3.根据权利要求1所述的方法,其特征在于,获取第一待训练数据集合和第二待训练数据集合,包括:获取第一初始训练集合和第二初始训练集合,其中,所述第一初始训练集合中的用户的待训练数据为具有所述第一预设标签的数据,所述第二初始训练集合中的用户的待训练数据为不具有任何标签的数据;对所述第一初始训练集合进行采样,得到第一数据集合,并对所述第二初始训练集合进行采样,得到第二数据集合;确定所述第一初始训练集合,为所述第一待训练数据集合;并确定所述第二数据集合,为所述第二待训练数据集合;其中,所述第一数据集合为所述第二数据子集。4.根据权利要求3所述的方法,其特征在于,获取第一初始训练集合和第二初始训练集合,包括:针对每一用户,获取用户的用户数据;其中,所述用户数据包括标签兴趣点集合、标签应用集合以及标签文本集合;所述标签兴趣点集合中包括至少一个标签兴趣点,所述标签应用集合包括与标签相关的至少一个应用,所述标签文本集合包括用户阅读过的、且与标签相关的关键词;
针对每一用户,对所述用户数据中的标签兴趣点集合、标签应用集合以及标签文本集合进行融合处理,得到用户的待训练数据;确定具有所述第一预设标签的待训练数据,构成第一初始训练集合;并确定不具有任何标签的待训练数据,构成第二初始训练集合。5.根据权利要求4所述的方法,其特征在于,获取用户的标签兴趣点集合,包括:获取用户的移动终端信令数据,其中,所述移动终端信令数据为用户的移动终端与基站之间的通信数据;根据所述移动终端信令数据,生成用户轨迹数据;根据所述用户轨迹数据,基于预设时间窗口在地理维度上进行数据合并处理,并确定用户驻留点,得到用户驻留点集合;其中,所述用户驻留点集合包括多个用户驻留点;从所述用户驻留点集合中剔除用户常驻地,得到用户非常驻地集合;其中,所述用户非常驻地集合中包括多个用户驻留点,且所述用户非常驻地集合中的用户驻留点不是用户常驻地;根据预设的地图兴趣点数据,从所述用户非常驻地集合中确定兴趣点集合,所述兴趣点集合中包括多个兴趣点;从所述兴趣点集合中确定出与标签相关的标签兴趣点,得到所述标签兴趣点集合;所述标签兴趣点具有与标签兴趣点对应的停留时间阈值。6.根据权利要求4所述的方法,其特征在于,获取用户的标签应用集合,包括:获取用户的移动终端网络数据,其中,所述移动终端网络数据包括用户所使用的应用的应用数据;对所述移动终端网络数据下的应用进行分类处理,得到多个应用类别集合;所述应用类别集合中的应用具有访问数据和同类应用的个数信息;从所述多个应用类别集合中,确定与标签相关的应用;根据所述与标签相关的应用,生成所述标签应用集合;其中,所述标签应用集合中的应用具有与应用对应的权重。7.根据权利要求4所述的方法,其特征在于,获取用户的标签文本集合,包括:获取用户的文章的文本阅读数据,其中,所述文本阅读数据为用户基于移动终端进行文本阅读所产生的文本数据;对所述文本阅读数据进行关键词识别,得到关键词集合;所述关键词集合中包括至少一个关键词;根据关键词集合对所述文本阅读数据所归属的文章进行分类,得到文章类别;根据所述关键词、所述文章类别以及所述文本阅读数据中的阅读信息,生成语料库;从所述语料库中选取与标签相关的关键词,得到所述标签文本集合。8.根据权利要求4所述的方法,其特征在于,针对每一用户,对所述用户数据中的标签兴趣点集合、标签应用集合以及标签文本集合进行融合处理,得到用户的待训练数据,包括:针对每一用户,将所述标签文本集合转换为稀疏化矩阵,所述稀疏化矩阵表征了关键词的信息;并对所述稀疏化矩阵进行压缩处理,得到处理后的标签文本集合;对所述标签兴趣点集合、所述标签应用集合以及所述处理后的标签文本集合,进行数
据融合处理,得到融合数据;对所述融合数据进行降维处理,得到用户的待训练数据。9.根据权利要求8所述的方法,其特征在于,对所述标签兴趣点集合、所述标签应用集合以及所述处理后的标签文本集合,进行数据融合处理,得到融合数据,包括:对所述标签兴趣点集合、所述标签应用集合以及所述处理后的标签文本集合进行对齐处理,得到对齐后的标签兴趣点集合、对齐后的标签应用集合以及对齐后的标签文本集合;针对所述对齐后的标签兴趣点集合和所述对齐后的标签应用集合中的每一集合,若集合为离散向量,则对该集合进行一位有效编码处理;若集合为连续变量,则对该集合进行分箱操作,并进行编码处理;将编码后的数据和所述对齐后的标签文本集合进行融合,得到所述融合数据。10.根据权利要求1
‑
9中任一项所述的方法,其特征在于,标签表征用户是否具有车辆,第一预设标签为用户具有车辆,第二预设标签为用户不具有车辆;或者,标签表征用户的画像特征,第一预设标签为用户为家长,第二预设标签为用户为学生;或者,标签表征用户的兴趣特征,第一预设标签为用户偏向于球类运动,第二预设标签为用户偏向于水类运动。11.一种基于用户标签的信息推荐方法,其特征在于,所述方法包括:获取用户的待识别数据;将所述待识别数据输入至所述用户标签识别模型中进行识别,得到用户的标签;其中,所述用户标签识别模型为如权利要求1
‑
9中任一项所述的用户标签识别模型;根据所述用户的标签,为所述用户进行信息推荐。12.根据权利要求11所述的方法,其特征在于,获取用户的待识别数据,包括:获取用户的用户数据;其中,所述用户数据包括标签兴趣点集合、标签应用集合以及标签文本集合;所述标签兴趣点集合中包括至少一个标签兴趣点,所述标签应用集合包括与标签相关的至少一个应用,所述标签文本集合包括用户阅读过的、且与标签相关的关键词;对用户数据中的标签兴趣点集合、标签应用集合以及标签文本集合进行融合处理,得到用户的待识别数据。13.根据权利要求12所述的方法,其特征在于,获取用户的标签兴趣点集合,包括:获取用户的移动终端信令数据,其中,所述移动终端信令数据为用户的移动终端与基站之间的通信数据;根据所述移动终端信令数据,生成用户轨迹数据;根据所述用户轨迹数据,基于预设时间窗口在地理维度上进行数据合并处理,并确定用户驻留点,得到用户驻留点集合;其中,所述用户驻留点集合包括多个用户驻留点;从所述用户驻留点集合中剔除用户常驻地,得到用户非常驻地集合;其中,所述用户非常驻地集合中包括多个用户驻留点,且所述用户非常驻地集合中的用户驻留点不是用户常驻地;根据预设的地图兴趣点数据,从所述用户非常驻地集合中确定兴趣点集合,所述兴趣点集合中包括多个兴趣点;从所述兴趣点集合中确定出与标签相关的标签兴趣点,得到所述标签兴趣点集合;所
述标签兴趣点具有与标签兴趣点对应的停留时间阈值。14.根据权利要求12所述的方法,其特征在于,获取用户的标签应用集合,包括:获取用户的移动终端网络数据,其中,所述移动终端网络数据包括用户所使用的应用的应用数据;对所述移动终端网络数据下的应用进行分类处理,得到多个应用类别集合;所述应用类别集合中的应用具有访问数据和同类应用的个数信息;从所述多个应用类别集合中,确定与标签相关的应用;根据所述与标签相关的应用,生成所述标签应用集合;其中,所述标签应用集合中的应用具有与应用对应的权重。15.根据权利要求12所述的方法,其特征在于,获取用户的标签文本集合,包括:获取用户的文章的文本阅读数据,其中,所述文本阅读数据为用户基于移动终端进行文本阅读所产生的文本数据;对所述文本阅读数据进行关键词识别,得到关键词集合;所述关键词集合中包括至少一个关键词;根据关键词集合对所述文本阅读数据所归属的文章进行分类,得到文章类别;根据所述关键词、所述文章类别以及所述文本阅读数据中的阅读信息,生成语料库;从所述语料库中选取与标签相关的关键词,得到所述标签文本集合。16.根据权利要求12所述的方法,其特征在于,对用户数据中的标签兴趣点集合、标签应用集合以及标签文本集合进行融合处理,得到用户的待识别数据,包括:针对每一用户,将所述标签文本集合转换为稀疏化矩阵,所述稀疏化矩阵表征了关键词的信息;并对所述稀疏化矩阵进行压缩处理,得到处理后的标签文本集合;对所述标签兴趣点集合、所述标签应用集合以及所述处理后的标签文本集合,进行数据融合处理,得到融合数据;对所述融合数据进行降维处理,得到用户的待识别数据。17.根据权利要求16所述的方法,其特征在于,对所述标签兴趣点集合、所述标签应用集合以及所述处理后的标签文本集合,进行数据融合处理,得到融合数据,包括:对所述标签兴趣点集合、所述标签应用集合以及所述处理后的标签文本集合进行对齐处理,得到对齐后的标签兴趣点集合、对齐后的标签应用集合以及对齐后的标签文本集合;针对所述对齐后的标签兴趣点集合和所述对齐后的标签应用集合中的每一集合,若集合为离散向量,则对该集合进行一位有效编码处理;若集合为连续变量,则对该集合进行分箱操作,并进行编码处理;将编码后的数据和所述对齐后的标签文本集合进行融合,得到所述融合数据。18.根据权利要求11所述的方法,其特征在于,所述标签表征用户是否具有车辆;或者,所述标签表征用户的画像特征;或者,所述标签表征用户的兴趣特征。19.一种应用于用户标签识别的模型训练装置,其特征在于,所述装置包括:获取单元,用于获取第一待训练数据集合和第二待训练数据集合,其中,所述第一待训练数据集合中的用户的待训练数据为具有第一预设...
【专利技术属性】
技术研发人员:聂简,张倬荣,王全达,闫龙,胡博文,宋雨伦,
申请(专利权)人:联通数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。