【技术实现步骤摘要】
藏汉双语用户兴趣标签的预测方法及装置
[0001]本专利技术属于神经网络
,具体涉及一种藏汉双语用户兴趣标签的预测方法及装置。
技术介绍
[0002]相关技术中,多语言推荐系统的用户兴趣标签预测方面,已有的方法是在“内容模型”的内容理解层面采用机器翻译技术,将内容资源从多语言统一翻译成单语言,记录所翻译的内容资源对应的语种,然后在“用户模型”层面基于内容资源来进行探索,或融合知识图谱的知识点进行扩展。也有的方法使用相似人群的隐式向量进行相似人群探索扩散方法进行相似人群探索扩散。但是上述的基于探索与利用的方法,主要通过老兴趣点延伸到新兴趣点的点到点推荐,存在兴趣点之间探索距离过近,从而带来探索效率不足的问题。而基于相似人群探索扩散的方法,主要对代表性好且优质的资源能加快探索效率,对长尾资源或长尾兴趣点所起的作用不大。
[0003][0004][0005]因为将内容资源从多语言统一翻译成单语言再进行用户兴趣预测建模的方法,会将用户对不同语种的兴趣偏好进行混淆。比如藏族用户A喜好汉语的财经内容和藏语的佛教内容,但不喜 ...
【技术保护点】
【技术特征摘要】
1.一种藏汉双语用户兴趣标签的预测方法,其特征在于,包括:获取用户行为日志,通过所述用户行为日志确定用户的兴趣数据;其中,所述用户行为日志为藏汉双语行为日志;根据所述兴趣数据得到用户兴趣标签,将所述用户兴趣标签作为训练样本,并对所述训练样本进行处理,得到左边塔输入向量和右边塔输入向量;利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练,得到用户兴趣标签预测模型;其中,所述初始预测模型为双塔深度神经网络结构,包括左边塔和右边塔。2.根据权利要求1所述的方法,其特征在于,对所述训练样本进行处理,得到左边塔输入向量,包括:随机隐藏预设比例的用户兴趣点的训练样本,将未隐藏用户兴趣点的训练样本作为左边塔输入样本;确定所述左边塔训练样本的用户人口属性特征向量;所述用户人口属性包括年龄、性别、城市和职业;用各个用户兴趣标签的一级分类的点击信号强度作为其位置编码特征向量;基于所有左边塔输入样本特征向量、位置编码特征向量,得到一级分类向量;将所有一级分类向量与用户人口属性特征向量进行拼接,得到左边塔输入向量。3.根据权利要求1所述的方法,其特征在于,对所述训练样本进行处理,得到右边塔输入向量,包括:随机隐藏预设比例的用户兴趣点的训练样本,作为正样本;基于mini batch shuffle方法选择的训练样本,作为负样本;将正样本和负样本分别向量化,得到右边塔输入向量。4.根据权利要求2所述的方法,其特征在于,所述利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练,得到用户兴趣标签预测模型,包括:将所述左边塔输入向量输入至...
【专利技术属性】
技术研发人员:于满泉,莫倩,王升,蔡锦森,张传文,贾承斌,朱若曦,姜吉发,
申请(专利权)人:网智天元科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。