本发明专利技术涉及一种藏汉双语用户兴趣标签的预测方法及装置,所述方法包括获取用户行为日志,通过用户行为日志确定用户的兴趣数据;其中,用户行为日志为藏汉双语行为日志;根据兴趣数据得到用户兴趣标签,将用户兴趣标签作为训练样本,并对训练样本进行处理,得到左边塔输入向量和右边塔输入向量;利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练,得到用户兴趣标签预测模型;其中,初始预测模型为双塔深度神经网络结构,包括左边塔和右边塔。本发明专利技术直接使用模型中已有的兴趣点来预测用户可能感兴趣的潜在未知兴趣点,从来源上能够覆盖大部分的待探索兴趣点和待探索资源,从而能够取得更好的探索效果。而能够取得更好的探索效果。而能够取得更好的探索效果。
【技术实现步骤摘要】
藏汉双语用户兴趣标签的预测方法及装置
[0001]本专利技术属于神经网络
,具体涉及一种藏汉双语用户兴趣标签的预测方法及装置。
技术介绍
[0002]相关技术中,多语言推荐系统的用户兴趣标签预测方面,已有的方法是在“内容模型”的内容理解层面采用机器翻译技术,将内容资源从多语言统一翻译成单语言,记录所翻译的内容资源对应的语种,然后在“用户模型”层面基于内容资源来进行探索,或融合知识图谱的知识点进行扩展。也有的方法使用相似人群的隐式向量进行相似人群探索扩散方法进行相似人群探索扩散。但是上述的基于探索与利用的方法,主要通过老兴趣点延伸到新兴趣点的点到点推荐,存在兴趣点之间探索距离过近,从而带来探索效率不足的问题。而基于相似人群探索扩散的方法,主要对代表性好且优质的资源能加快探索效率,对长尾资源或长尾兴趣点所起的作用不大。
[0003][0004][0005]因为将内容资源从多语言统一翻译成单语言再进行用户兴趣预测建模的方法,会将用户对不同语种的兴趣偏好进行混淆。比如藏族用户A喜好汉语的财经内容和藏语的佛教内容,但不喜好藏语的财经内容和汉语的佛教内容,这种建模方法就无法高效区分用户A对藏汉不同语种不同类别的这种兴趣偏好。
技术实现思路
[0006]有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种藏汉双语用户兴趣标签的预测方法及装置,以解决现有技术中无法高效区分用户对藏汉不同语种不同类别的这种兴趣偏好的问题。
[0007]为实现以上目的,本专利技术采用如下技术方案:一种藏汉双语用户兴趣标签的预测方法,包括:获取用户行为日志,通过所述用户行为日志确定用户的兴趣数据;其中,所述用户行为日志为藏汉双语行为日志;根据所述兴趣数据得到用户兴趣标签,将所述用户兴趣标签作为训练样本,并对所述训练样本进行处理,得到左边塔输入向量和右边塔输入向量;利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练,得到用户兴趣标签预测模型;其中,所述初始预测模型为双塔深度神经网络结构,包括左边塔和右边塔。
[0008]进一步的,对所述训练样本进行处理,得到左边塔输入向量,包括:随机隐藏预设比例的用户兴趣点的训练样本,将未隐藏用户兴趣点的训练样本作为左边塔输入样本;确定所述左边塔训练样本的用户人口属性特征向量;所述用户人口属性包括年
龄、性别、城市和职业;用各个用户兴趣标签的一级分类的点击信号强度作为其位置编码特征向量;基于所有左边塔输入样本特征向量、位置编码特征向量,得到一级分类向量;将所有一级分类向量与用户人口属性特征向量进行拼接,得到左边塔输入向量。
[0009]进一步的,对所述训练样本进行处理,得到右边塔输入向量,包括:随机隐藏预设比例的用户兴趣点的训练样本,作为正样本;基于mini batch shuffle方法选择的训练样本,作为负样本;将正样本和负样本分别向量化,得到右边塔输入向量。
[0010]进一步的,所述利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练,得到用户兴趣标签预测模型,包括:将所述左边塔输入向量输入至左边塔中,将所述右边塔输入所述右边塔中进行训练,得到用户兴趣标签预测模型。
[0011]进一步的,基所述用户兴趣标签预测模型用于从预设的推荐数据库中获取推荐数据,并预测新用户兴趣点;其中,所述推荐数据库采用二级分类各类目下预设排序下的点击资源的向量平均表示类目向量,计算资源与类目相似度,过滤相关性过低资源,再使用后验点击数排序,将同一一级分类的各二级类目资源汇聚在一起;所述用户兴趣标签预测模型还用于过滤预测出的新用户兴趣标签中的已知兴趣标签以及过滤反馈过的非兴趣标签。
[0012]进一步的,所述左边塔和右边塔均为多层结构;左边塔和右边塔的上方设有互操作层,用于左边塔和右边塔的信息交互。
[0013]进一步的,基于兴趣点和二级分类对所述待训练样本按照语义分桶处理,以映射到一级分类,包括:采用一二级分类、兴趣点训练Word2Vec模型,计算二级分类、兴趣点与所有一级分类相似度,将二级分类、兴趣点放到与之相似度最大的一级分类中。
[0014]进一步的,确定用户兴趣标签后,将所述用户兴趣标签存储至POI存储数据库。
[0015]进一步的,以预设周期对所述用户兴趣标签预测模型进行训练更新。
[0016]本申请实施例提供一种藏汉双语用户兴趣标签的预测装置,包括:获取模块,用于获取用户行为日志,通过所述用户行为日志确定用户的兴趣数据;其中,所述用户行为日志为藏汉双语行为日志;确定模块,用于根据所述兴趣数据得到用户兴趣标签,将所述用户兴趣标签作为训练样本,并对所述训练样本进行处理,得到左边塔输入向量和右边塔输入向量;输出模块,用于利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练,得到用户兴趣标签预测模型;其中,所述初始预测模型为双塔深度神经网络结构,包括左边塔和右边塔。
[0017]本专利技术采用以上技术方案,能够达到的有益效果包括:本专利技术提供一种藏汉双语用户兴趣标签的预测方法及装置,本申请首先获取到用户行为日志,通过用户行为日志确定用户的兴趣数据;根据兴趣数据得到用户兴趣标签,将所述用户兴趣标签作为训练样本,并对所述训练样本进行处理,得到左边塔输入向量和右边塔输入向量;利用训练样本对初始预测模型进行训练,得到用户兴趣标签预测模型。本申
请提供的技术方案采用跨语言用户兴趣标签联合建模的方式来解决同类内容但不同语言的关联问题,改变了之前方法中将内容从多语言统一翻译成单语言的思路,在建模方法上更加契合藏汉双语推荐系统中用户在双语方面兴趣的真实场景。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本专利技术藏汉双语用户兴趣标签的预测方法的步骤示意图;图2为本专利技术提供的双塔深度神经网络结构示意图;图3为本专利技术提供的用户兴趣标签预测模型的结构示意图;图4为本专利技术提供的藏汉双语用户兴趣标签的预测方法的流程示意图;图5为本专利技术藏汉双语用户兴趣标签的预测装置的结构示意图。
具体实施方式
[0020]为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。
[0021]从技术层面来看,推荐系统存在一种茧房问题,也就是说,用户在浏览推荐系统内容的时候,系统会自动根据用户的浏览记录获取用户的偏好,然后推送感兴趣的内容。久而久之,比如用户A是个体育迷,那么A获取的信息大多是跟体育相关的,很难获取音乐或者军事等其它相关的资讯,因为系统追求点击率,会一直推送A感兴趣本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种藏汉双语用户兴趣标签的预测方法,其特征在于,包括:获取用户行为日志,通过所述用户行为日志确定用户的兴趣数据;其中,所述用户行为日志为藏汉双语行为日志;根据所述兴趣数据得到用户兴趣标签,将所述用户兴趣标签作为训练样本,并对所述训练样本进行处理,得到左边塔输入向量和右边塔输入向量;利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练,得到用户兴趣标签预测模型;其中,所述初始预测模型为双塔深度神经网络结构,包括左边塔和右边塔。2.根据权利要求1所述的方法,其特征在于,对所述训练样本进行处理,得到左边塔输入向量,包括:随机隐藏预设比例的用户兴趣点的训练样本,将未隐藏用户兴趣点的训练样本作为左边塔输入样本;确定所述左边塔训练样本的用户人口属性特征向量;所述用户人口属性包括年龄、性别、城市和职业;用各个用户兴趣标签的一级分类的点击信号强度作为其位置编码特征向量;基于所有左边塔输入样本特征向量、位置编码特征向量,得到一级分类向量;将所有一级分类向量与用户人口属性特征向量进行拼接,得到左边塔输入向量。3.根据权利要求1所述的方法,其特征在于,对所述训练样本进行处理,得到右边塔输入向量,包括:随机隐藏预设比例的用户兴趣点的训练样本,作为正样本;基于mini batch shuffle方法选择的训练样本,作为负样本;将正样本和负样本分别向量化,得到右边塔输入向量。4.根据权利要求2所述的方法,其特征在于,所述利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练,得到用户兴趣标签预测模型,包括:将所述左边塔输入向量输入至...
【专利技术属性】
技术研发人员:于满泉,莫倩,王升,蔡锦森,张传文,贾承斌,朱若曦,姜吉发,
申请(专利权)人:网智天元科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。