一种推荐处理方法、装置及设备制造方法及图纸

技术编号:39143266 阅读:9 留言:0更新日期:2023-10-23 14:55
本发明专利技术提供一种推荐处理方法、装置及设备,涉及通信技术领域。该方法包括:获取用户播放历史视频的播放记录和视频信息元数据;对所述视频信息元数据进行分词处理,获得所述视频信息元数据中多个分词的词标识ID;根据所述播放记录和词ID,构建词图;根据所述播放记录、所述视频信息元数据、所述词ID和所述词图,进行语言预训练,获得第一查询信息;其中,所述第一查询信息包括词ID和词ID所对应分词的表征之间的映射关系;根据所述第一查询信息、所述播放记录和所述视频信息元数据,获得第二查询信息;其中,所述第二查询信息包括推荐对象ID和推荐对象ID所对应的表征之间的映射关系。推荐对象ID所对应的表征之间的映射关系。推荐对象ID所对应的表征之间的映射关系。

【技术实现步骤摘要】
一种推荐处理方法、装置及设备


[0001]本专利技术涉及通信
,特别是指一种推荐处理方法、装置及设备。

技术介绍

[0002]随着视频个数和种类快速增长,视频资源不断增加,用户需要花费大量的时间才能找到自己想看的视频。因此,如何根据用户的兴趣特点和播放记录,向用户推荐其感兴趣的视频已成为亟待解决的问题。
[0003]然而,目前的个性化推荐需要基于用户在不同场景的视频播放记录,针对不同场景分别维护各自的{视频ID:表征}查询表,限制了推荐的扩展和泛化。

技术实现思路

[0004]本专利技术的目的是提供一种推荐处理方法、装置及设备,能够实现跨场景推荐的泛化。
[0005]为达到上述目的,本专利技术的实施例提供一种推荐处理方法,包括:
[0006]获取用户播放历史视频的播放记录和视频信息元数据;
[0007]对所述视频信息元数据进行分词处理,获得所述视频信息元数据中多个分词的词标识ID;
[0008]根据所述播放记录和词ID,构建词图;其中,所述词图用于表示同一用户所播放的不同历史视频中的视频信息元数据中的分词之间的关联关系,所述不同历史视频由所述播放记录获得;
[0009]根据所述播放记录、所述视频信息元数据、所述词ID和所述词图,进行语言预训练,获得第一查询信息;其中,所述第一查询信息包括词ID和词ID所对应分词的表征之间的映射关系;
[0010]根据所述第一查询信息、所述播放记录和所述视频信息元数据,获得第二查询信息;其中,所述第二查询信息包括推荐对象ID和推荐对象ID所对应的表征之间的映射关系。
[0011]可选地,所述根据所述播放记录和词ID,构建词图,包括:
[0012]根据所述播放记录和所述词ID,提取目标词对,所述目标词对是由同一用户所播放的任意两个历史视频的视频信息元数据中的两个分词组成的;
[0013]根据所述目标词对以及所述目标词对重复出现的次数,构建所述词图。
[0014]可选地,所述根据所述目标词对以及所述目标词对重复出现的次数,构建所述词图,包括:
[0015]将用户所播放的历史视频的视频信息元数据中的分词的词ID作为所述词图的初始节点;
[0016]基于初始节点,将重复出现的次数大于第一阈值的所述目标词对所对应的节点进行连接,得到所述词图的连边,并确定所述连边的权重等于所述目标词对重复出现的次数。
[0017]可选地,所述基于初始节点,将所述目标词对所对应的节点进行连接,得到所述词
图的连边之后,还包括:
[0018]根据每个节点与相连节点的重要度,确定是否保留节点间的连边;
[0019]去除没有连边的所述初始节点。
[0020]可选地,所述根据所述播放记录、所述视频信息元数据、所述词ID和所述词图,进行语言预训练,获得第一查询信息,包括:
[0021]基于所述播放记录和所述视频信息元数据,生成第一样本信息;所述第一样本信息包括用户所播放的历史视频的视频信息元数据中的分词;
[0022]在所述第一样本信息中选取第一输入文本,所述第一输入文本至少包括一被遮盖词;
[0023]基于所述词ID以及预设的词ID

表征查询表,确定所述第一输入文本的第一表征信息;
[0024]将所述第一表征信息输入第一模型,获得所述第一模型输出的第二表征信息,并从所述第二表征信息中提取所述被遮盖词的第一表征;
[0025]基于所述被遮盖词在所述词图中的邻居节点的表征,获取所述被遮盖词的第二表征;
[0026]基于未被遮盖词在所述词图中的邻居节点的表征,获取所述未被遮盖词的第三表征;所述未被遮盖词与所述被遮盖词属于同一历史视频的视频信息元数据中的分词;
[0027]根据所述第一表征、所述第二表征和所述第三表征,确定所述第一模型是否训练完成,并将训练完成后所述第一模型使用的词ID和词ID所对应分词的表征之间的映射关系作为所述第一查询信息。
[0028]可选地,所述根据所述第一表征、第二表征和第三表征,确定所述第一模型是否训练完成,包括:
[0029]通过损失函数计算损失值L;其中,e
m
为所述第一表征,h
m
为所述第二表征,h
c
为所述第三表征,τ为温度系数,M为所述被遮盖词的个数,B为第一输入文本的分词个数;
[0030]在L的取值满足预设条件的情况下,确定所述第一模型训练完成;
[0031]在L的取值未满足预设条件的情况下,确定所述第一模型训练未完成,并更新所述第一模型使用的词ID和词ID所对应分词的表征之间的映射关系,以及重新在所述第一样本信息中选取所述第一输入文本。
[0032]可选地,所述根据所述第一查询信息、所述播放记录和所述视频信息元数据,获得第二查询信息,包括:
[0033]基于所述播放记录和所述视频信息元数据,生成第二样本信息;所述第二样本信息包括用户所播放的历史视频的视频信息元数据中的分词,所述第二样本信息与所述第一样本信息对应不同场景;
[0034]在所述第二样本信息中选取第二输入文本,每个所述第二输入文本是由同一历史视频的视频信息元数据中的分词构成的;
[0035]基于所述词ID以及所述第一查询信息,确定所述第二输入文本的第三表征信息;
[0036]将所述第三表征信息输入训练完成的所述第一模型,获得所述第一模型输出的第四表征信息;
[0037]基于所述第四表征信息和所述第四表征信息对应的历史视频,确定所述第二查询信息。
[0038]可选地,所述方法还包括:
[0039]基于所述第二查询信息,采用内积最近邻搜索的方式对所述推荐对象ID进行排序和推荐。
[0040]可选地,所述基于所述第二查询信息,采用内积最近邻搜索的方式对所述推荐对象ID进行排序和推荐,包括:
[0041]获取用户播放历史视频的平均表征;
[0042]基于所述平均表征计算不同所述推荐对象ID的内积分数;
[0043]基于所述内积分数的大小对所述推荐对象ID进行排序和推荐。
[0044]可选地,所述获取用户播放历史视频的平均表征,包括:
[0045]计算预设数量的历史视频的表征的平均值,得到所述平均表征;或者,
[0046]对所述预设数量的历史视频的表征进行聚合,得到所述平均表征。
[0047]可选地,所述方法还包括:
[0048]获取用户播放的下一个视频的视频ID;
[0049]根据所述第二查询信息中的推荐对象ID的排序和所述下一个视频的视频ID,确定本次推荐的性能。
[0050]可选地,所述对所述视频信息元数据进行分词处理,获得所述视频信息元数据中多个分词的词标识ID,包括:
[0051]通过分词器对所述视频信息元数据中的视频文本信息进行识别,得到所述视频文本信息的多个分词的词标识ID;其中,所述分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种推荐处理方法,其特征在于,包括:获取用户播放历史视频的播放记录和视频信息元数据;对所述视频信息元数据进行分词处理,获得所述视频信息元数据中多个分词的词标识ID;根据所述播放记录和词ID,构建词图;其中,所述词图用于表示同一用户所播放的不同历史视频中的视频信息元数据中的分词之间的关联关系,所述不同历史视频由所述播放记录获得;根据所述播放记录、所述视频信息元数据、所述词ID和所述词图,进行语言预训练,获得第一查询信息;其中,所述第一查询信息包括词ID和词ID所对应分词的表征之间的映射关系;根据所述第一查询信息、所述播放记录和所述视频信息元数据,获得第二查询信息;其中,所述第二查询信息包括推荐对象ID和推荐对象ID所对应的表征之间的映射关系。2.根据权利要求1所述的方法,其特征在于,所述根据所述播放记录和词ID,构建词图,包括:根据所述播放记录和所述词ID,提取目标词对,所述目标词对是由同一用户所播放的任意两个历史视频的视频信息元数据中的两个分词组成的;根据所述目标词对以及所述目标词对重复出现的次数,构建所述词图。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标词对以及所述目标词对重复出现的次数,构建所述词图,包括:将用户所播放的历史视频的视频信息元数据中的分词的词ID作为所述词图的初始节点;基于初始节点,将重复出现的次数大于第一阈值的所述目标词对所对应的节点进行连接,得到所述词图的连边,并确定所述连边的权重等于所述目标词对重复出现的次数。4.根据权利要求3所述的方法,其特征在于,所述基于初始节点,将所述目标词对所对应的节点进行连接,得到所述词图的连边之后,还包括:根据每个节点与相连节点的重要度,确定是否保留节点间的连边;去除没有连边的所述初始节点。5.根据权利要求1所述的方法,其特征在于,所述根据所述播放记录、所述视频信息元数据、所述词ID和所述词图,进行语言预训练,获得第一查询信息,包括:基于所述播放记录和所述视频信息元数据,生成第一样本信息;所述第一样本信息包括用户所播放的历史视频的视频信息元数据中的分词;在所述第一样本信息中选取第一输入文本,所述第一输入文本至少包括一被遮盖词;基于所述词ID以及预设的词ID

表征查询表,确定所述第一输入文本的第一表征信息;将所述第一表征信息输入第一模型,获得所述第一模型输出的第二表征信息,并从所述第二表征信息中提取所述被遮盖词的第一表征;基于所述被遮盖词在所述词图中的邻居节点的表征,获取所述被遮盖词的第二表征;基于未被遮盖词在所述词图中的邻居节点的表征,获取所述未被遮盖词的第三表征;所述未被遮盖词与所述被遮盖词属于同一历史视频的视频信息元数据中的分词;根据所述第一表征、所述第二表征和所述第三表征,确定所述第一模型是否训练完成,
并将训练完成后所述第一模型使用的词ID和词ID所对应分词的表征之间的映射关系作为所述第一查询信息。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一表征、第二表征和第三表征,确定所述第一模型是否训练完成,包括:通过损失函数计算损失值L;其中,e
m
为所述第一表征,h
m
为所述第二表征,h
c
为所述第三表征,τ为温度系数,M为所述被遮盖词的个数,B为第一输入文本的分词个数;在L的取值满足预设条件的情况下,确定所述第一模型训练完成;在L的取值未满足预设条件的情况下,确定所述第一模型训练未完成,并更新所述第一模型使用的词ID和词ID所对应分词的表征之间的映射关系,以及重新在所述第一样本信息中选取所述第一输入文本。7.根据权利要求6所述的方法,其特征在于,所述根据所述第一查询信息、所述播放记录和所述视频信息元数据,获得第二查询信息,包括:基于所述播放记录和所述视频信息元数据,生成第二样本信息;所述第二样本信息包括用户所播放的历史视频的视频信息元数据中的分词,所述第二样本信...

【专利技术属性】
技术研发人员:刘彦凯杨圣豪王晨阳徐康平马为之刘奕群张敏曾海涛邓超冯俊兰
申请(专利权)人:中国移动通信集团有限公司研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1