一种数据处理方法、设备以及计算机可读存储介质技术

技术编号:31229897 阅读:27 留言:0更新日期:2021-12-08 09:59
本申请实施例公开了一种与人工智能相关联的数据处理方法、设备以及计算机可读存储介质,其中,方法包括:获取视频的视频标识以及与视频相关联的关联异构信息;两者的数据属性类型不同;将视频标识以及关联异构信息的异构信息标识,均确定为标识节点,生成包含标识节点的异构图;对异构图进行标识节点采样,得到异构采样序列和同构采样序列;异构采样序列包含至少两个属于不同数据属性类型的标识节点,同构采样序列包含至少两个属于相同数据属性类型的标识节点;根据异构采样序列以及同构采样序列,生成视频标识对应的视频特征向量。采用本申请,可以使视频特征向量包含丰富的多元信息,进而可以提高视频在实际应用场景中的应用准确率。准确率。准确率。

【技术实现步骤摘要】
一种数据处理方法、设备以及计算机可读存储介质


[0001]本申请涉及互联网
,尤其涉及一种数据处理方法、设备以及计算机可读存储介质。

技术介绍

[0002]在视频推荐、视频召回或视频聚类等场景下,视频特征的向量化表达是至关重要的,比如对视频特征向量聚类以挖掘新的视频话题、对视频特征向量进行相似性计算以进行相关视频推荐、或者将视频特征向量应用于视频推荐模型等。
[0003]已有的视频特征向量构建方法大都是基于视频内容本身的先验信息以进行模型的监督训练,并选取模型的中间层特征作为视频的表示向量(可以称作特征向量),比如针对视频的分类信息构建视频分类模型,首先对视频的分类信息进行训练,预测时将视频分类模型的中间层的高维输出向量作为视频特征向量。现有依据模型输出视频特征向量的方法,所获得的视频特征向量可以包含文本、视觉、音频等信息,但仅限于视频内容本身。这种只覆盖了视频本身的文本或视觉信息的视频特征向量只能较好地应用于视频分类场景,若要将该种视频特征向量应用于其他实际场景中,例如视频推荐、视频召回或视频聚类等场景,则会因该种视频特征向量的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取视频的视频标识以及与所述视频相关联的关联异构信息;所述视频的数据属性类型与所述关联异构信息的数据属性类型不同;将所述视频标识以及所述关联异构信息的异构信息标识,均确定为标识节点,生成包含所述标识节点的异构图;对所述异构图进行标识节点采样,得到异构采样序列和同构采样序列;所述异构采样序列包含至少两个属于不同数据属性类型的标识节点,所述同构采样序列包含至少两个属于相同数据属性类型的标识节点;根据所述异构采样序列以及所述同构采样序列,生成所述视频标识对应的视频特征向量。2.根据权利要求1所述的方法,其特征在于,所述视频的数量为至少两个,所述关联异构信息的数量为至少两个;所述生成包含所述标识节点的异构图,包括:根据每两个视频之间的关联关系、每两个关联异构信息之间的关联关系,以及所述视频与所述关联异构信息之间的关联关系,确定所述标识节点之间的关联边,以及所述关联边的边权重;根据所述标识节点、所述关联边以及所述关联边的边权重,生成所述异构图。3.根据权利要求2所述的方法,其特征在于,所述标识节点包括属于所述视频标识的视频标识节点,以及属于所述异构信息标识的异构标识节点;所述关联边包括第一关联边、第二关联边以及第三关联边;所述根据每两个视频之间的关联关系、每两个关联异构信息之间的关联关系,以及所述视频以及所述关联异构信息之间的关联关系,确定所述标识节点之间的关联边,以及所述关联边的边权重,包括:根据所述每两个视频之间的关联关系,确定所述视频标识节点之间的所述第一关联边,以及所述第一关联边的边权重;根据所述每两个关联异构信息之间的关联关系,确定所述异构标识节点之间的所述第二关联边,以及所述第二关联边的边权重;根据所述视频以及所述关联异构信息之间的关联关系,确定所述视频标识节点以及所述异构标识节点之间的所述第三关联边,以及所述第三关联边的边权重。4.根据权利要求3所述的方法,其特征在于,所述视频包括第一视频以及第二视频;所述视频标识节点包括所述第一视频对应的第一视频标识节点,以及所述第二视频对应的第二视频标识节点;所述根据所述每两个视频之间的关联关系,确定所述视频标识节点之间的所述第一关联边,以及所述第一关联边的边权重,包括:获取与N个视频浏览用户分别关联的有效视频序列;N为正整数;N个有效视频序列包括有效视频序列L
x
,x为正整数且x小于或等于所述N个有效视频序列的序列总数量;所述有效视频序列L
x
中的有效视频是按照关联的视频浏览用户浏览视频的时间顺序进行排序的;所述有效视频对应的视频有效浏览时长与所述有效视频的视频总时长的比值,大于浏览比值阈值;
若所述第一视频以及所述第二视频分别在所述有效视频序列L
x
中的位置为相邻位置,则确定所述有效视频序列L
x
针对所述第一视频以及所述第二视频具有相邻位置关系;在所述N个有效视频序列中,将具有所述相邻位置关系的有效视频序列确定为关联有效视频序列;所述关联有效视频序列用于表征所述第一视频标识节点以及所述第二视频标识节点之间存在所述第一关联边;统计所述关联有效视频序列的关联序列数量,将所述关联序列数量确定为所述第一关联边的边权重。5.根据权利要求3所述的方法,其特征在于,所述关联异构信息包括第一关联异构信息以及第二关联异构信息;所述异构标识节点包括所述第一关联异构信息对应的第一异构标识节点,以及所述第二关联异构信息对应的第二异构标识节点;所述根据所述每两个关联异构信息之间的关联关系,确定所述异构标识节点之间的所述第二关联边,以及所述第二关联边的边权重,包括:若所述第一关联异构信息所关联的视频与所述第二关联异构信息所关联的视频之间存在相同的视频,则将相同的视频确定为关联视频;所述关联视频用于表征所述第一异构标识节点以及所述第二异构标识节点之间存在所述第二关联边;统计所述关联视频的视频数量,将所述视频数量确定为所述第二关联边的边权重。6.根据权利要求3所述的方法,其特征在于,所述关联异构信息包括视频浏览用户群;所述异构标识节点包括所述视频浏览用户群对应的用户标识节点;所述根据所述视频以及所述关联异构信息之间的关联关系,确定所述视频标识节点以及所述异构标识节点之间的所述第三关联边,以及所述第三关联边的边权重,包括:在视频浏览周期内,获取所述视频浏览用户群针对所述视频的有效浏览次数;所述有效浏览次数是指所述视频被所述视频浏览用户群中的视频浏览用户有效浏览的次数;若所述有效浏览次数大于有效浏览次数阈值,则确定所述视频标识节点以及所述用户标识节点之间存在所述第三关联边;在所述视频浏览用户群中,将有效浏览所述视频的视频浏览用户确定为所述视频的关联视频浏览用户,将所述关联视频浏览用户的用户数量确定为所述第三关联边的边权重。7.根据权利要求3所述的方法,其特征在于,所述关联异构信息包括至少两个视频账号;所述关联关系包括账号关联关系;所述异构标识节点包括所述至少两个视频账号分别对应的账号标识节点;所述根据所述视频以及所述关联异构信息之间的关联关系,确定所述视频标识节点以及所述异构标识节点之间的所述第三关联边,以及所述第三关联边的边权重,包括:在所述至少两个视频账号中,获取与所述视频存在所述账号关联关系的关联视频账号;所述账号关联关系用于表征视频发布用户通过所述关联视频账号发布所述视频;将所述关联视频账号对应的账号标识节点确定为关联账号标识节点;所述视频标识节点以及所述关联账号标识节点之间存在所述第三关联边,所述第三关联边的边权重为常量参数。8.根据权利要求3所述的方法,其特征在于,所述关联异构信息包括至少两个视频标签;所述关联关系包括标签关联关系;所述异构标识节点包括所述至少两个视频标签分别对应的标签标识节点;
所述根据所述视频以及所述关联异构信息之间的关联关系,确定所述视频标识节点以及所述异构标识节点之间...

【专利技术属性】
技术研发人员:张晗马连洋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1