一种基于多模态数据的用户标签构建方法及系统技术方案

技术编号:37441835 阅读:22 留言:0更新日期:2023-05-06 09:13
本发明专利技术涉及短视频用户标签构建技术领域,具体公开了一种基于多模态数据的用户标签构建方法及系统,包括:S100数据预处理,采集短视频平台用户的数据并对数据进行分类,数据种类包括视频信息、平台信息和文本内容信息;S200视频标签处理,对视频信息进行分析计算,并对依据视频内容输出视频标签;S300平台信息标签处理,依据平台标签信息对用户文本信息进行处理,并输出平台信息标签,等步骤;本发明专利技术采用视频风格分类算法对用户产生的视频进行截帧过滤、统计,输出用户视频内容偏好标签,该维度比较真实的体现了用户的喜好;本发明专利技术结合了用户视频、平台采集信息、文本内容等多源数据进行标签生成,使得生成的标签结果能够更好的刻画用户的特征。用户的特征。用户的特征。

【技术实现步骤摘要】
一种基于多模态数据的用户标签构建方法及系统


[0001]本专利技术涉及用户标签
,具体是一种基于多模态数据的用户标签构建方法及系统。

技术介绍

[0002]随着互联网、大数据的发展,近年来用户画像技术在各个互联网平台中得到大量的应用,用户画像通常是指根据用户的属性、用户偏好、用户行为等信息抽象出来的标签化用户模型,其根本就是利用多源数据给用户打标签。而在内容审核领域,通常由于数据量太大因此需要预先对用户进行画像、分群,针对特殊的一些易违规的用户群体进行监控。目前用户画像的主要应用还是在类似于电商平台等领域,而短视频领域在数据量日益增大的情况下也急需要有一些解决方案。通常在刻画用户画像时主要以用户的一些行为数据为主,但是短视频平台中用户发布的视频内容也是非常重要的信息,因此如何在对用户进行标签化的时候结合到视频内容信息是一个重要的解决方向。在此背景下,研究一种基于多模态数据的用户画像建方法变得十分重要。
[0003]现有技术(CN114265953A)一种基于标签的短视频推荐方法、系统、设备和介质,所述方法包括如下步骤:获取视频的标签和标签相关度;根据用户行为数据生成用户画像,并计算用户对视频的标签偏好度;根据用户画像,采用基于内容和用户协同的方式推荐视频。本专利技术基于标签的个性化视频推荐方法,考虑用户偏好的“新鲜度”、推荐结果的惊喜度、及视频内容的热度来,解决了视频推荐的“信息茧房”、新用户推荐问题,提升了推荐结果的准确性、惊喜程度、能够满足用户多样性的需求。该方法的不足之处是只利用用户的行为数据产生标签,并没有利用视频本身的内容信息。
[0004]综上所述,本专利技术提供了一种基于多模态数据的用户标签构建方法及系统。

技术实现思路

[0005]本专利技术的目的是针对现有的短视频用户画像中标签生成技术中存在的问题,提出了利用多模态数据构建用户画像的方法。在用户画像过程中使用视频、文本、平台认证等多维信息进行标签生成,从多个维度对用户的偏好、特性进行理解,以弥补使用单一数据源生成标签的不足之处。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于多模态数据的用户标签构建方法,所述方法包括如下步骤:
[0007]S100数据预处理,采集短视频平台用户的数据并对数据进行分类,数据种类包括视频信息、平台信息和文本内容信息;
[0008]S200视频标签处理,对视频信息进行分析计算,并对依据视频内容输出视频标签;
[0009]S300平台信息标签处理,依据平台标签信息对用户文本信息进行处理,并输出平台信息标签;
[0010]S400文本内容标签处理,对文本内容信息进行处理并输出文本信息标签;
[0011]S500标签画像生成,将上述步骤的视频标签、平台信息标签和文本信息标签整合生成标签画像;
[0012]S600输出用户标签,依据标签画像输出用户标签。
[0013]作为本专利技术的一种优选实施方案,所述步骤S100中数据种类包含内容如下:
[0014]视频信息,用户发布的所有视频及浏览过的视频,其中需要对视频截帧归一化处理;
[0015]平台信息,包括用户的认证信息、粉丝数量,需要将数据结构化保存;
[0016]文本信息,包括用户名、用户签名、视频描述,将数据结构化保存。
[0017]作为本专利技术的一种优选实施方案,所述步骤S200详细步骤如下:
[0018]S201:构建视频风格分类算法;
[0019]在实际使用风格算法如下
[0020]1)根据预先设置的搞笑、新闻、财经等风格类别分别收集500例视频并做切帧、归一化等预处理;
[0021]2)采用预训练的VGG16分类模型进行分类模型训练;
[0022]S202:将用户能获取到的所有视频截帧后的数据进行上述步骤推理,统计所有帧在视频风格算法推理完成后的输出类别,将出现次数最多的top1类别作为该用户的视频风格偏好标签。
[0023]作为本专利技术的一种优选实施方案,所述步骤S201中模型采用预训练的VGG16,其中包含5个卷积层,第一个卷积层的输入input的尺寸为224*224*3,其网络结构由13个卷积层和3个全连接层构成,卷积核尺寸为3*3,池化层尺寸为2*2,输出的全连接层连接一个softmax函数,输出维度为视频风格的标签类别个数。
[0024]作为本专利技术的一种优选实施方案,所述步骤S300的详细步骤如下:
[0025]S301:根据平台采集的用户认证信息进行分类,输出用户角色标签,所述标签分类如:大V认证账户、普通账户;
[0026]S302:根据用户粉丝数,按照阈值划分,输出用户影响力标签,其中阈值根据经验设置为粉丝数2000,并且该阈值可作为配置选项调整。
[0027]作为本专利技术的一种优选实施方案,所述步骤S400详细步骤如下:
[0028]S401:构建用户分类标签体系列表;
[0029]S402:根据获取的用户文本信息进行分词、过滤特殊符号、繁体字转化处理;
[0030]S403:将上述处理完成的文本内容在标签体系列表中过滤,若匹配成功则输出列表中对应的标签,其中实际使用流程如下:
[0031]{
[0032]'video':'sample1.mp4',
[0033]'label':['美妆','高','活跃用户','官方账号','正常内容','设备正常'][0034]}。
[0035]一种基于多模态数据的用户标签构建系统,所述系统包括:
[0036]数据处理模块,所述数据处理模块用于从短视频平台获取数据并对数据进行分类;
[0037]视频标签模块,所述视频标签模块用于对数据处理模块采集的视频信息进行处理
输出视频标签;
[0038]平台信息标签模块,所述平台信息标签模块用于对数据处理模块采集的平台信息进行处理输出平台信息标签;
[0039]文本内容标签模块,所述文本信息标签模块用于对数据处理模块采集的文本信息进行处理并输出文本内容标签信息;
[0040]画像标签生成模块,所述画像标签生成模块用于依据视频标签、平台信息标签和文本内容标签生成画像标签;
[0041]输出用户标签模块,所述输出用户标签模块用于依据画像标签输出用户标签信息。
[0042]与现有技术相比,本专利技术的有益效果是:
[0043]1.本专利技术采用视频风格分类算法对用户产生的视频进行截帧过滤、统计,输出用户视频内容偏好标签,该维度比较真实的体现了用户的喜好;
[0044]2.本专利技术结合了用户视频、平台采集信息、文本内容等多源数据进行标签生成,使得生成的标签结果能够更好的刻画用户的特征。
附图说明
[0045]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态数据的用户标签构建方法,其特征在于,所述方法包括如下步骤:S100数据预处理,采集短视频平台用户的数据并对数据进行分类,数据种类包括视频信息、平台信息和文本内容信息;S200视频标签处理,对视频信息进行分析计算,并对依据视频内容输出视频标签;S300平台信息标签处理,依据平台标签信息对用户文本信息进行处理,并输出平台信息标签;S400文本内容标签处理,对文本内容信息进行处理并输出文本信息标签;S500标签画像生成,将上述步骤的视频标签、平台信息标签和文本信息标签整合生成标签画像;S600输出用户标签,依据标签画像输出用户标签。2.根据权利要求1所述的一种基于多模态数据的用户标签构建方法,其特征在于,所述步骤S100中数据种类包含内容如下:视频信息,用户发布的所有视频及浏览过的视频,其中需要对视频截帧归一化处理;平台信息,包括用户的认证信息、粉丝数量,需要将数据结构化保存;文本信息,包括用户名、用户签名、视频描述,将数据结构化保存。3.根据权利要求1所述的一种基于多模态数据的用户标签构建方法,其特征在于,所述步骤S200详细步骤如下:S201:构建视频风格分类算法;S202:将用户能获取到的所有视频截帧后的数据进行上述步骤推理,统计所有帧在视频风格算法推理完成后的输出类别,将出现次数最多的top1类别作为该用户的视频风格偏好标签。4.根据权利要求2所述的一种基于多模态数据的用户标签构建方法,其特征在于,所述步骤S201中模型采用预训练的VGG16,其中包含5个卷积层,第一个卷积层的输入input的尺寸为224*224*3...

【专利技术属性】
技术研发人员:胡燕林刘帅修刘岩王鼎华李佳张良黄亮杨近朱党向磊程姣刘伟郝帅王永建孙笑科孟繁中李怡辰
申请(专利权)人:长安通信科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1