一种文本标签的确定方法和相关装置制造方法及图纸

技术编号:37995810 阅读:28 留言:0更新日期:2023-06-30 10:09
本申请公开了一种文本标签的确定方法和相关装置,可以从待处理多媒体内容自身对应的内容信息和发布多媒体内容账号的账号信息两个维度出发,对该待处理多媒体内容的标签进行确定。由于媒体账号通常会在账号描述信息中添加能够吸引用户浏览自己内容的信息,而吸引用户的重点就在于能够引起观众的情感共鸣,因此,该账号描述信息可以体现出该账号所发布多媒体内容的情感类型。从而,通过结合该账号描述信息来确定文本标签,可以提高所确定出的文本标签与待处理多媒体内容之间的匹配程度,使该多媒体内容在基于标签向用户推送时容易引起用户的情感共鸣。由于该标签确定过程无需人工进行标注,因此能够在保障标签准确度的前提下提高标签标注的效率。下提高标签标注的效率。下提高标签标注的效率。

【技术实现步骤摘要】
一种文本标签的确定方法和相关装置


[0001]本申请涉及数据处理领域,特别是涉及一种文本标签的确定方法和相关装置。

技术介绍

[0002]随着互联网的快速发展,移动社交的媒体时代应运而生。在媒体平台中存在大量不同用户发布的多媒体内容,对媒体平台而言,实时而精准的多媒体内容推送可以为用户带来更好的观看体验,也能提高用户的观看次数、忠诚度等。
[0003]多媒体内容的文本标签是媒体平台向用户进行精准推荐的重要依据。目前主要通过标准化人工标记的方式为多媒体内容设置对应的文本标签。
[0004]然而,这种方式导致文本标签覆盖不全面,进而影响推荐侧的使用体验。并且媒体平台中存在大量的多媒体内容,人工专门标记此类文本标签需要耗费大量的人力和时间,成本非常高,效率也非常低。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种文本标签的确定方法,处理设备可以基于多媒体内容自身的文本信息和发布该内容的账号对应的账号信息这两个维度,对多媒体内容所对应的文本标签进行自动生成,在保障文本标签准确度的情况下提高了标签确定的效本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本标签的确定方法,其特征在于,所述方法包括:获取待处理多媒体内容的目标关键文本信息;获取目标媒体账号的目标账号描述信息,所述目标媒体账号为发布所述待处理多媒体内容的媒体账号;确定每个候选文本标签的标签向量、确定所述目标账号描述信息的账号特征向量,以及根据所述目标关键文本信息确定所述待处理多媒体内容的内容特征向量;将所述账号特征向量和所述内容特征向量进行融合,得到融合特征向量;根据所述融合特征向量和所述每个候选文本标签的标签向量之间的匹配度,确定所述待处理多媒体内容的目标文本标签。2.根据权利要求1所述的方法,其特征在于,所述确定每个候选文本标签的标签向量、确定所述目标账号描述信息的账号特征向量,以及根据所述目标关键文本信息确定所述待处理多媒体内容的内容特征向量,包括:通过标签预测模型中的标签提取子模型,确定所述每个候选文本标签的标签向量;通过所述标签预测模型中的账号提取子模型,确定所述目标账号描述信息的账号特征向量;通过所述标签预测模型中的内容提取子模型,根据所述目标关键文本信息确定所述内容特征向量。3.根据权利要求2所述的方法,其特征在于,所述将所述账号特征向量和所述内容特征向量进行融合,得到融合特征向量,包括:通过所述标签预测模型中的特征融合子模型将所述账号特征向量和所述内容特征向量进行融合,得到所述融合特征向量;所述根据所述融合特征向量和所述每个候选文本标签的标签向量之间的匹配度,确定所述待处理多媒体内容的目标文本标签,包括:通过所述标签预测模型中的匹配子模型,根据所述融合特征向量和所述每个候选文本标签的标签向量之间的匹配度,确定所述目标文本标签。4.根据权利要求3所述的方法,其特征在于,所述标签预测模型为双塔模型,所述标签提取子模型为所述双塔模型的第一模型分支;所述账号提取子模型、所述内容提取子模型和所述特征融合子模型构成所述双塔模型的第二模型分支。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据历史多媒体内容的历史关键文本信息和所述历史多媒体内容对应的历史账号描述信息构建训练样本,所述历史多媒体内容具有样本文本标签;根据所述训练样本对所述标签预测模型进行训练;在训练过程中,通过所述标签提取子模型,确定每个所述候选文本标签的历史标签向量;通过所述账号提取子模型,确定所述历史账号描述信息的历史账号特征向量;通过所述内容提取子模型,根据所述历史关键文本信息确定所述历史多媒体内容的历史内容特征向量;通过所述特征融合子模型将所述历史账号特征向量和所述历史内容特征向量进行融合,得到历史融合特征向量;并通过所述匹配子模型,根据所述历史融合特征向量和每个所述历史标签向量之间的匹配度,确定历史文本标签;若所述历史文本标签与所述样本文本标签不一致,调整所述标签预测模型的模型参数。
6.根据权利要求1

5任一项所述的方法,其特征在于,所述候选文本标签的确定方式为:获取多个媒体账号分别发布的多媒体内容;对所述多个媒体账号分别发布的多媒体内容进行聚类,得到多个聚类簇;根据所述多个聚类簇对应的多媒体内容,确定所述候选文本标签。7.根据权利要求6所述的方法,其特征在于,所述对所述多个媒体账号分别发布的多媒体内容进行聚类,得到多个聚类簇,包括:确定不同媒体账号发布的多媒体内容之间的相似度;将所发布多媒体内容之间的相似度满足第一预设阈值的媒体账号划分至同一个聚类簇,得到所述多个聚类簇,所述多个聚类簇为账号簇。8.根据权利要求1

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:腾讯科技武汉有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1