媒体账号的溯源方法和装置、存储介质及电子设备制造方法及图纸

技术编号：39415038 阅读：12 留言：0更新日期：2023-11-19 16:06

本发明专利技术公开了一种媒体账号的溯源方法和装置、存储介质及电子设备。其中，该方法包括：获取待溯源的第一媒体账号已发布的第一媒体资源集合；对第一媒体资源集合中的第一媒体资源与媒体资源库中的参考媒体资源之间进行内容特征比对；根据比对的结果确定所要召回的候选媒体资源对应的至少一个第二媒体账号；基于第一媒体账号与第二媒体账号之间的账号关联特征，确定出第二媒体账号对应的溯源置信度；根据溯源置信度的排序结果，从第二媒体账号中确定出目标媒体账号。本发明专利技术解决了现有媒体账号溯源的方法效率较低的技术问题。号溯源的方法效率较低的技术问题。号溯源的方法效率较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
媒体账号的溯源方法和装置、存储介质及电子设备

[0001]本专利技术涉及计算机领域，具体而言，涉及一种媒体账号的溯源方法和装置、存储介质及电子设备。

技术介绍

[0002]随着互联网媒体的发展，不同平台上的各种媒体账号越来越多，发布的内容也越来越丰富。由于不同的媒体平台往往无法直接进行媒体内容的交流，因此在一些平台上很容易出现一些“搬运号”，专门搬运其他平台中原创媒体账号发布的媒体内容，这对媒体平台的内容生态往往会带来负面影响。针对这一问题，通常需要基于平台中出现的“搬运号”找到其他平台中对应的“原主号”，进而通过“原主号”的引进，以对“搬运号”进行适当管理，从而提升媒体平台的内容生态环境。
[0003]现有根据“搬运号”查找“原主号”的方法通常是基于“搬运号”发布的媒体内容与媒体库中每个一个媒体内容进行一一比对，进而根据内容比对结果确定出对应的“原主号”，由于媒体库中的媒体资源通常是以亿为数量级，因此这种一一比对的方法存在显著的溯源效率低的技术问题。
[0004]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种媒体账号的溯源方法和装置、存储介质及电子设备，以至少解决目前对媒体账号进行溯源时效率较低的技术问题。
[0006]根据本专利技术实施例的一个方面，提供了一种媒体账号的溯源方法，包括：获取待溯源的第一媒体账号已发布的第一媒体资源集合，其中，上述第一媒体资源集合中包括至少一个第一媒体资源；对上述第一媒体资源集合中的上述第一媒...

【技术保护点】

【技术特征摘要】
1.一种媒体账号的溯源方法，其特征在于，包括：获取待溯源的第一媒体账号已发布的第一媒体资源集合，其中，所述第一媒体资源集合中包括至少一个第一媒体资源；对所述第一媒体资源集合中的所述第一媒体资源与媒体资源库中的参考媒体资源之间进行内容特征比对；根据比对的结果确定所要召回的候选媒体资源对应的至少一个第二媒体账号，其中，所述候选媒体资源与所述第一媒体资源之间的相似度大于第一阈值；基于所述第一媒体账号与所述第二媒体账号之间的账号关联特征，确定出所述第二媒体账号对应的溯源置信度，其中，所述账号关联特征用于指示所述第二媒体账号的账号属性和所述第一媒体账号的账号属性之间的关联关系；根据所述溯源置信度的排序结果，从所述第二媒体账号中确定出目标媒体账号。2.根据权利要求1所述的方法，其特征在于，所述基于所述第一媒体账号与所述第二媒体账号之间的账号关联特征，确定出所述第二媒体账号对应的溯源置信度包括：获取所述第一媒体账号的账号属性和所述第二媒体账号的账号属性，其中，所述账号属性包括账号的等级信息及账号的发布信息；在账号溯源模型中利用所述第一媒体账号的账号属性和所述第二媒体账号的账号属性，确定媒体账号之间的所述账号关联特征，其中，所述账号溯源模型为基于原始训练样本集进行知识蒸馏训练后得到的模型；在所述账号溯源模型中基于所述账号关联特征计算出所述第二媒体账号对应的所述溯源置信度。3.根据权利要求2所述的方法，其特征在于，所述基于所述第一媒体账号与所述第二媒体账号之间的账号关联特征，确定出所述第二媒体账号对应的溯源置信度之前，还包括：获取所述原始训练样本集，其中，所述原始训练样本集中包括多个训练样本账号对的训练数据，每个所述训练样本账号对的训练数据包括每个训练样本账号各自对应的账号属性以及训练标签；利用所述原始训练样本集生成训练所需的扩充训练样本集；基于所述原始训练样本集和所述扩充训练样本集进行知识蒸馏训练，直至得到所述账号溯源模型。4.根据权利要求3所述的方法，其特征在于，所述基于所述原始训练样本集和所述扩充训练样本集进行知识蒸馏训练，直至所述账号溯源模型包括：在首次训练的情况下，利用所述原始训练样本集对当前训练中的账号溯源模型进行训练，并获取所述当前训练中的账号溯源模型的第一训练损失值；在并非首次训练的情况下，确定上一次训练所生成的参考扩充训练样本集和参考训练损失值；利用所述参考扩充训练样本集生成当前训练所需的当前扩充训练样本集，并利用所述当前扩充训练样本集和所述参考扩充训练样本集对当前训练中的账号溯源模型进行训练，获取所述当前训练中的账号溯源模型的第二训练损失值；其中，在所述第二训练损失值小于所述参考训练损失值情况下，对所述当前训练中的账号溯源模型继续训练；在所述第二训练损失值大于或等于所述参考训练损失值情况下，对得到所述参考训练损失值的账号溯
源模型继续训练；将训练损失值小于第二阈值的K个参考账号溯源模型，确定为所述账号溯源模型，其中，K为正整数。5.根据权利要求3所述的方法，其特征在于，所述利用所述训练数据集生成扩增数据集包括：在首次训练的情况下，利用所述原始训练样本集对当前训练中的账号溯源模型进行训练，并获取所述当前训练中的账号溯源模型的第一训练损失值；在并非首次训练的情况下，确定上一次训练所生成的参考扩充训练样本集和参考训练损失值；获取由所述参考扩充训练样本集中的训练样本各自对应的训练溯源置信度组成的溯源置信度数据集；利用所述参考扩充训练样本集以及所述溯源置信度数据集计算得到分布参数；基于所述分布参数和从坎贝尔分布...

【专利技术属性】
技术研发人员：安涵，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人