媒体账号的溯源方法和装置、存储介质及电子设备制造方法及图纸

技术编号:39415038 阅读:12 留言:0更新日期:2023-11-19 16:06
本发明专利技术公开了一种媒体账号的溯源方法和装置、存储介质及电子设备。其中,该方法包括:获取待溯源的第一媒体账号已发布的第一媒体资源集合;对第一媒体资源集合中的第一媒体资源与媒体资源库中的参考媒体资源之间进行内容特征比对;根据比对的结果确定所要召回的候选媒体资源对应的至少一个第二媒体账号;基于第一媒体账号与第二媒体账号之间的账号关联特征,确定出第二媒体账号对应的溯源置信度;根据溯源置信度的排序结果,从第二媒体账号中确定出目标媒体账号。本发明专利技术解决了现有媒体账号溯源的方法效率较低的技术问题。号溯源的方法效率较低的技术问题。号溯源的方法效率较低的技术问题。

【技术实现步骤摘要】
媒体账号的溯源方法和装置、存储介质及电子设备


[0001]本专利技术涉及计算机领域,具体而言,涉及一种媒体账号的溯源方法和装置、存储介质及电子设备。

技术介绍

[0002]随着互联网媒体的发展,不同平台上的各种媒体账号越来越多,发布的内容也越来越丰富。由于不同的媒体平台往往无法直接进行媒体内容的交流,因此在一些平台上很容易出现一些“搬运号”,专门搬运其他平台中原创媒体账号发布的媒体内容,这对媒体平台的内容生态往往会带来负面影响。针对这一问题,通常需要基于平台中出现的“搬运号”找到其他平台中对应的“原主号”,进而通过“原主号”的引进,以对“搬运号”进行适当管理,从而提升媒体平台的内容生态环境。
[0003]现有根据“搬运号”查找“原主号”的方法通常是基于“搬运号”发布的媒体内容与媒体库中每个一个媒体内容进行一一比对,进而根据内容比对结果确定出对应的“原主号”,由于媒体库中的媒体资源通常是以亿为数量级,因此这种一一比对的方法存在显著的溯源效率低的技术问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种媒体账号的溯源方法和装置、存储介质及电子设备,以至少解决目前对媒体账号进行溯源时效率较低的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种媒体账号的溯源方法,包括:获取待溯源的第一媒体账号已发布的第一媒体资源集合,其中,上述第一媒体资源集合中包括至少一个第一媒体资源;对上述第一媒体资源集合中的上述第一媒体资源与媒体资源库中的参考媒体资源之间进行内容特征比对;根据比对的结果确定所要召回的候选媒体资源对应的至少一个第二媒体账号,其中,上述候选媒体资源与上述第一媒体资源之间的相似度大于第一阈值;基于上述第一媒体账号与上述第二媒体账号之间的账号关联特征,确定出上述第二媒体账号对应的溯源置信度,其中,上述账号关联特征用于指示上述第二媒体账号的账号属性和上述第一媒体账号的账号属性之间的关联关系;根据上述溯源置信度的排序结果,从上述第二媒体账号中确定出目标媒体账号。
[0007]根据本专利技术实施例的另一方面,还提供了一种媒体账号的溯源装置,包括:获取单元,用于获取待溯源的第一媒体账号已发布的第一媒体资源集合,其中,上述第一媒体资源集合中包括至少一个第一媒体资源;比对单元,用于对上述第一媒体资源集合中的上述第一媒体资源与媒体资源库中的参考媒体资源之间进行内容特征比对;第一确定单元,用于根据比对的结果确定所要召回的候选媒体资源对应的至少一个第二媒体账号,其中,上述候选媒体资源与上述第一媒体资源之间的相似度大于第一阈值;第二确定单元,用于基于上述第一媒体账号与上述第二媒体账号之间的账号关联特征,确定出上述第二媒体账号对
应的溯源置信度,其中,上述账号关联特征用于指示上述第二媒体账号的账号属性和上述第一媒体账号的账号属性之间的关联关系;第三确定单元,用于根据上述溯源置信度的排序结果,从上述第二媒体账号中确定出目标媒体账号。
[0008]根据本专利技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述媒体账号的溯源方法。
[0009]根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上媒体账号的溯源方法。
[0010]根据本专利技术实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的媒体账号的溯源方法。
[0011]在本申请实施例中,获取待溯源的第一媒体账号已发布的第一媒体资源集合;对第一媒体资源集合中的第一媒体资源与媒体资源库中的参考媒体资源之间进行内容特征比对;根据比对的结果确定所要召回的候选媒体资源对应的至少一个第二媒体账号;基于第一媒体账号与第二媒体账号之间的账号关联特征,确定出第二媒体账号对应的溯源置信度;根据溯源置信度的排序结果,从第二媒体账号中确定出目标媒体账号。从而基于内容特征比对的结果对第二媒体账号进行初筛,并根据账号之间的关联特征的计算溯源置信度,即进行精确匹配,从而快速查找得到与第一媒体账号匹配的原主账号,解决了现有媒体账号溯源的方法效率较低的技术问题。
附图说明
[0012]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0013]图1是根据本专利技术实施例的一种可选的媒体账号的溯源方法的硬件环境的示意图;
[0014]图2是根据本专利技术实施例的一种可选的媒体账号的溯源方法的流程图;
[0015]图3是根据本专利技术实施例的一种可选的媒体账号的溯源方法的示意图;
[0016]图4是根据本专利技术实施例的另一种可选的媒体账号的溯源方法的示意图;
[0017]图5是根据本专利技术实施例的又一种可选的媒体账号的溯源方法的示意图;
[0018]图6是根据本专利技术实施例的另一种可选的媒体账号的溯源装置的结构示意图;
[0019]图7是根据本专利技术实施例的另一种可选的电子设备的结构示意图。
具体实施方式
[0020]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范
围。
[0021]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0022]可以理解的是,在本申请的具体实施方式中,涉及到用户对象操作信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得标识对象的授权许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0023]根据本专利技术实施例的一个方面,提供了一种媒体账号的溯源方法,可选地,上述媒体账号的溯源方法可以但不限于应用于如图1所示的由服务器102和终端设备104所构成的媒体账号的溯源系统中。如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种媒体账号的溯源方法,其特征在于,包括:获取待溯源的第一媒体账号已发布的第一媒体资源集合,其中,所述第一媒体资源集合中包括至少一个第一媒体资源;对所述第一媒体资源集合中的所述第一媒体资源与媒体资源库中的参考媒体资源之间进行内容特征比对;根据比对的结果确定所要召回的候选媒体资源对应的至少一个第二媒体账号,其中,所述候选媒体资源与所述第一媒体资源之间的相似度大于第一阈值;基于所述第一媒体账号与所述第二媒体账号之间的账号关联特征,确定出所述第二媒体账号对应的溯源置信度,其中,所述账号关联特征用于指示所述第二媒体账号的账号属性和所述第一媒体账号的账号属性之间的关联关系;根据所述溯源置信度的排序结果,从所述第二媒体账号中确定出目标媒体账号。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一媒体账号与所述第二媒体账号之间的账号关联特征,确定出所述第二媒体账号对应的溯源置信度包括:获取所述第一媒体账号的账号属性和所述第二媒体账号的账号属性,其中,所述账号属性包括账号的等级信息及账号的发布信息;在账号溯源模型中利用所述第一媒体账号的账号属性和所述第二媒体账号的账号属性,确定媒体账号之间的所述账号关联特征,其中,所述账号溯源模型为基于原始训练样本集进行知识蒸馏训练后得到的模型;在所述账号溯源模型中基于所述账号关联特征计算出所述第二媒体账号对应的所述溯源置信度。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一媒体账号与所述第二媒体账号之间的账号关联特征,确定出所述第二媒体账号对应的溯源置信度之前,还包括:获取所述原始训练样本集,其中,所述原始训练样本集中包括多个训练样本账号对的训练数据,每个所述训练样本账号对的训练数据包括每个训练样本账号各自对应的账号属性以及训练标签;利用所述原始训练样本集生成训练所需的扩充训练样本集;基于所述原始训练样本集和所述扩充训练样本集进行知识蒸馏训练,直至得到所述账号溯源模型。4.根据权利要求3所述的方法,其特征在于,所述基于所述原始训练样本集和所述扩充训练样本集进行知识蒸馏训练,直至所述账号溯源模型包括:在首次训练的情况下,利用所述原始训练样本集对当前训练中的账号溯源模型进行训练,并获取所述当前训练中的账号溯源模型的第一训练损失值;在并非首次训练的情况下,确定上一次训练所生成的参考扩充训练样本集和参考训练损失值;利用所述参考扩充训练样本集生成当前训练所需的当前扩充训练样本集,并利用所述当前扩充训练样本集和所述参考扩充训练样本集对当前训练中的账号溯源模型进行训练,获取所述当前训练中的账号溯源模型的第二训练损失值;其中,在所述第二训练损失值小于所述参考训练损失值情况下,对所述当前训练中的账号溯源模型继续训练;在所述第二训练损失值大于或等于所述参考训练损失值情况下,对得到所述参考训练损失值的账号溯
源模型继续训练;将训练损失值小于第二阈值的K个参考账号溯源模型,确定为所述账号溯源模型,其中,K为正整数。5.根据权利要求3所述的方法,其特征在于,所述利用所述训练数据集生成扩增数据集包括:在首次训练的情况下,利用所述原始训练样本集对当前训练中的账号溯源模型进行训练,并获取所述当前训练中的账号溯源模型的第一训练损失值;在并非首次训练的情况下,确定上一次训练所生成的参考扩充训练样本集和参考训练损失值;获取由所述参考扩充训练样本集中的训练样本各自对应的训练溯源置信度组成的溯源置信度数据集;利用所述参考扩充训练样本集以及所述溯源置信度数据集计算得到分布参数;基于所述分布参数和从坎贝尔分布...

【专利技术属性】
技术研发人员:安涵
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1