【技术实现步骤摘要】
一种网络数据溯源方法、装置、电子设备及存储介质
[0001]本申请涉及计算机
,具体而言,涉及一种网络数据溯源方法、装置、电子设备及存储介质。
技术介绍
[0002]现阶段,用户获取信息的手段越来越多,信息来源包括例如报纸、杂志等传统媒体,例如新闻门户网站、社交论坛和论坛等网络资源。随着电子产品的快速发展,网络信息逐渐成为人们获取信息的重要手段,而对网络信息进行溯源则是防止抄袭、挖掘隐藏数据的重要途径。
[0003]目前,现有数据溯源方法采用计算待溯源数据与全量历史数据之间的文本相似度来获取待溯源数据的溯源结果,计算量较大,溯源效率低。
技术实现思路
[0004]本申请实施例的目的在于提供一种网络数据溯源方法、装置、电子设备及存储介质,用以改善网络数据溯源效果。
[0005]第一方面,本申请实施例提供一种网络数据溯源方法,包括:通过预设溯源信息提取模板提取待溯源数据的溯源信息;若提取到所述溯源信息,则通过所述溯源信息对所述待溯源数据进行溯源;若未提取到所述溯源信息,则将所述待溯源数据与历 ...
【技术保护点】
【技术特征摘要】
1.一种网络数据溯源方法,其特征在于,包括:通过预设溯源信息提取模板提取待溯源数据的溯源信息;若提取到所述溯源信息,则通过所述溯源信息对所述待溯源数据进行溯源;若未提取到所述溯源信息,则将所述待溯源数据与历史数据进行增量聚类,获取所述待溯源数据的聚类结果;根据所述聚类结果,对所述待溯源数据进行溯源。2.根据权利要求1所述的网络数据溯源方法,其特征在于,所述通过预设溯源信息提取模板提取待溯源数据的溯源信息,包括:通过预设溯源信息提取模板在待溯源数据中提取溯源关键词;基于所述溯源关键词,确定所述待溯源数据的溯源信息。3.根据权利要求1所述的网络数据溯源方法,其特征在于,所述通过所述溯源信息对所述待溯源数据进行溯源,包括:确定所述溯源信息所对应的溯源数据;计算所述待溯源数据与所述溯源数据之间的第一相似度,若所述第一相似度大于预设第一相似度阈值,则将所述溯源数据确定为所述待溯源数据的源头数据;若所述第一相似度不大于所述预设第一相似度阈值,则将所述待溯源数据与历史数据进行增量聚类,获取所述待溯源数据的聚类结果,根据所述聚类结果,对所述待溯源数据进行溯源。4.根据权利要求1或3所述的网络数据溯源方法,其特征在于,所述将所述待溯源数据与历史数据进行增量聚类,获取所述待溯源数据的聚类结果,包括:将所述历史数据进行预聚类,获得预聚类中心;计算所述待溯源数据与各个预聚类中心之间的距离,确定最小距离所对应的预聚类中心为目标聚类中心;若所述最小距离小于预设距离阈值,则将所述待溯源数据划归到目标聚类中心,获得聚类结果。5.根据权利要求4所述的网络数据溯源方法,其特征在于,所述将所述待溯源数据与历史数据进行增量聚类,获取所述待溯源数据的聚类结果,还包括:若所述最小距离不小于预设距离阈值,则...
【专利技术属性】
技术研发人员:姜勇越,王菲,王建华,
申请(专利权)人:重庆赛迪奇智人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。