一种自媒体信息源并行追踪方法技术

技术编号:33701725 阅读:17 留言:0更新日期:2022-06-06 08:12
本发明专利技术公开了一种自媒体信息源并行追踪方法,包括以下步骤:S1:获取要追踪的自媒体发布的信息;S2:提取关键信息,并合成信息集;S3:对自媒体发布的信息进行逐级追踪,并根据信息集确定若干信息源;S4:对若干信息源进行判定,得到最终唯一的信息源。本发明专利技术方法提取要追踪的事件信息的关键信息,并合成信息集,进行逐级跨平台追踪,锁定若干信息源,最终确定出唯一信息源,克服了现有技术的仅限于某个平台内的信息源追踪的问题;本发明专利技术对同一事件信息的多条发布信息进行并行追踪,在对每条发布信息进行反追踪时就可以用最短的时间快速的确定指向的同一个信息源,缩短追踪时间,大大提高效率。效率。效率。

【技术实现步骤摘要】
一种自媒体信息源并行追踪方法


[0001]本专利技术涉及自媒体信息领域,尤其是指一种自媒体信息源并行追踪方法。

技术介绍

[0002]近年来,随着自媒体和移动互联网在世界范围内的迅速普及和蓬勃发展,实时的互联网络在人们的日常生活中越来越普遍。在这种实时快速更新的宏大自媒体信息流中,很多信息具有虚假性和盲目性,如何从大量的信息中找出信息的源头是很值得研究的。
[0003]目前,现有技术一般都是针对某个平台内的信息追踪,例如,一种在中国专利文献上公开的“微博信息追踪方法和微博信息追踪装置”,其公告号CN103984729A,其中微博信息追踪方法包括预设训练集合,其中,训练集合包括至少一个话题、前景语料和背景语料,前景语料为在话题发生的时间戳之后发布的信息,背景语料为在话题发生的时间戳之前发布的微博信息;获取话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于训练集合的特征集合;根据特征集合训练生成话题追踪模型;使用话题追踪模型对需进行追踪的微博信息进行追踪。该专利技术虽然能够从海量的实时微博信息流中过滤出与话题相关的微博信息,提高话题追踪的准确率。但仅限于微博平台内,且该专利技术只是过滤出相关的微博信息,并不能实现最终信息源的追踪。

技术实现思路

[0004]本专利技术是为了克服现有技术的仅限于某个平台内的信息源追踪且只是过滤出相关的事件信息无法实现最终信息源追踪的问题,提供一种自媒体信息源并行追踪方法。
[0005]为了实现上述目的,本专利技术采用以下技术方案:一种自媒体信息源并行追踪方法,包括以下步骤:S1:获取要追踪的自媒体发布的信息;S2:提取关键信息,并合成信息集;S3:对自媒体发布的信息进行逐级追踪,并根据信息集确定若干信息源;S4:对若干信息源进行判定,得到最终唯一的信息源。本专利技术方法提取要追踪的事件信息的关键信息,并合成信息集,进行逐级跨平台追踪,锁定若干信息源,最终确定出唯一信息源,克服了现有技术的仅限于某个平台内的信息源追踪的问题。
[0006]作为本专利技术的优选方案,所述S1具体为:获取要追踪的自媒体发布的信息N条,其中N为正整数,将这获取的N条信息定义为本级信息,并获取每条本级信息的发布平台和发布账号。本专利技术对同一事件信息的多条发布信息进行并行追踪,由于每条发布信息其传播路径都不仅相同,在对每条发布信息进行反追踪时的途径也不尽相同,会出现多条发布信息追踪的结果都指向同一个信息源,虽然最终结果都是指向同一个信息源,但针对不同的传播路径,反追踪时所用的时间会有所不同,在对每条发布信息进行反追踪时就可以用最短的时间快速的确定指向的同一个信息源,缩短追踪时间,大大提高效率。
[0007]作为本专利技术的优选方案,所述N条信息为记载同一事件信息的不同表现形式,所述表现形式包括文字信息、图片信息、视频信息、文字图片混合信息、文字视频混合信息、图片视频混合信息和文字图片视频混合信息。人的思维是发散的,在对事件信息进行发布或转
载时,都会根据个人意向对发布信息进行修饰或整改,本专利技术针对时间信息的表现形式包括文字、图片、视频与其各种混合形式,选取的要追踪的自媒体发布的N条信息形式丰富多样,可以很大程度上保证信息源追踪的可靠性。
[0008]作为本专利技术的优选方案,所述S2具体为:提取N条本级信息的关键信息,根据关键信息合成信息集,所述关键信息包括:该本级信息的发布时间、关键字、视频时长和图片信息,所述图片信息可用图片信息提取器获取。因N条信息为记载同一事件信息的不同表现形式,有的可能是发布的视频信息,有的可能是发布的文字信息,有的可能是发布的图片信息,亦或者是混合信息,针对每条信息单独设置追踪所需的信息集显然不合适,因为在自媒体如此普及的时代,N条本级信息的量往往是很庞大的,因此将这N条本级信息的关键信息统一合成一个信息集,根据该信息集确定信息源,方便且效率更高。
[0009]作为本专利技术的优选方案,所述S3具体为:获取访问权限,查询每条本级信息的上一级发布源,并将本级信息的上一级发布源信息定义为上级信息,根据本级信息的信息集对上级信息进行相似判定,若判定结果为该本级信息与对应的上级信息为同一事件信息,则将本级信息重新定义为下级信息,将上级信息重新定义为本级信息,获取该本级信息的发布平台和发布账,号返回继续执行S3;若判定结果为该本级信息与对应的上级信息不是同一事件信息,则判定该本级信息为信息源之一,获取该本级信息的发布时间戳,完成全部本级信息的追踪和判定,共得到n条信息源,其中n≤N。本专利技术获取访问权限,指的是发布本级信息和上级信息的平台的访问权限,只有获得平台的访问权限,才能实现对自媒体发布的信息进行逐级追踪,得到若干信息源,由于会出现多条发布信息追踪的结果都指向同一个信息源,因此最终得到的n条信息源会是小于或等于最初要追踪的自媒体发布的信息的条数,在得到n条信息源后,根据这n条信息源的发布时间戳确定最终的惟一的信息源。
[0010]作为本专利技术的优选方案,所述S4具体为:根据n条信息源的发布时间戳,选择发布时间最早的信息源,该信息源即最终的信息源。信息源的源头一定是发布时间最早的,因此根据时间信息的发布时间来确定最终的信息源很合理。
[0011]因此,本专利技术具有以下有益效果:本专利技术方法提取要追踪的事件信息的关键信息,并合成信息集,进行逐级跨平台追踪,锁定若干信息源,最终确定出唯一信息源,克服了现有技术的仅限于某个平台内的信息源追踪的问题;本专利技术对同一事件信息的多条发布信息进行并行追踪,在对每条发布信息进行反追踪时就可以用最短的时间快速的确定指向的同一个信息源,缩短追踪时间,大大提高效率。
附图说明
[0012]图1是本专利技术的方法流程图;图2是本专利技术的S3的步骤流程图。
具体实施方式
[0013]下面结合附图与具体实施方式对本专利技术做进一步的描述。
[0014]如图1所示的一种自媒体信息源并行追踪方法,包括:S1:针对某一事件获取自媒体平台上发布的事件信息,可以是在同一平台上获取,也可以是在不同平台上获取,将这些信息定义为本级信息,获取这些本级信息所发布的平台名称和发布账号的信息。例如,针对

某奔驰车主醉酒驾驶拖行交警行驶500米致交警死亡”这一事件,从微博、今日头条、微信、抖音等多个平台上获取50条此事件相关的发布信息,并获取发布此事件相关信息的个人账户的公开信息,包括账号名称等,将这50条此事件相关的发布信息设定为本级信息。
[0015]S2:对本级信息进行关键信息提取,关键信息包括关键字、图片特征、发布时间、视频时长等,将这些关键信息合并成信息集。例如,对上面获取的50条本级信息的关键信息,关键字包括“奔驰车主、醉驾、酒驾、拖行交警、500米、致死”等,本级信息附有图片的,对图片实用图片信息提取器获取相关信息,本级信息附有视频的,记录视频的时长,如有多个时长不一的视频,则取时间最长和时间最短的作为时间区域范围,如15秒~90秒,记录发布时间,发布时间则是这50条本级信息在各个平台上各自的发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自媒体信息源并行追踪方法,其特征是,包括以下步骤:S1:获取要追踪的自媒体发布的信息;S2:提取关键信息,并合成信息集;S3:对自媒体发布的信息进行逐级追踪,并根据信息集确定若干信息源;S4:对若干信息源进行判定,得到最终唯一的信息源。2.根据权利要求1所述的一种自媒体信息源并行追踪方法,其特征是,所述 S1具体为:获取要追踪的自媒体发布的信息N条,其中N为正整数,将这获取的N条信息定义为本级信息,并获取每条本级信息的发布平台和发布账号。3.根据权利要求2所述的一种自媒体信息源并行追踪方法,其特征是,所述N条信息为记载同一事件信息的不同表现形式,所述表现形式包括文字信息、图片信息、视频信息、文字图片混合信息、文字视频混合信息、图片视频混合信息和文字图片视频混合信息。4.根据权利要求2或3所述的一种自媒体信息源并行追踪方法,其特征是,所述S2具体为:提取N条本级信息的关键信息,根据关键信息合成信息集,所述关键...

【专利技术属性】
技术研发人员:李薇李光辉
申请(专利权)人:浙江光辉工具有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1