一种全网爱国舆情事件识别及流行度跟踪方法,首先使用网络爬虫系统爬取全网热门新闻网站和社交媒体,通过BERT模型判断话题是否与爱国主义相关,并判断发文者对国家的态度,分别计算话题在不同网站和平台的流行度,然后将相同话题的内容聚合在一起,得出此话题在全网的流行度,如果事件流行度超过阈值或者暴增,系统通过LOF算法来识别突发热点事件,并对事件持续跟踪;最后,通过收集事件相关的网络活动,在事件平息之后给出相应的事件报告。本发明专利技术可以有效识别和跟踪网络上有关爱国主义的舆情。
Identification and popularity tracking method of patriotic public opinion events in the whole network
【技术实现步骤摘要】
全网爱国舆情事件识别及流行度跟踪方法
本专利技术属于计算机技术和舆情监测领域,涉及一种基于集成方法的舆情事件识别和跟踪系统,尤其是爱国舆情事件识别及流行度跟踪方法。
技术介绍
随着互联网和智能终端设备的发展,“两微一端”被广泛使用,自媒体的时代到来了,每个个体都可以成为报道着和传话人,信息的数量以前所未有的速度膨胀着,政府机关越来越难通过网络去真正了了解公众的感受和想法。因此,设计一套系统收集和跟踪公众在一些爱国舆情事件中的态度是十分重要的。
技术实现思路
为了可以有效识别和跟踪网络上有关爱国主义的舆情,本专利技术提供了一种全网爱国舆情事件识别及流行度跟踪方法。为了解决上述技术问题,本专利技术提供如下的技术方案:一种全网爱国舆情事件识别及流行度跟踪方法,包括以下步骤:步骤1,建立全网数据采集系统,使用网络爬虫获取热门新闻网站和社交媒体内容,过程如下:1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站最后将数据聚合在一起;1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,新闻网站包括人民网、新浪新闻、新华网、凤凰资讯、腾讯新闻、网易新闻、搜狐新闻和今日头条;对新闻媒体爬取的内容有:发文时间、标题、发文内容、浏览量、评论数和评论内容;社交媒体包括新浪微博、豆瓣、知乎、微信公众号、百度贴吧、哔哩哔哩、抖音和快手;对社交网络爬取内容有:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;1.3建立基于Hadoop和MySQL关系数据库,将以上数据结构化并存入数据库;步骤2,针对在步骤1中获取的文本内容,使用预先训练的BERT模型,将文本进行分类并判断是否和爱国主义相关,并将其中和爱国主义相关的内容按话题分类存储;将话题中的文本内容通过BERT模型判断作者对国家的态度或情感,是正面、中立还是负面的,并汇总形成统计报告;步骤3,计算特定事件相关话题的流行度,过程如下:3.1在步骤2中,所有相关的爱国主义话题被统计储存在一起,每个话题在不一样的网站或平台的流行度不同,其中第i个网站中某个话题的流行度计算公式如下:其中pi(t)表示在t时刻时这一话题的流行度,ci(t)表示在t时刻时出现的这一话题相关网络行为,包括发文、评论、点赞、转发等等,Aci(t)表示在t时刻这个网站日常平均网络行为;3.2在所有网站或平台的流行度被计算以后,将流行度加总在一起就可以得到这一事件相关话题的全网流行度,计算公式为其中P(t)表示这一话题的全网流行度,n表示统计的网站或者平台的数量;步骤4,突发热点事件识别,过程如下:4.1基于时间的突发事件识别:在一般情况下,特定时间内网络行为数量应是随着在线用户数量而平缓变化的,如果突然出现活动增加或者模式变化,则可判定为突发的热点事件,使用基于局部离群因子的异常检测算法(Localoutlierfactor,LOF)方法来检测相关微博数在时间序列上的突然增长,并向用户发出通知,其中LOF是一种计算数据集中的每个点的个离群因子,通过判断LOF是否接近于1来判定是否为离群因子,公式如下:其中LOFk(p)表示p点的局部离群因子,k是可设计的参数,Nk(p)表示点p的第k距离邻域,|Nk(p)|表示p的第k邻域点的个数,lrdk(o)表示o点的局部可达密度,lrdk(p)表示p点的局部可达密度;4.2基于地域的突发热点识别:同一时间点在不同地域话题的演变规律可能会有较大的不同,有些事件是区域性而不是全国性的,通过比较一个地区与其相邻地区的话题流行度区别来识别突发热点事件的起源及影响范围;步骤5,当检测到与爱国主义相关的突发热点事件,系统会一直持续收集网络上的各种网络行为,记录从话题的爆发然后达到顶峰最后衰退的整个过程,并统计过程中的各种数据,包括参与互动的用户数量,用户的年龄段、用户的地域分布、用户对国家的支持度,最终形成最后的事件报告。本专利技术提出的方法专注于和爱国主义相关的舆情事件,在收集舆情的同时也会通过算法判断参与者的情感偏向,最终通过统计来确定事件中持正面、中立和负面情绪的公众的分布,帮助政府机关了解舆情事件导向。本专利技术的技术构思为:针对网络上存在的爱国主义舆情事件,设计方法和系统收集网络行为,通过BERT模型判断话题是否与爱国主义相关,并判断发文者对国家的态度。将不同网站和平台的相同话题聚合在一起,计算流行度并进行跟踪。本专利技术的有益效果为:通过系统识别和跟踪网络上流行的爱国舆情事件,最终形成事件报告,有助于政府理解公众对国家的态度,也有助于民族自信心的建立。附图说明图1为本专利技术的系统流程图;图2为本专利技术BERT话题判断和情感分析模块原理示意图;图3为本专利技术LOF方法原理示意图;图4为本专利技术流行度跟踪示意图。具体实施方式为了便于普通技术人员理解和实施本专利技术,下面将结合附图对本专利技术做进一步说明。参照图1~图4,一种全网爱国舆情事件识别及流行度跟踪方法,所述方法包括以下步骤:步骤1,建立全网数据采集系统,使用网络爬虫获取热门新闻网站和社交媒体内容,过程如下:1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站最后将数据聚合在一起;1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,新闻网站包括人民网、新浪新闻、新华网、凤凰资讯、腾讯新闻、网易新闻、搜狐新闻和今日头条;对新闻媒体爬取的内容有:发文时间、标题、发文内容、浏览量、评论数和评论内容;社交媒体包括新浪微博、豆瓣、知乎、微信公众号、百度贴吧、哔哩哔哩、抖音和快手;对社交网络爬取内容有:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;1.3建立基于Hadoop和MySQL关系数据库,将以上数据结构化并存入数据库;步骤2,针对在步骤1中获取的文本内容,参照图2,使用预先训练的BERT模型,将文本进行分类并判断是否和爱国主义相关,并将其中和爱国主义相关的内容按话题分类存储;将话题中的文本内容通过BERT模型判断作者对国家的态度或情感,是正面、中立还是负面的,并汇总形成统计报告;步骤3,计算特定事件相关话题的流行度,过程如下:3.1在步骤2中,所有相关的爱国主义话题被统计储存在一起,每个话题在不一样的网站或平台的流行度不同,其中第i个网站中某个话题的流行度计算公式如下:其中pi(t)表示在t时刻时这一话题的流行度,ci(t)表示在t时刻时出现的这一话题相关网络行为,包括发文、评论、点赞、转发等等,Aci(t)表示在t时刻这个网站日常平均网络行为;3.2在所有网站或平台的流行度被计算以后,将流行度加总在一起就可以得到这一事件相关话题的全网流行度,计算公式为其中P(t)表示这一话题的全网流行度,n表示统计的网站或本文档来自技高网...
【技术保护点】
1.一种全网爱国舆情事件识别及流行度跟踪方法,其特征在于,所述方法包括以下步骤:/n步骤1,建立全网数据采集系统,使用网络爬虫获取热门新闻网站和社交媒体内容,过程如下:/n1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站,最后将数据聚合在一起;/n1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,对新闻媒体爬取的内容有:发文时间、标题、发文内容、浏览量、评论数和评论内容;对社交网络爬取内容有:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;/n1.3建立基于Hadoop和MySQL关系数据库,将以上数据结构化并存入数据库;/n步骤2,针对在步骤1中获取的文本内容,使用预先训练的基BERT模型,将文本进行分类并判断是否和爱国主义相关,并将其中和爱国主义相关的内容按话题分类存储;将话题中的文本内容通过BERT模型判断作者对国家的态度或情感,是正面、中立还是负面的,并汇总形成统计报告;/n步骤3,计算特定事件相关话题的流行度,过程如下:/n3.1在步骤2中,所有相关的爱国主义话题被统计储存在一起,每个话题在不一样的网站或平台的流行度不同,其中第i个网站中某个话题的流行度计算公式如下:/n...
【技术特征摘要】
1.一种全网爱国舆情事件识别及流行度跟踪方法,其特征在于,所述方法包括以下步骤:
步骤1,建立全网数据采集系统,使用网络爬虫获取热门新闻网站和社交媒体内容,过程如下:
1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站,最后将数据聚合在一起;
1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,对新闻媒体爬取的内容有:发文时间、标题、发文内容、浏览量、评论数和评论内容;对社交网络爬取内容有:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;
1.3建立基于Hadoop和MySQL关系数据库,将以上数据结构化并存入数据库;
步骤2,针对在步骤1中获取的文本内容,使用预先训练的基BERT模型,将文本进行分类并判断是否和爱国主义相关,并将其中和爱国主义相关的内容按话题分类存储;将话题中的文本内容通过BERT模型判断作者对国家的态度或情感,是正面、中立还是负面的,并汇总形成统计报告;
步骤3,计算特定事件相关话题的流行度,过程如下:
3.1在步骤2中,所有相关的爱国主义话题被统计储存在一起,每个话题在不一样的网站或平台的流行度不同,其中第i个网站中某个话题的流行度计算公式如下:
其中pi(t)表示在t时刻时这一话题的流行度,ci(t)表示在t时刻时出现的这一话题相关网络行为,包括发文、评论、点赞、转发等等,Aci(t)表示在t时刻这个网站日常平均网络行为;
3.2在所有网...
【专利技术属性】
技术研发人员:蓝汉林,陈中天,陈汉聪,王文欢,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。