综合多模型的网络热点话题传播模式分类方法及系统技术方案

技术编号:38281676 阅读:13 留言:0更新日期:2023-07-27 10:29
本发明专利技术公开了一种综合多模型的网络热点话题传播模式分类方法,其包括以下步骤:步骤一、收集平台t时间段内的目标热点话题的帖子数据;步骤二、基于帖子数据计算帖子基本维度信息;步骤三、绘制关于时间

【技术实现步骤摘要】
综合多模型的网络热点话题传播模式分类方法及系统


[0001]本专利技术涉及数据挖掘
更具体地说,本专利技术涉及一种综合多模型的网络热点话题传播模式分类方法及系统。

技术介绍

[0002]随着社交网络的不断发展,人与人之间的具体不断拉近,话题的传播速度也越来越快。特别是目前互联网已经成为了话题交流的聚集地,人们在互联网上可以随时随地发表想法、转发话题或评论事件。但由于用户偏好、话题特点等因素的不同,不同话题在互联网上的流通速度、参与用户及发展态势是不同的,这就给很多用户带来一个问题,如何才能知道一个话题的热度情况以及传播的模式,从而帮助判断某个话题是否值得关注或得知大家对该话题的关注程度。因此,针对以上问题,找到一种科学地、合理地、适应性强的方法,对社交媒体上的各种话题的传播模式进行分类和判断具有较强的实际意义。
[0003]近些年来,网络话题传播途径发生了天翻地覆的变化,相较于以前具有相应迅速、传播速度快、传播渠道广、平台多元化等特点,目前国内的微博,国外的平台等是其中重要的话题传播平台,平台上的热搜、热点等都是多数人关心的话题,因此判断话题的传播模式不能仅仅在一个平台上有效,能够扩展应用到多个数据源中也是重要的问题,如此才能对满足更为复杂的需求。

技术实现思路

[0004]本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
[0005]本专利技术还有一个目的是提供一种综合多模型的网络热点话题传播模式分类方法,其创新性地将话题的传播模式分类为正常传播、扩散传播和抑制传播,并构建了一种普适的网络热点话题传播模式识别分类方法,能够有效地判断话题的传播类型,即使在话题部分维度数据缺失的情况下仍然具有较好的分类结果。
[0006]为了实现根据本专利技术的这些目的和其它优点,提供了一种综合多模型的网络热点话题传播模式分类方法,其包括以下步骤:
[0007]步骤一、收集平台t时间段内的目标热点话题的帖子数据;
[0008]步骤二、基于帖子数据计算帖子基本维度信息,其包括帖子总数量,转发帖数量、原创帖数量、炒作帖数量、转发帖占比、原创帖占比和炒作帖占比;
[0009]步骤三、基于帖子基本维度信息,统计单位时间段t1内帖子数量,并绘制关于时间

帖子数量的话题热度变化曲线;
[0010]步骤四、提取目标热点话题的竞争性话题,并计算竞争性话题数量;
[0011]步骤五、基于帖子数据,量化目标热点话题的传播角色的信息,具体为:计算目标热点话题的各类传播角色对应的人数,传播角色包括话题始发者、主要传播者、观点引导者和传播跟随者;
[0012]步骤六、基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播
角色对应的人数,通过漏斗模型和网络模型,进行目标热点话题的传播模式识别分类。
[0013]优选的是,所述的综合多模型的网络热点话题传播模式分类方法,网络模型由RandomForestClassifier、LightGBM、XGBoost、LogisticRegression四种基础模型融合得到。
[0014]优选的是,所述的综合多模型的网络热点话题传播模式分类方法,步骤六、具体包括:
[0015]S61、基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型层层过滤,进行目标热点话题的传播模式识别分类;若漏斗模型识别分类得到了目标热点话题的传播模式的第一结果,则进入S62,否则无结果进入S63;
[0016]S62、第一结果作为识别分类结果进行输出;
[0017]或以帖子基本维度信息、竞争性话题数量和各类传播角色对应的人数作为输入至网络模型中,得到四个基础模型对应的目标热点话题的传播模式的四个第二结果;将第一结果与四个第二结果按各类传播模式进行分类并统计各类传播模式对应的数量,选择数量最多的传播模式作为最终的识别分类结果进行输出;
[0018]S63、以帖子基本维度信息、竞争性话题数量和各类传播角色对应的人数作为输入至网络模型中,得到四个基础模型对应的目标热点话题的传播模式的四个第三结果;将四个第三结果按各类传播模式进行分类并统计各类传播模式对应的数量,选择数量最多的传播模式作为最终的识别分类结果进行输出。
[0019]优选的是,所述的综合多模型的网络热点话题传播模式分类方法,还包括:
[0020]步骤七、通过漏斗模型对目标热点话题的传播模式的特征进行描述,具体包括:
[0021]步骤71、通过漏斗模型获取目标热点话题热度特征描述:若目标热点话题帖子总数量b<0.1a,则目标热点话题热度特征描述为热度极低,若0.1a≤b<a,则目标热点话题热度特征描述为热度偏低,若a≤b<4a,则目标热点话题热度特征描述为热度较高,若4a≤b,则目标热点话题热度特征描述为热度极高;a为预设帖子数量阈值;
[0022]步骤72、通过漏斗模型获取目标热点话题帖子位置特征描述:将目标热点话题帖子发帖地区进行分类,并统计各个发帖地区对应的帖子数量,若存在三个发帖地区对应的帖子数量的总和大于目标热点话题帖子总数量,则目标热点话题帖子位置特征描述为帖子位置分布不均衡,否则描述为帖子位置分布均衡;
[0023]步骤73、通过漏斗模型获取目标热点话题传播角色信息特征描述:目标热点话题的各类传播角色对应的人数作为特征进行描述;
[0024]步骤74、将目标热点话题的传播模式的特征描述,随识别分类结果一并输出。
[0025]优选的是,所述的综合多模型的网络热点话题传播模式分类方法,步骤S61中基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型层层过滤,进行目标热点话题的传播模式识别分类,具体为:
[0026]S610、基于帖子基本维度信息,计算平均帖子数量d,基于话题热度变化曲线,获取曲线斜率最小点以及与其相邻的下一个点对应的帖子数量e和f,若(f

e)>3d,同时与曲线斜率最小点相邻的下一个点后面连续n个点的帖子数量均不大于f,则识别分类得到了目标热点话题的传播模式为抑制传播并作为第一结果,否则无结果;其中,d=N/(t/t1),N为帖子总数量;
[0027]S611、计算平均竞争性话题数量h,计算预设时间阈值内竞争性话题数量i,若i>3h,则识别分类得到了目标热点话题的传播模式为抑制传播并作为第一结果,否则无结果;
[0028]S612、若S610和S611其中一个得到第一结果,则结束过滤,否则进入S613;
[0029]S613、若转发帖占比大于第一比例阈值或/和若炒作帖占比大于第二比例阈值,则识别分类得到了目标热点话题的传播模式为扩散传播并作为第一结果,若话题原创帖占比大于第三比例阈值,则识别分类得到了目标热点话题的传播模式为正常传播并作为第一结果,则否则无结果。
[0030]优选的是,所述的综合多模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.综合多模型的网络热点话题传播模式分类方法,其特征在于,包括以下步骤:步骤一、收集平台t时间段内的目标热点话题的帖子数据;步骤二、基于帖子数据计算帖子基本维度信息,其包括帖子总数量,转发帖数量、原创帖数量、炒作帖数量、转发帖占比、原创帖占比和炒作帖占比;步骤三、基于帖子基本维度信息,统计单位时间段t1内帖子数量,并绘制关于时间

帖子数量的话题热度变化曲线;步骤四、提取目标热点话题的竞争性话题,并计算竞争性话题数量;步骤五、基于帖子数据,量化目标热点话题的传播角色的信息,具体为:计算目标热点话题的各类传播角色对应的人数,传播角色包括话题始发者、主要传播者、观点引导者和传播跟随者;步骤六、基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型和网络模型,进行目标热点话题的传播模式识别分类。2.如权利要求1所述的综合多模型的网络热点话题传播模式分类方法,其特征在于,网络模型由RandomForestClassifier、LightGBM、XGBoost、LogisticRegression四种基础模型融合得到。3.如权利要求2所述的综合多模型的网络热点话题传播模式分类方法,其特征在于,步骤六、具体包括:S61、基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型层层过滤,进行目标热点话题的传播模式识别分类;若漏斗模型识别分类得到了目标热点话题的传播模式的第一结果,则进入S62,否则无结果进入S63;S62、第一结果作为识别分类结果进行输出;或以帖子基本维度信息、竞争性话题数量和各类传播角色对应的人数作为输入至网络模型中,得到四个基础模型对应的目标热点话题的传播模式的四个第二结果;将第一结果与四个第二结果按各类传播模式进行分类并统计各类传播模式对应的数量,选择数量最多的传播模式作为最终的识别分类结果进行输出;S63、以帖子基本维度信息、竞争性话题数量和各类传播角色对应的人数作为输入至网络模型中,得到四个基础模型对应的目标热点话题的传播模式的四个第三结果;将四个第三结果按各类传播模式进行分类并统计各类传播模式对应的数量,选择数量最多的传播模式作为最终的识别分类结果进行输出。4.如权利要求3所述的综合多模型的网络热点话题传播模式分类方法,其特征在于,还包括:步骤七、通过漏斗模型对目标热点话题的传播模式的特征进行描述,具体包括:步骤71、通过漏斗模型获取目标热点话题热度特征描述:若目标热点话题帖子总数量b<0.1a,则目标热点话题热度特征描述为热度极低,若0.1a≤b<a,则目标热点话题热度特征描述为热度偏低,若a≤b<4a,则目标热点话题热度特征描述为热度较高,若4a≤b,则目标热点话题热度特征描述为热度极高;a为预设帖子数量阈值;步骤72、通过漏斗模型获取目标热点话题帖子位置特征描述:将目标热点话题帖子发帖地区进行分类,并统计各个发帖地区对应的帖子数量,若存在三个发帖地区对应的帖子数量的总和大于目标热点话题帖子总数量,则目标热点话题帖子位置特征描述为帖子位置
分布不均衡,否则描述为帖子位置分布均衡;步骤73、通过漏斗模型获取目标热点话题传播角色信息特征描述:目标热点话题的各类传播角色对应的人数作为特征进行描述;步骤74、将目标热点话题的传播模式的特征描述,随识别分类结果一并输出。5.如权利要求4所述的综合多模型的网络热点话题传播模式分类方法,其特征在于,步骤S61中基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型层层过滤,进行目标热点话题的传播模式识别分类,具体为:S610、基于帖子基本维度信息,计算平均帖子数量d,基于话题热度变化曲线,获取曲线斜率最小...

【专利技术属性】
技术研发人员:张丽张旭张翔宇王鹏陈彤
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1