一种基于评论树的在线社交媒体新闻争议性检测方法技术

技术编号:33809039 阅读:8 留言:0更新日期:2022-06-16 10:18
一种基于评论树的在线社交媒体新闻争议性检测方法,包括:1)预设主题的新闻及评论收集,收集一段时间内每个主题中的所有新闻及其所有评论,解析为可读模式并进行整理,得到在线社交媒体新闻及评论数据集;2)提取评论树的多维度特征,对每一个新闻构建评论树,并提取评论树的多维度特征作为训练数据集;3)训练新闻争议性检测模型,将上述的训练数据集中,对于每个维度特征使用一个弱分类器进行训练,对弱分类器通过Boosting方法训练强分类器,得到新闻争议性检测模型;4)模型预测,获取待检测新闻及评论,解析为可读模式,构建评论树,提取评论树多维度特征作为输入,通过新闻争议性检测模型,得到待检测新闻的争议性检测结果。得到待检测新闻的争议性检测结果。得到待检测新闻的争议性检测结果。

【技术实现步骤摘要】
一种基于评论树的在线社交媒体新闻争议性检测方法


[0001]本专利技术涉及社交网络分析领域和数据挖掘
,并特别涉及一种在线社交媒体新闻争议性检测方法。

技术介绍

[0002]随着互联网的快速发展,公众可以根据自己的背景、立场和观点,在社交媒体上充分参与讨论多样化的主题。新浪新闻、网易新闻、今日头条等为代表的在线社交媒体凭借其自由性、开放性、丰富性成为了新闻媒体的重要组成部分。伴随着移动设备的普及,用户可以随时随地从在线社交媒体中消费信息,并且自由的参加互动,从而向其他用户表达自己的意见。用户既可以成为信息的发布者,也可以成为信息的传播者。
[0003]社交媒体中的新闻争议性检测是分析社交网络和理解人们如何参与社交互动的重要问题。因此,及时发现和监测潜在的争议主题对公民的话语和批判性素养具有宝贵而重要的影响,但同时也是对理论和技术上的挑战。
[0004]由于争议主题检测涉及动态网络分析和自然语言处理,现有方法存在局限性。例如,许多论文中提出的方法主要基于对文本内容的分析。由于自然语言的多义性以及对语言和模型的严重依赖,这些方法有一定的局限性。直观上,网络结构分析是检测争议主题最直接的方法,但是在实际应用中有一定的局限性。计算全局网络结构很复杂,并且有时很难获得全球网络信息。例如,某些社交媒体无法获取用户之间的关注关系。还有部分论文实现了新闻争议性检测,但是严格限定于特定主题,扩展性不强,实际应用价值不高。因此,我们需要探索新的方法,目的是低成本、效率高的检测争议话题,并且可以适用于不同的在线社交媒体平台。
[0005]经过调研,目前还没有成熟的在线社交媒体新闻争议性检测方法。

技术实现思路

[0006]本专利技术目的是为了解决目前在线社交媒体新闻争议性检测成本高、效率低、跨平台移植难度大的现状。
[0007]具体来说,本专利技术提出一种在线社交媒体新闻争议性检测的方法,包括一下步骤:
[0008]S1:预设主题的新闻及评论收集:从在线社交媒体的热门主题中选择争议性主题和非争议性主题,收集一段时间内每个主题中的所有新闻及其所有评论,解析为可读模式并进行整理,得到在线社交媒体新闻及评论数据集。
[0009]S2:提取评论树的多维度特征:读取上述的在线社交媒体新闻及评论数据集中的文本内容、回复关系、用户信息,根据以上信息对每一个新闻构建评论树,并提取评论树的多维度特征作为训练数据集。
[0010]S3:训练新闻争议性检测模型:将上述的训练数据集中,对于每个维度特征使用一个弱分类器进行训练,之后对这些弱分类器通过Boosting方法训练强分类器,得到新闻争议性检测模型。
[0011]S4:模型预测:对待检测的新闻,获取其新闻及评论,解析为可读模式并进行整理,根据获取的信息构建评论树,提取该待检测新闻的评论树多维度特征作为输入,通过新闻争议性检测模型,得到该待检测新闻的争议性检测结果。
[0012]进一步,步骤S1包括:
[0013]S1.1:从在线社交媒体的热门主题中筛选主题,区分为两种类型,分别是争议性主题和非争议性主题,区分的标准为该主题中的新闻是否容易引起争论,是则为争议性主题,反之则为非争议性主题;
[0014]S1.2:收集一定时间范围内在线社交媒体中上述预设主题的所有新闻及所有评论,解析为可读模式并进行整理,对每一个新闻添加所属主题的争议性作为标签,得到在线社交媒体新闻及评论数据集。
[0015]进一步,步骤S2包括:
[0016]S2.1:提取在线社交媒体新闻及评论数据集中的新闻及评论的文本内容、回复关系、用户信息;
[0017]S2.2:根据以上信息对每个新闻构建评论树;
[0018]S2.3:从每个新闻的评论树中提取以下38个特征,选取全部或者其中部分特征作为评论树的多维度特征,采用one

hot编码,分类标签为新闻所属的主题争议性,作为训练数据集,所有特征如下:
[0019]1.评论树的评论数量
[0020]2.评论树的用户数
[0021]3.边的数量
[0022]4.评论的节点度数
[0023]5.评论树节点的平均度数
[0024]6.评论树节点的最大度数
[0025]7.评论在评论树中的深度
[0026]8.评论树的平均深度
[0027]9.评论树的最大深度
[0028]10.评论树中子树的数量
[0029]11.评论树的平均子树大小
[0030]12.评论树的最大子树大小
[0031]13.评论的发布时间
[0032]14.评论树的平均回复时间间隔
[0033]15.评论树的最大回复时间间隔
[0034]16.评论树的最小回复时间间隔
[0035]17.评论文本的长度
[0036]18.评论文本内容的情感倾向
[0037]19.评论文本内容的字符数
[0038]20.评论文本内容的语气词数量
[0039]21.评论文本内容的语气词数量占该评论词数的比例
[0040]22.评论文本内容的否定词数量
[0041]23.评论文本内容的否定词数量占该评论词数的比例
[0042]24.评论文本内容的强程度词数目
[0043]25.评论文本内容的强程度词数目占该评论词数的比例
[0044]26.评论文本内容的弱程度词数目
[0045]27.评论文本内容的弱程度词数目占该评论词数的比例
[0046]28.评论文本内容的不确定程度词数
[0047]29.评论文本内容的不确定程度词数占该评论词数的比例
[0048]30.评论文本内容的转折词数
[0049]31.评论文本内容的转折词数占该评论词数的比例
[0050]32.评论文本内容的第一、二、三人称代词的数目
[0051]33.评论文本内容的第一、二、三人称代词的数目占该评论词数的比例
[0052]34.评论的点赞数
[0053]35.评论二元motif的数量
[0054]36.评论二元motif在评论树中评论节点覆盖率
[0055]37.评论二元点赞差异motif的数量
[0056]38.评论二元点赞差异motif的数量占评论二元motif的比例
[0057]进一步,步骤S3包括:
[0058]S3.1:初始化上述训练数据集中每个维度特征的权重,每个训练样本最开始都被赋予相同的权重:w
i
=1/N,这样训练数据集的初始权值分布D1(i):
[0059][0060]S3.2:对于每个维度特征选取一个当前误差率最低的弱分类器h作为第t 个基本分类器H
t
,并且计算弱分类器h
t
:X

{

1,1},该弱分类器在分布D
t
上的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在线社交媒体新闻争议性检测方法,其特征在于,包括:S1:预设主题的新闻及评论收集:从在线社交媒体的热门主题中选择争议性主题和非争议性主题,收集一段时间内每个主题中的所有新闻及其所有评论,解析为可读模式并进行整理,得到在线社交媒体新闻及评论数据集;S2:提取评论树的多维度特征:读取上述的在线社交媒体新闻及评论数据集中的文本内容、回复关系、用户信息,根据以上信息对每一个新闻构建评论树,并提取评论树的多维度特征作为训练数据集;S3:训练新闻争议性检测模型:将上述的训练数据集中,对于每个维度特征使用一个弱分类器进行训练,之后对这些弱分类器通过Boosting方法训练强分类器,得到新闻争议性检测模型;S4:模型预测:对待检测的新闻,获取其新闻及评论,解析为可读模式并进行整理,根据获取的信息构建评论树,提取该待检测新闻的评论树多维度特征作为输入,通过新闻争议性检测模型,得到该待检测新闻的争议性检测结果。2.如权利要求1所述的在线社交媒体新闻争议性检测方法,其特征在于,所述步骤S1具体包括:S1.1:从在线社交媒体的热门主题中筛选主题,区分为两种类型,分别是争议性主题和非争议性主题,区分的标准为该主题中的新闻是否容易引起争论,是则为争议性主题,反之则为非争议性主题;S1.2:收集一定时间范围内在线社交媒体中上述预设主题的所有新闻及所有评论,解析为可读模式并进行整理,对每一个新闻添加所属主题的争议性作为标签,得到在线社交媒体新闻及评论数据集。3.如权利要求1所述的在线社交媒体新闻争议性检测方法,其特征在于,所述步骤S2具体包括:S2.1:提取在线社交媒体新闻及评论数据集中的新闻及评论的文本内容、回复关系、用户信息;S2.2:根据以上信息对每个新闻构建评论树;S2.3:从每个新闻的评论树中提取以下38个特征,选取全部或者其中部分特征作为评论树的多维度特征,采用one

hot编码,分类标签为新闻所属的主题争议性,作为训练数据集,所有特征如下:1.评论树的评论数量2.评论树的用户数3.边的数量4.评论的节点度数5.评论树节点的平均度数6.评论树节点的最大度数7.评论在评论树中的深度8.评论树的平均深度9.评论树的最大深度10.评论树中子树的数量
11.评论树的平均子树大小12.评论树的最大子树大小13.评论的发布时间14.评论树的平均回复时间间隔15.评论树的最大回复时间间隔16.评论树的最小回复时间间隔17.评论文本的长度18.评论文本内容的情感倾向19.评论文本内容的字符数20.评论文本内容的语气词数量21.评论文本内容的语气词数量占该评论词数的比例22.评论文本内容的否定词数量23.评论文本内容的否定词数量占该评论词数的比例24.评论文本内容的强程度词数目25.评论文本内容的强程度词数目占该评论词数的比例26.评论文本内容的弱程度词数目27.评论文本内容的弱程度词数目占该评论词数的比例28.评论文本内容的不确定程度词数29.评论文本内容的不确定程度词数占该评论词数的比例30.评论文本内容的转折词数31.评论文本内容的转折词数占该评论词数的比例32.评论文本内容的第一、二、三人称代词的数目33.评论文本内容的第一、二、三人称代词的数目占该评论...

【专利技术属性】
技术研发人员:闵勇卫宁宣琦傅晨波龙杰
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1