【技术实现步骤摘要】
一种基于SQ
‑
LDA主题模型的交通安全舆情分析方法
[0001]本专利技术涉及数据挖掘
,尤其涉及一种基于SQ
‑
LDA主题模型的交通安全舆情分析方法。
技术介绍
[0002]随着社交媒体的快速发展,各社交网络平台已经成为公众获取和发布各种舆情相关信息的重要渠道。交通运输是经济社会发展的“先行官”,近年来交通与大数据、人工智能等新兴技术的融合,及智慧交通的深入推进,交通安全事件在社交网络平台上广泛传播,形成交通安全网络舆情。
[0003]为有效探究交通安全网络舆情,国内外各方学者提出了各种概率主题模型。当前概率主题模型目前有两种:概率潜在语义分析模型(PLSA)和传统的潜在狄利克雷分布(LDA)主题模型。其中,PLSA模型通常运用EM算法对模型进行求解,其虽然已给出语义信息,但该语义信息不能解释文本一词多义性,且运算量较大,对主题信息的理解不够直观。而传统的LDA主题模型在PLSA模型的基础上加入狄利克雷先验分布,有效地解决了上述大规模文本集中出现的一词多义性问题。 >[0004]由于语本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于SQ
‑
LDA主题模型的交通安全舆情分析方法,其特征在于,包括以下步骤:S1、获取交通安全社交软件舆情数据;S2、预处理交通安全社交软件舆情数据;S3、利用SQ
‑
LDA主题模型进行特征主题提取;S4、可视化交通安全社交软件舆论热点。2.根据权利要求1所述的一种基于SQ
‑
LDA主题模型的交通安全舆情分析方法,其特征在于,所述步骤S1具体包括以下步骤:S1.1、在社交软件搜索框中搜索关于“交通安全”的话题,获取对应内容的网络链接url;S1.2、利用Python工具,引入requests模块并封装网络链接url,向服务器请求数据Data;S1.3、将Data封装为json数据,并定义为Data_json;S1.4、获取Data_json数据集中各“交通安全”话题下的舆论内容;S1.5、引入BeautifulSoup模块,将抓取的舆论内容解析为对象进行处理,共爬取了10000条关于“交通安全”的评论数据;S1.6、得到原始舆情数据集Text。3.根据权利要求1所述的一种基于SQ
‑
LDA主题模型的交通安全舆情分析方法,其特征在于,所述步骤S2具体包括以下步骤:S2.1、定义原始舆情数据集Text,即:Text={text1,text2,
…
,text
10000
}其中text
i
为第i(i=1,2,
…
,10000)条评论内容数据;S2.2、判断下标i是否满足i≤10000;如果满足i≤10000,则进入S2.3;如果不满足i≤10000,则进入S2.5;S2.3、对原始舆情数据集Text进行数据清洗;读取text
i
数据,利用特殊符号定位评论内容数据的有效评论位置,去除无意义表情符、名称、首尾标点、颜文字、网址;S2.4、建立停用表S,删除text
i
数据中的无效文字,并进入S2.2;S2.5、得到清洗后的重组舆情数据集CText。4.根据权利要求1所述的一种基于SQ
‑
LDA主题模型的交通安全舆情分析方法,其特征在于,所述步骤S3具体包括以下步骤:S3.1、定义清洗后的重组舆情数据集CText,即:CText={ctext1,ctext2,
…
,ctext
9823
}其中,ctext
i
为清洗后的第i(i=1,2,
…
,9823)条评论内容数据;S3.2、利用jieba分词工具对ctext
i
进行分词;S3.3、定义ctext
i
中的关键词w
ij
(1≤j≤m),m为每条评论数据的关键词个数;S3.4、导入停用表S;S3.5、判断下标i是否满足i≤10000;如果满足i≤10000,则进入S3.6;如果不满足i≤10000,则进入S3.8;S3.6、判断下标j是否满足j≤m;如果满足j≤m,则进入S3.7;如果不满足j≤m,则进入S3.5;
S3.7、判断关键词w
ij
是否是停用词,并返回至S3.6;若关键词w
ij
是停用词,则删除该关键词;反之则保留该关键词。S3.8、得到关键词表Key,定义Key={key1,key2,
…
,key
9789
},其中key
i
为第i条评论数据的关键词组,且key
i
={w
i1
,w
i2
,
…
,w
im
};S3.9、假设有k个关于“交通安全”的主题Topic
t
(t=1,2,
…
,k);S3.10、循环遍历关键词表Key,给每个关键词w
ij
分配一个主题Topic
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。