一种利用数据模型推演社会事件的分析方法技术

技术编号:39426803 阅读:7 留言:0更新日期:2023-11-19 16:13
本发明专利技术提供一种利用数据模型推演社会事件的分析方法

【技术实现步骤摘要】
一种利用数据模型推演社会事件的分析方法


[0001]本专利技术涉及社会分析领域,尤其涉及一种利用数据模型推演社会事件的分析方法


技术介绍

[0002]网络舆论是社会舆论在互联网上的一种映射,可以反映当前社会中群众普遍关心的社会问题的程度,例如突发事件,司法问题,经济问题等,通过对网络舆论的分析可以更有效地指定解决社会问题的方案社交平台逐渐成为热点事件社会情绪的集散地,准确分析民众的社会情绪是热点事件舆情监管的重要环节,由于热点事件的突发型,导致不能第一时间准确的了解到时间的舆论导向,可能会得到与社会事件完全不相关的结果

[0003]因此,有必要提供一种利用数据模型推演社会事件的分析方法解决上述技术问题


技术实现思路

[0004]本专利技术提供一种利用数据模型推演社会事件的分析方法,解决了由于热点事件的突发型,导致不能第一时间准确的了解到时间的舆论导向,可能会得到与社会事件完全不相关的结果的问题

[0005]为解决上述技术问题,本专利技术提供的一种利用数据模型推演社会事件的分析方法,包括以下步骤:
[0006]步骤一

大数据获取,采集突发事件的信息,通过网络爬虫自动爬取在线评论数据;
[0007]步骤二

对在线评论数据进行预处理,将其存储到数据库中;
[0008]步骤三

采集信息特征并构建突发事件的关键时空特征模型;
[0009]步骤四
、<br/>对突发事件进行社会情绪分类

[0010]进一步地,步骤二中对在线评论数据进行预处理具体方式为:
[0011]A、
使用正则表达式过滤评论中以“http://”开头的短链接;
[0012]B、
本文采用的是
Java
开源的
j ieba
中文分词工具,进行分词;
[0013]C、
将评论中语气词看成是停用词,将其删除

[0014]进一步地,步骤三具体为:
[0015]a、
对数据库中处理后的评论数据进行词频统计和词性分析;
[0016]b、
通过算法对语义相近的语句识别情绪高频词汇,算法方式为:
[0017]Degree(D,Cj)

∑belong(wi,Dic(Cj))
×
tfwi
[0018]belong(wi,Dic(Cj)

(1,ifwi∈Di(Cj)
[0019]D
经过分词和预处理后可以表示为
D

{w1,tfw1

w2,tfw2


wn,tfwn}
,其中
wi
是评论中包含的词,
tfwi

wi

D
中的词频,那么评论
D
属于
Cj(1≤j≤8)
类情绪的度量值
Degree(D,Cj)
采用公式
(1)
计算,其中
Dic(Cj)
表示情绪类
Cj
的情绪词典;
[0020]通过上述公式得到了
D
属于每个情绪类的度量值后,取得最大度量值的情绪类即为
D
最终所属的情绪类别
Category(D)

:
[0021]Category(D)

MaxC(Degree(D,Cj))
[0022]进一步地,所述步骤四的具体方法为:
[0023]1)、
统计语料中正负类的文档个数分别为
N1、N2

[0024]2)、
统计每个词在正类文档中出现的频率记为
A,
在负类文档中出现的频率记为
B
,正类文档不出现的频率记为
C
,负类文档不出现的频率记为
H

[0025]3)、
计算信息量;
[0026][0027]4)、
计算新闻语料中的每个词语或词组的信息增益值;
[0028][0029]5)、
将新闻语料中的每个词语或词组的信息增益值从大到小进行排列,选取前
Y
个词作为特征,
Y
即为特征的维数

[0030]5、
根据权利要求1所述的一种利用数据模型推演社会事件的分析方法,其特征在于,所述步骤四采用支持向量机

决策树和逻辑回归三类算法实现社会情绪分类,分类过程中主要使用了词特征

词性特征以及主题特征

[0031]与相关技术相比较,本专利技术提供的利用数据模型推演社会事件的分析方法具有如下有益效果:
[0032]本专利技术提供一种利用数据模型推演社会事件的分析方法,通过,首先从网络文本大数据获取

数据预处理

社会情绪分类体系

情感词典构建以及社会情绪分类等模块搭建了社会情绪分析模型,能够准确率对整个事件处理流程的效果起着关键作用,解决了由于热点事件的突发型,导致不能第一时间准确的了解到时间的舆论导向,可能会得到与社会事件完全不相关的结果的问题

附图说明
[0033]图1为本专利技术提供的一种利用数据模型推演社会事件的分析方法的方法图

具体实施方式
[0034]下面结合附图和实施方式对本专利技术作进一步说明

[0035]请结合参阅图1所示,一种利用数据模型推演社会事件的分析方法,其特征在于,包括以下步骤:步骤一

大数据获取,采集突发事件的信息,通过网络爬虫自动爬取在线评论数据;步骤二

对在线评论数据进行预处理,将其存储到数据库中;步骤三

采集信息特征并构建突发事件的关键时空特征模型;步骤四

对突发事件进行社会情绪分类

[0036]本专利技术步骤二中对在线评论数据进行预处理具体方式为:
A、
使用正则表达式过滤评论中以“http://”开头的短链接;
B、
本文采用的是
Java
开源的
j ieba
中文分词工具,进行分词;
C、
将评论中语气词看成是停用词,将其删除

[0037]本专利技术步骤三具体为:
a、
对数据库中处理后的评论数据进行词频统计和词性分
析;
b、
通过算法对语义相近的语句识别情绪高频词汇,算法方式为:
[0038]Degree(D,Cj)

∑belong(w本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种利用数据模型推演社会事件的分析方法,其特征在于,包括以下步骤:步骤一

大数据获取,采集突发事件的信息,通过网络爬虫自动爬取在线评论数据;步骤二

对在线评论数据进行预处理,将其存储到数据库中;步骤三

采集信息特征并构建突发事件的关键时空特征模型;步骤四

对突发事件进行社会情绪分类
。2.
根据权利要求1所述的一种利用数据模型推演社会事件的分析方法,其特征在于,步骤二中对在线评论数据进行预处理具体方式为:
A、
使用正则表达式过滤评论中以“http://”开头的短链接;
B、
本文采用的是
Java
开源的
jieba
中文分词工具,进行分词;
C、
将评论中语气词看成是停用词,将其删除
。3.
根据权利要求1所述的一种利用数据模型推演社会事件的分析方法,其特征在于,步骤三具体为:
a、
对数据库中处理后的评论数据进行词频统计和词性分析;
b、
通过算法对语义相近的语句识别情绪高频词汇,算法方式为:
Degree(D,C
j
)

∑belong(w
i
,Dic(C
j
))
×
tf
wi
belong(wi,Dic(Cj)

(1,if wi∈Di(Cj)D
经过分词和预处理后可以表示为
D

{w1,tfw1

w2,tfw2


wn,tfwn}
,其中
wi
是评论中包含的词,
tf...

【专利技术属性】
技术研发人员:范荣超王明李晓东郭文辉单梦娇
申请(专利权)人:北京新方案科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1