【技术实现步骤摘要】
一种基于关键词词频统计的舆情趋势分析方法和系统
[0001]本专利技术涉及数据存储及分析的
,尤其是一种基于关键词词频统计的舆情趋势分析方法和系统。
技术介绍
[0002]随着互联网的高速发展,网络活跃用户数量也在不断攀升,各类网络社交网站成为了主要的舆论环境。人们会在各类社交应用上分享观点,讨论热点信息。由于网络传播速度快,容易在短时间内形成巨大的舆论压力,造成不良的社会影响。因此,利用技术手段收集社交网络信息,在海量数据中分析和提取出有用信息,能及时了解热点事件及趋势,做出正确的舆论引导决策。
[0003]现有技术对热点舆情的分析通常是根据特定类型的文本进行处理。然而语言文字是人与人之间的一种交流方式,在某些特殊的时间范围内可能因为某些事件衍生出一些热词。这些热词背后的事件往往是广大网民所关心的事,最容易产生舆论问题。现有技术中难以对热点事件及时关注它的发展动态和舆论趋势提供科学的判断依据。
技术实现思路
[0004]为了解决现有技术中舆情分析存在不足的技术问题,本专利技术提出了一种基于关键 ...
【技术保护点】
【技术特征摘要】
1.一种基于关键词词频统计的舆情趋势分析方法,其特征在于,包括:S1:从应用、社交媒体平台获取言论内容作为舆情分析的基础数据;S2:清洗所述基础数据,过滤广告数据;S3:提取热门关键词,并根据所述热门关键词的词频趋势,构建舆论趋势走向图,并实时进行舆情趋势分析。2.根据权利要求1所述的基于关键词词频统计的舆情趋势分析方法,其特征在于,所述S2包括对获取的所述基础数据做归一化处理,整理成结构化数据;基于transformer模型训练的自然语言处理方法识别数据中的广告信息并进行剔除,同时根据文本内容进行数据分类。3.根据权利要求2所述的基于关键词词频统计的舆情趋势分析方法,其特征在于,所述S3中提取热门关键词包括:将每个句子进行分词和词性标注,获取文本关键词的候选集合;根据词语之间的邻接关系构建图模型,将所有语句构成的图模型进行合并,构成文本的图模型;计算每个词语的得分,迭代传播各节点的权重直至收敛;对节点权重进行倒排序,获得n个词语作为候选关键词;在所述候选关键词中回到原语句进行标记,若形成相邻词组,则组成多词关键词。4.根据权利要求3所述的基于关键词词频统计的舆情趋势分析方法,其特征在于,所述计算每个词语的得分,迭代传播各节点的权重直至收敛的公式如下:其中,WS(V
i
)表示句子i的权重,W
ji
表示两个句子的相似度,WS(V
j
)表示上次迭代出的句子j的权重,d为阻尼系数。5.根据权利要求4所述的基于关键词词频统计的舆情趋势分析方法,其特征在于,所述S3具体包括基于所述热门关键词统计近段时间窗口中出现的频次,对统计结果采用Savitzky
‑
Golay滤波器算法生成平滑曲线趋势图。6.根据权利要求5所述的基于关键词词频统计的舆情趋势分析方法,其特征在于,所述S3还包括基于所述热门关键词对当前实时数据匹配情况进行实时统计,预测趋势...
【专利技术属性】
技术研发人员:陈思德,吴宝林,郭任煌,魏丽珍,林贵淇,黄俊彬,
申请(专利权)人:厦门安胜网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。