【技术实现步骤摘要】
一种基于NLP的实时网络热点内容分析方法
[0001]本专利技术涉及计算机领域和自然语言处理领域,特别涉及一种基于NLP的实时网络热点内容分析方法。
技术介绍
[0002]在大数据时代,互联网信息呈现海量、动态、多样的异质性特征,由于大量的相关性和零星因素,使得舆情更加复杂多变,传统的舆情监测研究和判断方法难以奏效。海量数据强化了社会舆论的“瞎子和大象”效应,极端观点更容易通过网络乘数效应放大,从而强化了舆论的极端情绪。在信息分散的大数据时代,舆论管理也越来越困难,因此加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。
[0003]如今互联网技术迅猛发展,网络成为人们获取信息的主要渠道。由于网络信息高速传播以及信息量大的特性,如何在较短时间内快速准确地发现网络热点信息,成为数据挖掘与自然语言处理领域研究的热点。网络热点信息是对社会各阶级领域所关注话题的阐述,尤其舆情分析可以透过现象真正挖掘事情的本质。目前,国内外学者主要从两个方面对话题发现技术进行研究 ...
【技术保护点】
【技术特征摘要】
1.一种基于NLP的实时网络热点内容分析方法,其特征在于,包括以下步骤:步骤S1,通过爬取或者下载网站的公开语料库,获得网络文本数据,对获取的网络文本数据进行预处理,主要是对网络文本数据进行分词和去停用词,分词是将一个文字序列切分成一个个词或短语,分词后就需要通过标注模型来标注这些词语的词性,并使用停用词列表过滤网络文本数据中出现频率很高,但无实际意义的词,获得预处理数据;步骤S2,利用话题热度计算方法对话题热度指数进行计算,主要依据话题的转发量、评论量和点赞量进行考量,根据话题的发布时间可以记录每天的热度指数,并以图例的方式进行可视化展示;步骤S3,利用步骤S1的预处理数据,基于TF
‑
IDF算法进行关键词抽取,使用Jieba实现TF
‑
IDF算法会返回几个TF/IDF权重最大的关键词和权重值,然后利用步骤S2的话题热度计算方法计算与话题相关的关键词的热度值,根据所需选择与话题相关的关键词的数量,并计算其热度值,利用词云图图例对分析的数据进行可视化展示,可观测网络热点内容的变化。2.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法及其系统,其特征在于,所述步骤S1包括以下步骤:步骤S11,利用TF
‑
IDF算法对网络文本数据进行中文分词,根据词频和逆文档频率相乘,得到一个词的TF
‑
IDF值,当某个词在文本中的TF
‑
IDF越大,说明这个词的在文本中的重要性越高;步骤S12,利用词性标注模型标注这些词语的词性,词性标注采用基于统计最大概率输出词性的方法;步骤S13,网络文本数据已分成单个词语,对于没有实用价值的语气助词、虚词、感叹词进行去停用词操作。3.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S11包括以下步骤:1)计算词频TF:2)计算逆文档频率:3)计算TF
‑
IDF:TF
‑
IDF=词频TF
×
逆文档频率IDF。4.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S12中,通过HMM隐马尔科夫模型标注词性,观测序列为分词后的语句,隐藏序列为经过标注后的词性标注序列;初始概率、发射概率和转移概率和分词中的含义大同小异,可以通过大规模语料统计得到,观测序列到隐藏序列的计算通过viterbi算法,利用统计得到的初始概率、发射概率和转移概率来得到,得到隐藏序列后,就完成了词性标注过程。5.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所
述步骤S13中,将从如下三个方面进行去停用词:1)依据词性判断,将副词、语气词、连词、语气词、感叹词去除;2)依据词的长度判断,将长度为1的词去除;3)依据停用词表判断,停用词表中收录了2000多个无用词,可将停用词表中含有的词进行去除。6.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S2中,对话题文本热度进行计算,具体过程如下:S
heat
=100+25*N
retweet
+8*N
...
【专利技术属性】
技术研发人员:高岭,周冰,王峥,杨冠华,王祎昊,任杰,
申请(专利权)人:西北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。