当前位置: 首页 > 专利查询>西北大学专利>正文

一种基于NLP的实时网络热点内容分析方法技术

技术编号:30327793 阅读:39 留言:0更新日期:2021-10-10 00:17
一种基于NLP的实时网络热点内容分析方法,利用搜索引擎对关键词进行搜索,获取到网络数据内容,通过分词模型对文本进行数据预处理,从而达到计算机自动识别语句含义的效果;利用预处理后的文本数据,通过采用一种计算话题热度值的计算方法对话题的文本数据进行热度评估,得到某话题实时的热度值;并利用关键词提取技术,可以得到与该话题相关的文本内容;利用所分析好的热度值数据和相关文本数据,可以以折线图或词云图等图例形式直观地展示,更好的观测某话题的热度变化情况。更好的观测某话题的热度变化情况。更好的观测某话题的热度变化情况。

【技术实现步骤摘要】
一种基于NLP的实时网络热点内容分析方法


[0001]本专利技术涉及计算机领域和自然语言处理领域,特别涉及一种基于NLP的实时网络热点内容分析方法。

技术介绍

[0002]在大数据时代,互联网信息呈现海量、动态、多样的异质性特征,由于大量的相关性和零星因素,使得舆情更加复杂多变,传统的舆情监测研究和判断方法难以奏效。海量数据强化了社会舆论的“瞎子和大象”效应,极端观点更容易通过网络乘数效应放大,从而强化了舆论的极端情绪。在信息分散的大数据时代,舆论管理也越来越困难,因此加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。
[0003]如今互联网技术迅猛发展,网络成为人们获取信息的主要渠道。由于网络信息高速传播以及信息量大的特性,如何在较短时间内快速准确地发现网络热点信息,成为数据挖掘与自然语言处理领域研究的热点。网络热点信息是对社会各阶级领域所关注话题的阐述,尤其舆情分析可以透过现象真正挖掘事情的本质。目前,国内外学者主要从两个方面对话题发现技术进行研究。在话题发现模型选择本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于NLP的实时网络热点内容分析方法,其特征在于,包括以下步骤:步骤S1,通过爬取或者下载网站的公开语料库,获得网络文本数据,对获取的网络文本数据进行预处理,主要是对网络文本数据进行分词和去停用词,分词是将一个文字序列切分成一个个词或短语,分词后就需要通过标注模型来标注这些词语的词性,并使用停用词列表过滤网络文本数据中出现频率很高,但无实际意义的词,获得预处理数据;步骤S2,利用话题热度计算方法对话题热度指数进行计算,主要依据话题的转发量、评论量和点赞量进行考量,根据话题的发布时间可以记录每天的热度指数,并以图例的方式进行可视化展示;步骤S3,利用步骤S1的预处理数据,基于TF

IDF算法进行关键词抽取,使用Jieba实现TF

IDF算法会返回几个TF/IDF权重最大的关键词和权重值,然后利用步骤S2的话题热度计算方法计算与话题相关的关键词的热度值,根据所需选择与话题相关的关键词的数量,并计算其热度值,利用词云图图例对分析的数据进行可视化展示,可观测网络热点内容的变化。2.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法及其系统,其特征在于,所述步骤S1包括以下步骤:步骤S11,利用TF

IDF算法对网络文本数据进行中文分词,根据词频和逆文档频率相乘,得到一个词的TF

IDF值,当某个词在文本中的TF

IDF越大,说明这个词的在文本中的重要性越高;步骤S12,利用词性标注模型标注这些词语的词性,词性标注采用基于统计最大概率输出词性的方法;步骤S13,网络文本数据已分成单个词语,对于没有实用价值的语气助词、虚词、感叹词进行去停用词操作。3.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S11包括以下步骤:1)计算词频TF:2)计算逆文档频率:3)计算TF

IDF:TF

IDF=词频TF
×
逆文档频率IDF。4.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S12中,通过HMM隐马尔科夫模型标注词性,观测序列为分词后的语句,隐藏序列为经过标注后的词性标注序列;初始概率、发射概率和转移概率和分词中的含义大同小异,可以通过大规模语料统计得到,观测序列到隐藏序列的计算通过viterbi算法,利用统计得到的初始概率、发射概率和转移概率来得到,得到隐藏序列后,就完成了词性标注过程。5.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所
述步骤S13中,将从如下三个方面进行去停用词:1)依据词性判断,将副词、语气词、连词、语气词、感叹词去除;2)依据词的长度判断,将长度为1的词去除;3)依据停用词表判断,停用词表中收录了2000多个无用词,可将停用词表中含有的词进行去除。6.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S2中,对话题文本热度进行计算,具体过程如下:S
heat
=100+25*N
retweet
+8*N
...

【专利技术属性】
技术研发人员:高岭周冰王峥杨冠华王祎昊任杰
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1