一种网络舆情情感态势量化方法、系统及存储介质技术方案

技术编号:22166902 阅读:31 留言:0更新日期:2019-09-21 10:34
本发明专利技术公开了一种网络舆情情感态势量化方法、系统及存储介质,方法包括:获取待量化的语料库;采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;获取网络舆情监测对象的关键词作为目标关键词;根据语料模型计算情感语料和目标关键词的距离;根据计算的距离计算目标关键词的情感值。本发明专利技术通过Word2vec神经网络算法获得的词向量包含了上下文的信息,且压缩了数据规模;通过目标关键词与情感语料的距离得到目标关键词的情感值,能量化情感倾向结果;采用Word2vec神经网络算法这一无监督的机器学习方法进行全自动舆情情感量化,不需要进行人工标注。本发明专利技术可广泛应用于舆情监控领域。

A Quantitative Method, System and Storage Medium of Network Public Opinion Emotional Situation

【技术实现步骤摘要】
一种网络舆情情感态势量化方法、系统及存储介质
本专利技术涉及舆情监控领域,尤其是一种网络舆情情感态势量化方法、系统及存储介质。
技术介绍
舆情监控,整合了互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。在舆情监控中,情感分析能分析舆情监测对象(如机构、企业、品牌、人物等)的情感情况(如倾向或趋势等),是反映舆论情况的一种重要手段。现有的情感分析方法主要分以下两种:(一)基于词典的方法:主要通过制定一系列的情感词典和规则,对文本进行段落拆借、句法分析,计算情感值,最后以情感值作为文本的情感倾向依据。这种方法有许多局限性,最重要的一点是它忽略了上下文的信息,导致分析的结果不够准确。(二)基于机器学习的方法:大多数情况下可将这个问题转化为一个分类问题来看待,对于情感极性的判断,该方法将目标情感粗略分为3类:正面、负面和中性,不能进一步量化情感倾向结果,不够直观。该方法对训练文本进行人工标标注,然后进行有监督的机器学习。例如现在较为常见的基于大规模语料库的机器学习等。然而人工标注并进行有监督的机器学习意味着不能做到全自动化,需要一定人工成本。
技术实现思路
为解决上述技术问题,本专利技术实施例的目的在于:提供一种准确、直观和成本低的网络舆情情感态势量化方法、系统及存储介质。本专利技术实施例所采取的第一技术方案是:一种网络舆情情感态势量化方法,包括以下步骤:获取待量化的语料库;采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;获取网络舆情监测对象的关键词作为目标关键词;根据语料模型计算情感语料和目标关键词的距离;根据计算的距离计算目标关键词的情感值。进一步,所述获取待量化的语料库这一步骤,具体包括:初始化,载入预设的词库;从网络舆情的语料库中获取初始语料并输入;对初始语料进行文本语料处理,所述文本语料处理包括切词、词性标记、过滤、去停用词和计算词频。进一步,所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型这一步骤,具体包括:导入第一时间内的新语料库;根据导入的新语料库采用Word2vec神经网络算法的CBOW和Skip-gram方法训练语料模型;保存最新的语料模型作为短期模型,同时将距离当前时间第二时间内的所有语料模型合并为长期语料模型并保存;加载最新的短期模型和长期模型。进一步,所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型这一步骤,还具体包括:采用层次Softmax方法加速语料模型的训练过程。进一步,所述短期模型存储于短期语料库,所述长期语料模型存储于长期语料库,所述长期语料库由短期语料库组成。进一步,所述根据语料模型计算情感语料和目标关键词的距离这一步骤,具体为:根据语料模型的词向量采用基于词典的方法计算情感语料和目标关键词的距离。进一步,所述根据计算的距离计算目标关键词的情感值这一步骤,具体为:对计算的距离进行降维处理和归一量化计算,得到目标关键词的情感值。本专利技术实施例所采取的第二技术方案是:一种网络舆情情感态势量化系统,包括:第一获取模块,用于获取待量化的语料库;训练模块,用于采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;第二获取模块,用于获取网络舆情监测对象的关键词作为目标关键词;距离计算模块,用于根据语料模型计算情感语料和目标关键词的距离;情感值计算模块,用于根据计算的距离计算目标关键词的情感值。本专利技术实施例所采取的第三技术方案是:一种网络舆情情感态势量化系统,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本专利技术所述的一种网络舆情情感态势量化方法。本专利技术实施例所采取的第四技术方案是:一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现如本专利技术所述的一种网络舆情情感态势量化方法。上述本专利技术实施例中的一个或多个技术方案具有如下优点:本专利技术实施例采用Word2vec神经网络算法对对待量化的语料库进行词向量训练,得到用词向量表示的语料模型,再计算目标关键词与情感语料的距离,最后根据计算的距离得到目标关键词的情感值,通过Word2vec神经网络算法获得的词向量包含了上下文的信息,更加准确且压缩了数据规模;通过目标关键词与情感语料的距离得到目标关键词的情感值,能量化情感倾向结果,精确反映了网络舆情的实时热点;采用Word2vec神经网络算法这一无监督的机器学习方法来取代有监督的机器学习方法进行全自动舆情情感量化,不需要进行人工标注,成本更低。附图说明图1为本专利技术实施例提供的一种网络舆情情感态势量化方法流程图;图2为本专利技术实施例CBOW方法的算法原理示图;图3为本专利技术实施例CBOW方法的架构图;图4为本专利技术实施例kip-gram模型的算法原理示图;图5为本专利技术实施例层次Softmax方法加速语料模型训练过程的算法原理示图;图6为本专利技术实施例哈夫曼树的结构示意图;图7为本专利技术具体实施例网络舆情情感态势量化方案的实现流程图;图8为本专利技术具体实施例语料模型训练的一种具体实施流程图。具体实施方式首先对本专利技术涉及的名词术语进行解释和说明:Word2vec:是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。词袋模型(Bag-of-wordsmodel):是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。最近词袋模型也被应用在计算机视觉领域。词袋模型被广泛应用在文件分类领域,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在DistributionalStructure的文章。统计语言模型(StatisticalLanguageModel),是今天所有自然语言处理的基础,并且广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。统计语言模型直观地解决了一个问题:一个句子是否合理,就看它的可能性大小如何。至于可能性就用概率来衡量。假定S表示某一个有意义的句子,由一连串特定顺序排列的词W1,W2,…,Wn组成,这里n是句子的长度(句子中词汇的个数)。于是S出现的可能性也就是数学上所说的S的概率P(S)=P(W1,W2,...,Wn)。利用条件概率公式,以上算式可以展开为:P(W1,W2,...,Wn)=P(W1)*P(W2|W1)*P(W3|W1,W2)...P(Wn|W1,W2,...,Wn-本文档来自技高网...

【技术保护点】
1.一种网络舆情情感态势量化方法,其特征在于:包括以下步骤:获取待量化的语料库;采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;获取网络舆情监测对象的关键词作为目标关键词;根据语料模型计算情感语料和目标关键词的距离;根据计算的距离计算目标关键词的情感值。

【技术特征摘要】
1.一种网络舆情情感态势量化方法,其特征在于:包括以下步骤:获取待量化的语料库;采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;获取网络舆情监测对象的关键词作为目标关键词;根据语料模型计算情感语料和目标关键词的距离;根据计算的距离计算目标关键词的情感值。2.根据权利要求1所述的一种网络舆情情感态势量化方法,其特征在于:所述获取待量化的语料库这一步骤,具体包括:初始化,载入预设的词库;从网络舆情的语料库中获取初始语料并输入;对初始语料进行文本语料处理,所述文本语料处理包括切词、词性标记、过滤、去停用词和计算词频。3.根据权利要求1所述的一种网络舆情情感态势量化方法,其特征在于:所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型这一步骤,具体包括:导入第一时间内的新语料库;根据导入的新语料库采用Word2vec神经网络算法的CBOW和Skip-gram方法训练语料模型;保存最新的语料模型作为短期模型,同时将距离当前时间第二时间内的所有语料模型合并为长期语料模型并保存;加载最新的短期模型和长期模型。4.根据权利要求3所述的一种网络舆情情感态势量化方法,其特征在于:所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型这一步骤,还具体包括:采用层次Softmax方法加速语料模型的训练过程。5.根据权利要求3所述的一种网络舆情情感态势量化...

【专利技术属性】
技术研发人员:张毅
申请(专利权)人:广州艾媒数聚信息咨询股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1