一种情感分析系统技术方案

技术编号:22101880 阅读:175 留言:0更新日期:2019-09-14 03:19
本发明专利技术提供了一种情感分析系统,包括:中央处理单元,所述中央处理单元电性连接有舆情信息爬取模块和样本数据存储模块,所述样本数据存储模块电性连接有训练集,所述训练集电性连接有分词器,所述分词器分别电性连接有语料库加载模块和语义分析模块,所述语料库加载模块分别电性连接有语义分析模块和语料库,所述语义分析模块电性连接有分类器,所述分类器电性连接有模型训练模块,所述模型训练模块电性连接有验证模块,所述验证模块电性连接有输出模块。通过设置包括了金融领域新闻语料和全国实时热点报道语料的语料库,为模型训练模块提供了学习支持,使得后续输出模块推送出专用于证券银行类机构和地方政府监管部门的舆情信息。

An Emotional Analysis System

【技术实现步骤摘要】
一种情感分析系统
本专利技术涉及情感分析
,具体涉及一种应用于舆情信息的情感分析系统。
技术介绍
情感分析,也叫观点提取、情感挖掘,是自然语言处理方法中常见的应用,尤其是以提炼文本情绪内容为目的的分类,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,广泛应用于正负面影评影片分类、产品品牌的评价等。现阶段主要的情感分析方法主要有两类:基于词典的方法、基于机器学习的方法,用机器学习的方法来设计情感分析系统则较为普遍。基于机器学习的方法大多将这个问题转化为一个分类问题来看待,对于情感等级的判断,将目标情感分成2类:正、负。对训练文本进行人工标标注,然后进行有监督的机器学习过程,例如较为常见的基于大规模语料库的机器学习等。目前,针对自媒体、社交软件、网络上的新闻报道、话题、公众评论等以文章文本形式传播的内容,都可以看作是舆情信息,诸如此类舆情既具有正向积极的情感,也混杂有负向消极的情感,特别地,针对于证券银行类机构、地方政府监管部门来说,他们需要专用于金融证券行业资讯、地方报道等实时舆情的推送,尤其是经情感分析系统过滤后的结果评价信息,以便于安排实施监督管理。针对市面上情感分析系统,主要技术不同点在于其所选择的语料库不一样,现有的情感分析系统的应用对象主要是评论类的文本,针对证券银行类机构、地方政府监管部门需要的舆情信息情感分析还未有专门的技术开发。于是我们提供了一种情感分析系统,其专用于金融证券行业资讯、地方报道等实时舆情的推送,以方便证券银行类机构、地方政府监管部门把握公众对热点信息的情感倾向变化并进行决策。
技术实现思路
本专利技术旨在提供一种克服上述问题或者至少部分地解决上述问题的一种情感分析系统,以解决专为证券银行类机构和地方政府监管部门作实时舆情的推送、以利于其把握公众对热点信息的情感倾向变化并进行决策的问题。为达到上述目的,本专利技术的技术方案具体是这样实现的:一种情感分析系统,包括:中央处理单元,所述中央处理单元电性连接有系统管理模块和用户模块,所述中央处理单元电性连接有舆情信息爬取模块和样本数据存储模块,所述样本数据存储模块电性连接有训练集,所述训练集电性连接有分词器,所述分词器分别电性连接有语料库加载模块和语义分析模块,所述语料库加载模块分别电性连接有语义分析模块和语料库,所述语义分析模块电性连接有分类器,所述分类器电性连接有模型训练模块,所述模型训练模块电性连接有验证模块,所述验证模块电性连接有输出模块。优选的,所述舆情信息爬取模块用于获取网络上的舆情信息,所述舆情信息包括但不限于网媒、论坛、微博、博客、微信公众号和电子刊物。优选的,所述语料库为所述模型训练模块提供学习支持,所述语料库包括金融领域新闻语料和全国实时热点报道语料。优选的,所述金融领域新闻语料为ChnSentiCorp-Fnc-del-6000语料,正负类各3000篇;所述全国实时热点报道语料为ChnSentiCorp-RHC语料,其收集量不少于1.5万条评论。优选的,所述语义分析模块用于对所述语料加载模块中的特征词进行提取,所述特征词的提取方法为使用word2vector工具。优选的,所述语义分析模块包括分类识别子模块、标注子模块、情感信息分类子模块和提取子模块,所述分类识别子模块电性连接于分词器,所述分词器将加载的语料分词得到词语后,所述分类识别子模块将词语分类为包括积极词、消极词、否定词和程度副词的特征词,所述标注子模块依据情感信息分类子模块给特征词标注情感等级,所述提取子模块用于提取特征词。优选的,所述情感信息分类子模块将特征词分类设置为正面、中性和负面三个情感等级。优选的,所述分类器采用SVM算法。优选的,所述验证模块包括指标判断子模块和操作子模块,所述舆情信息经过所述模型训练模块训练后,所述指标判断子模块用于判断所述舆情信息是否达到相应指标,所述操作子模块将达到所述相应指标的舆情信息输出至输出模块。优选的,所述指标判断子模块具有指标项,所述指标项分别为准确率、精确率和召回率,所述相应指标设置为准确率≥90%且精确率≥75%且召回率≤8%。本专利技术提供一种情感分析系统,有益效果在于:1、通过设置包括了金融领域新闻语料和全国实时热点报道语料的语料库,为模型训练模块提供了学习支持,使得后续输出模块推送出专用于证券银行类机构和地方政府监管部门的舆情信息,从而利于证券银行类机构和地方政府监管部门把握公众对热点信息的情感倾向变化并进行决策;2、通过设置舆情信息爬取模块广泛搜集网媒、论坛、微博、博客、微信公众号和电子刊物等舆情信息,并配合设置样本数据存储模块和模型训练模块来处理和训练庞大的数据量,扩大了舆情信息的广度,使得后续对舆情信息的情感倾向的把握变得更为客观,增加了其可信度,进一步有利于券银行类机构和地方政府监管部门对舆情的监测。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术情感分析系统的原理框图;图2为本专利技术语料库的原理框图;图3为本专利技术语义分析模块的原理框图;图4为本专利技术验证模块的原理框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1-4示出了本专利技术实施例提供的情感分析系统的原理框图:一种情感分析系统,包括:中央处理单元,中央处理单元电性连接有系统管理模块和用户模块,中央处理单元电性连接有舆情信息爬取模块和样本数据存储模块,样本数据存储模块电性连接有训练集,训练集电性连接有分词器,分词器分别电性连接有语料库加载模块和语义分析模块,语料库加载模块分别电性连接有语义分析模块和语料库,语义分析模块电性连接有分类器,分类器电性连接有模型训练模块,模型训练模块电性连接有验证模块,验证模块电性连接有输出模块;系统管理模块用于修正舆情信息的误推送和完善语料库,用户登录用户模块后,观察输出模块推送出的经情感分析后的舆情信息,舆情信息爬取模块用于获取网络上的舆情信息,样本数据存储模块用于存储搜集来的海量数据,训练集从样本数据存储模块拿出数据等待分词处理,分词器用于将文本内容进行分词,并存放于训练集中,其大致步骤是先把文本内容分词,然后对分词的结果去除停用词,从去除停用词后的结果中再去找情感词,语料库为模型训练模块提供学习支持,分类器用于将舆情信息内容进行情感倾向分类,验证模块设置相应指标,模型训练模块用于反复训练训练集,直至将达到相应指标的舆情信息输出至输出模块。舆情信息包括但不限于网媒、论坛、微博、博客、微信公众号和电子刊物。作为舆情信息搜集用,舆情信息爬取模块所爬取的文章数量日均超过百万份,相较于现有的一些情感分析系统,本专利技术具有庞大的数据量,从而使得对舆情信息的情感倾向的把握更具客观性,数据的处理采用了elasticsearch和hadoop的大数据技术基础,数据处理的效率明显提高本文档来自技高网...

【技术保护点】
1.一种情感分析系统,包括:中央处理单元,所述中央处理单元电性连接有系统管理模块和用户模块,其特征在于:所述中央处理单元电性连接有舆情信息爬取模块和样本数据存储模块,所述样本数据存储模块电性连接有训练集,所述训练集电性连接有分词器,所述分词器分别电性连接有语料库加载模块和语义分析模块,所述语料库加载模块分别电性连接有语义分析模块和语料库,所述语义分析模块电性连接有分类器,所述分类器电性连接有模型训练模块,所述模型训练模块电性连接有验证模块,所述验证模块电性连接有输出模块。

【技术特征摘要】
1.一种情感分析系统,包括:中央处理单元,所述中央处理单元电性连接有系统管理模块和用户模块,其特征在于:所述中央处理单元电性连接有舆情信息爬取模块和样本数据存储模块,所述样本数据存储模块电性连接有训练集,所述训练集电性连接有分词器,所述分词器分别电性连接有语料库加载模块和语义分析模块,所述语料库加载模块分别电性连接有语义分析模块和语料库,所述语义分析模块电性连接有分类器,所述分类器电性连接有模型训练模块,所述模型训练模块电性连接有验证模块,所述验证模块电性连接有输出模块。2.根据权利要求1所述的情感分析系统,其特征在于:所述舆情信息爬取模块用于获取网络上的舆情信息,所述舆情信息包括但不限于网媒、论坛、微博、博客、微信公众号和电子刊物。3.根据权利要求1所述的情感分析系统,其特征在于:所述语料库为所述模型训练模块提供学习支持,所述语料库包括金融领域新闻语料和全国实时热点报道语料。4.根据权利要求3所述的情感分析系统,其特征在于:所述金融领域新闻语料为ChnSentiCorp-Fnc-del-6000语料,正负类各3000篇;所述全国实时热点报道语料为ChnSentiCorp-RHC语料,其收集量不少于1.5万条评论。5.根据权利要求1所述的情感分析系统,其特征在于:所述语义分析模块...

【专利技术属性】
技术研发人员:杨超
申请(专利权)人:安徽智侒信信息技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1