训练情感分类模型和文本情感极性分析的方法及系统技术方案

技术编号:14560413 阅读:173 留言:0更新日期:2017-02-05 16:09
训练情感分类模型和文本情感极性分析的方法及系统。训练情感分类模型的方法包括:从语料库中采集数据,获得原始数据;对所述原始数据进行预处理,获得预处理数据;通过神经网络模型,从所述预处理数据中提取词向量;将所述词向量,按预设融合规则进行融合,生成句向量特征;根据所述句向量特征,训练情感分类模型,得到训练后的情感分类模型。本方法采用神经网络模型,用低维空间向量表示词,将低维空间词向量按预设规则融合成句向量特征,并通过一些学习模型来训练得到情感分类模型,可有效降低词向量维度,避免维度灾难问题,挖掘词与词之间的关联属性,提高向量语义上的准确度。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,尤其涉及一种训练情感分类模型的方法及系统和一种文本情感极性分析的方法及系统。
技术介绍
情感分析,又称倾向性分析,具体是可以对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。常见的情感分析有意见抽取、意见挖掘、情感挖掘和主观分析等。在金融信息分析方面,长期以来,投资者广泛地认可金融市场易受恐惧和贪婪等人性驱使,但缺乏一种技术或数据来客观全面量化人们的具体情感。对社交数据进行情感分析,为一直以来被金融市场非理性举动所困扰的投资者,打开了一扇了解心灵世界的窗户,通过大众对市场信息的情感分析来预测市场趋势。在商品销售方面,当新商品上架一段时间后,对商品的评价针对一些属性做情感分析,或者做混合属性的情感分析,然后对这些分析结果做总结,并对有代表性的评价做情感呈现。对商家来说,可以省去大量的市场调查,也可以用来分析用户体验,用以持续改进后期的产品。对用户来说,亦可以根据已买完用户的评价来综合制定购买策略。在企业舆情分析方面,通过对大量的公开社交数据,分析公众对企业自身的一些相关热点的态度看法,并可以据此制定相应的公关策略。在现有技术中,情感分析的步骤大体上是:第一步,确定一个词是积极还是消极,是主观还是客观,主要依靠词典;第二步,识别一个句子是积极还是消极,是主观还是客观;第三步,从情感挖掘上升到意见挖掘。传统情感分析通用的方法是对情感词典构建树,将要分析的内容做分词后对里面的每个词通过词典树去查找,确定要分析的内容中正面词和负面词的个数,再通过这两个数量的比较确定要分析的内容的极性,即积极或消极。这种方法只考虑用单个情感词出现的数量或频率判断情感极性,而没考虑用词之间共现的共性来做情感分析,为此人们尝试了很多情感分类模型。在情感分析模型中,词是以向量的形式表示,最简单的就是one-hotrepresentation,就是用一个很长的向量表示一个词,向量的长度为词典的大小,向量的分量只有一个1,其它全是0,1的位置对应该词在词典中的索引。但是,这种词向量容易受维度灾难的困扰。而将上面的词映射到一个新的空间中,并以多维的连续实数向量进行表示,称为“WordRepresention”或“WordEmbedding”。经过长期的实验,人们逐渐从原始的词向量稀疏表示法过渡到现在的低维空间中的密集表示。因为用词向量稀疏表示法在解决实际问题时经常会遇到维度灾难问题,并且语义信息无法表示,无法揭示词之间的潜在联系。
技术实现思路
针对上述情感分类模型的不足,本专利技术提供一种训练情感分类模型的方法及系统和一种文本情感极性分析的方法及系统,通过神经网络模型,采用低维空间表示词向量,可避免维度灾难问题,挖掘词与词之间的关联属性,提高向量语义上的准确度。第一方面,本专利技术实施例提供的一种训练情感分类模型的方法,包括:从语料库中采集数据,获得原始数据;对所述原始数据进行预处理,获得预处理数据;通过神经网络模型,从所述预处理数据中提取词向量;将所述词向量,按预设融合规则进行融合,生成句向量特征;根据所述句向量特征,训练情感分类模型,得到训练后的情感分类模型。第二方面,本专利技术实施例提供的一种文本情感极性分析的方法,包括:从目标文本中提取句向量特征;根据所述句向量特征和上述训练情感分类模型的方法得到的训练后的情感分类模型,分析所述目标文本的情感极性。第三方面,本专利技术实施例提供的一种训练情感分类模型的系统,包括:数据采集单元,用于从语料库中采集数据,获得原始数据;原始数据预处理单元,用于对所述原始数据进行预处理,获得预处理数据;词向量提取单元,用于通过神经网络模型,从所述预处理数据中提取词向量;句向量特征生成单元,用于将所述词向量,按预设融合规则进行融合,生成句向量特征;以及情感分类模型训练单元,用于根据所述句向量特征,训练情感分类模型,得到训练后的情感分类模型。第四方面,本专利技术实施例提供的一种文本情感极性分析的系统,包括:句向量特征提取单元,用于从目标文本中提取句向量特征;以及情感极性分析单元,根据所述句向量特征和上述训练情感分类模型的方法得到的训练后的情感分类模型,分析所述目标文本的情感极性。本专利技术提供的技术方案带来的有益效果:综上所述,在本实施例中,计算机可以通过爬虫工具在语料库中采集到原始数据,对该原始数据进行预处理获得预处理数据,用神经网络模型从该预处理数据中提取词向量,再通过叠加等融合规则,将上述词向量融合生成相应的句向量特征,根据句向量特征,训练得到鲁棒性稳定的情感分类模型。该训练情感分类模型的方法,可有效地降低词向量的维度,避免维度灾难的问题,并能挖掘词与词之间的关联属性,从而提高向量语义上的准确度。同理,通过上述方法,从目标文本中提取句向量特征,再采用上述情感分类模型,分析目标文本的文本情感极性分析的方法,可有效地降低词向量的维度,避免维度灾难的问题,并能挖掘词与词之间的关联属性,提高向量语义上的准确度。附图说明图1A是本专利技术实施例一提供的训练情感分类模型的方法的流程示意图;图1B是本专利技术技术方案中提取词向量时采用的神经网络模型的示意图。图2是本专利技术实施例二提供的对原始数据进行预处理的方法流程示意图;图3是本专利技术实施例三提供的清洗原始数据的方法流程示意图;图4是本专利技术实施例四提供的文本情感极性分析的方法的流程示意图;图5是本专利技术实施例五提供的训练情感分类模型的系统的架构示意图;图6是本专利技术实施例六提供的原始数据预处理单元的架构示意图;图7是本专利技术实施例七提供的清洗子单元的架构示意图;图8是本专利技术实施例八提供的文本情感极性分析的系统的架构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。实施例一参见图1A,本实施例的方案可以由计算机来执行,具体可由配置在计算机中的软件程序来实施,训练情感分类模型的方法包括如下步骤:S110:从语料库中采集数据,获得原始数据。示例性的,可以通过爬虫工具爬取语料库中的内容来获得原始分析数据,也可以通过其他数据收集方式获得原始分析数据。爬虫可以是一种自动获取网页内容的程序,也可以是搜索引擎的重要组成本文档来自技高网
...

【技术保护点】
一种训练情感分类模型的方法,包括:从语料库中采集数据,获得原始数据;对所述原始数据进行预处理,获得预处理数据;通过神经网络模型,从所述预处理数据中提取词向量;将所述词向量,按预设融合规则进行融合,生成句向量特征;根据所述句向量特征,训练情感分类模型,得到训练后的情感分类模型。

【技术特征摘要】
1.一种训练情感分类模型的方法,包括:
从语料库中采集数据,获得原始数据;
对所述原始数据进行预处理,获得预处理数据;
通过神经网络模型,从所述预处理数据中提取词向量;
将所述词向量,按预设融合规则进行融合,生成句向量特征;
根据所述句向量特征,训练情感分类模型,得到训练后的情感分类模型。
2.如权利要求1所述的方法,其中,所述通过神经网络模型,从所述预处
理数据中提取词向量,包括:
将所述预处理数据中的词转换成0-1的向量并按位相加后,作为神经网络
模型的输入层;
以霍夫曼编码树作为所述神经网络模型的输出层;
使所述神经网络模型无监督学习得到所述词对应的词向量。
3.如权利要求1所述方法,其中,所述按预设融合规则进行融合,包括:
按预设规则进行叠加。
4.如权利要求1所述的方法,其中,所述根据所述句向量特征,训练情感
分类模型,包括:
用所述句向量特征,通过学习模型进行有监督训练,获得情感分类模型。
5.如权利要求1~4任一项所述的方法,其中,所述从语料库中采集数据,
包括:
通过爬虫工具爬取所述语料库中的内容来采集数据。
6.如权利要求1~4任一项所述的方法,其中,所述对所述原始数据进行预
处理,获得预处理数据,包括:
清洗所述原始数据,获得清洗后数据;
对所述清洗后数据做分词和去停用词处理,获得预处理数据。
7.如权利要求6所述方法,其中,所述清洗所述原始数据,包括:
删除所述原始数据中的HTML标签和URL;
当所述语料库中的内容为中文时,将所述原始数据中的繁体字转换成简体
...

【专利技术属性】
技术研发人员:张建华刘鹏
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1