训练情感分类模型和文本情感极性分析的方法及系统技术方案

技术编号：14560413 阅读：173 留言：0更新日期：2017-02-05 16:09

训练情感分类模型和文本情感极性分析的方法及系统。训练情感分类模型的方法包括：从语料库中采集数据，获得原始数据；对所述原始数据进行预处理，获得预处理数据；通过神经网络模型，从所述预处理数据中提取词向量；将所述词向量，按预设融合规则进行融合，生成句向量特征；根据所述句向量特征，训练情感分类模型，得到训练后的情感分类模型。本方法采用神经网络模型，用低维空间向量表示词，将低维空间词向量按预设规则融合成句向量特征，并通过一些学习模型来训练得到情感分类模型，可有效降低词向量维度，避免维度灾难问题，挖掘词与词之间的关联属性，提高向量语义上的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘
，尤其涉及一种训练情感分类模型的方法及系统和一种文本情感极性分析的方法及系统。
技术介绍
情感分析，又称倾向性分析，具体是可以对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。常见的情感分析有意见抽取、意见挖掘、情感挖掘和主观分析等。在金融信息分析方面，长期以来，投资者广泛地认可金融市场易受恐惧和贪婪等人性驱使，但缺乏一种技术或数据来客观全面量化人们的具体情感。对社交数据进行情感分析，为一直以来被金融市场非理性举动所困扰的投资者，打开了一扇了解心灵世界的窗户，通过大众对市场信息的情感分析来预测市场趋势。在商品销售方面，当新商品上架一段时间后，对商品的评价针对一些属性做情感分析，或者做混合属性的情感分析，然后对这些分析结果做总结，并对有代表性的评价做情感呈现。对商家来说，可以省去大量的市场调查，也可以用来分析用户体验，用以持续改进后期的产品。对用户来说，亦可以根据已买完用户的评价来综合制定购买策略。在企业舆情分析方面，通过对大量的公开社交数据，分析公众对企业自身的一些相关热点的态度看法，并可以据此制定相应的公关策略。在现有技术中，情感分析的步骤大体上是：第一步，确定一个词是积极还是消极，是主观还是客观，主要依靠词典；第二步，识别一个句子是积极还是消极，是主观还是客观；第三步，从情感挖掘上升到意见挖掘。传统情感分析通用的方法是对情感词典构...

【技术保护点】
一种训练情感分类模型的方法，包括：从语料库中采集数据，获得原始数据；对所述原始数据进行预处理，获得预处理数据；通过神经网络模型，从所述预处理数据中提取词向量；将所述词向量，按预设融合规则进行融合，生成句向量特征；根据所述句向量特征，训练情感分类模型，得到训练后的情感分类模型。

【技术特征摘要】
1.一种训练情感分类模型的方法，包括：
从语料库中采集数据，获得原始数据；
对所述原始数据进行预处理，获得预处理数据；
通过神经网络模型，从所述预处理数据中提取词向量；
将所述词向量，按预设融合规则进行融合，生成句向量特征；
根据所述句向量特征，训练情感分类模型，得到训练后的情感分类模型。
2.如权利要求1所述的方法，其中，所述通过神经网络模型，从所述预处
理数据中提取词向量，包括：
将所述预处理数据中的词转换成0-1的向量并按位相加后，作为神经网络
模型的输入层；
以霍夫曼编码树作为所述神经网络模型的输出层；
使所述神经网络模型无监督学习得到所述词对应的词向量。
3.如权利要求1所述方法，其中，所述按预设融合规则进行融合，包括：
按预设规则进行叠加。
4.如权利要求1所述的方法，其中，所述根据所述句向量特征，训练情感
分类模型，包括：
用所述句向量特征，通过学习模型进行有监督训练，获得情感分类模型。
5.如权利要求1～4任一项所述的方法，其中，所述从语料库中采集数据，
包括：
通过爬虫工具爬取所述语料库中的内容来采集数据。
6.如权利要求1～4任一项所述的方法，其中，所述对所述原始数据进行预
处理，获得预处理数据，包括：
清洗所述原始数据，获得清洗后数据；
对所述清洗后数据做分词和去停用词处理，获得预处理数据。
7.如权利要求6所述方法，其中，所述清洗所述原始数据，包括：
删除所述原始数据中的HTML标签和URL；
当所述语料库中的内容为中文时，将所述原始数据中的繁体字转换成简体
...

【专利技术属性】
技术研发人员：张建华，刘鹏，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人