一种情感数据的分析方法及装置制造方法及图纸

技术编号:16334848 阅读:54 留言:0更新日期:2017-10-03 15:10
本发明专利技术公开了一种情感数据的分析方法,所述方法包括:获取待分析数据;对所述待分析数据进行分词处理,得到分词特征数据;将所述分词特征数据生成用于确定所述分词特征数据中各词之间语义关系的分布式词向量;根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量;根据学习模型对所述完整数据向量进行分类计算,得到用于确定所述待分析数据的情感属性。本发明专利技术还同时公开了一种情感数据的分析装置。

Method and device for analyzing emotional data

The invention discloses an analysis method for emotional data, the method comprises: acquiring data to be analyzed; to analyze data processing on the segmentation, get segmentation feature data; the word feature data generation is used to determine the distributed word vector the semantic relations between the word segmentation characteristics in the data; according to the characteristics of the data of the distributed word of the vector, to obtain the complete data vector data to be analyzed; according to the learning model based on the complete classification calculation of vector data are obtained for determining the data to be analyzed and the emotional properties of the. The invention also discloses an analysis device for the emotional data.

【技术实现步骤摘要】

本专利技术涉及数据分析技术,具体涉及一种情感数据的分析方法及装置
技术介绍
随着移动互联网的快速发展,促使着人们的生活、工作、娱乐等方方面面的行为方式也发生着改变。例如,对于各大电商、社交、阅读等平台提供的产品、内容或服务,用户自发的评论分享产生的内容呈现出爆发式增长。例如,在图书阅读平台中,每天产生的书评文本就有千万条,而这千万条书评文本中包含有读者对各图书相关内容的评价、对作者的评价、对阅读产品的性能与服务质量的反馈以及读者自身的需求或期望等价值信息,如果所述图书阅读平台能够根据这些书评文本确定出读者对该图书的情感属性(好评或差评),则将会对所述图书阅读平台满足用户的需求以及产品的改进带来极大的便利。现有技术中确定图书情感的方法通常包括以下四种:(1)人工搜索统计;(2)基于特征向量表示进行情感分类;(3)贝叶斯方法对文本特征进行分类;(4)最大熵算法。而上述四种确定图书情感的方法多是适用于短文本评论的情感分析,而在处理大数据量级的长文本评论时,无论在数据特征表示还是处理效率方面都会严重影响最终分析结果,具体如下:针对人工搜索统计的方法:在处理大数据量级的长文本评论时,不仅会消耗巨大的精力与时间,而且也难保证结果的时效性与准确性。针对基于特征向量表示进行情感分类的方法:在处理大数据量级的长文本评论时,由于其特征学习与分类识别均存在局限性。例如,基于向量空间模型(VSM,VectorSpaceModel)在处理数据量与维度较小的短评论时尚可发挥其优势,但在处理大量级长文本评论数据时,依靠大量孤立词集表示的词向量特征维度可达上万级,该模型表示的高维特征向量语义缺失且存在矩阵稀疏问题,因此,在特征处理时会占用大量存储与计算资源,影响文本处理效率。针对文本特征分类常用的贝叶斯方法:在处理情感分析问题时容易受到其算法自身的限制。具体地,由于贝叶斯要求文本特征属性独立且不相关,较少考虑各词间的语义联系,而文本情感分析中的各特征词间受上下文语境影响较大,情感极性与各词联系密切,因此,分词偏差直接影响特征词概率分布计算从而导致极性分类结果欠佳。针对最大熵算法:虽然在文本情感分析中考虑了上下文丰富的语义信息,但对长文本各词间概率统计的方式无疑需要花费大量的训练时间与空间,其语义联系的计算是以消耗的巨大的资源成本为代价。然而,通过降维或特征选择方法降低计算复杂度,所获取的特征数量并没有明显降低向量表示维度。例如,通过信息检索与数据挖掘的常用加权技术(TF-IDF,TermFrequency-InverseDocumentFrequency)所选择的某一长评特征词同样多达几百甚至上千条,而通过特征词聚类的方式降维所得的词簇主题以实词为主,而对于反映情感的特征词却无法表示整条评论,个别出现的情感词片段存在语义缺失的问题。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例期望提供一种情感数据的分析方法及装置,能够提高对图书评论文本进行情感属性分析的准确性。本专利技术实施例的技术方案是这样实现的:根据本专利技术实施例的一方面,提供一种情感数据的分析方法,所述方法包括:获取待分析数据;对所述待分析数据进行分词处理,得到分词特征数据;将所述分词特征数据生成用于确定所述分词特征数据中各词之间语义关系的分布式词向量;根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量;根据学习模型对所述完整数据向量进行分类计算,得到用于确定所述待分析数据的情感属性。上述方案中,在对所述待分析数据进行分词处理之前,所述方法还包括:对所述待分析数据进行噪声过滤与重复评论去重,得到第一待分析数据;对所述第一待分析数据进行分词处理,得到所述分词特征数据。上述方案中,在得到所述分词特征数据之后,所述方法还包括:对所述分词特征数据进行重复词或重复字去重,得到第一分词特征数据;将所述第一分词特征数据生成所述分布式词向量。上述方案中,根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量,包括:根据所述分布式词向量确定各词之间的词窗口大小数据和词向量维度数据;根据所述词窗口大小数据和所述词向量维度数据,确定所述待分析数据的语义关系词向量;根据所述语义关系词向量中各词的特征数据,对所述语义关系词向量进行加权平均计算,得到所述待分析数据的完整数据向量。上述方案中,所述根据学习模型对所述完整数据向量进行分类计算,包括:将所述完整数据向量转换成支持向量机(SVM,SupportVectorMachine)格式文件,并对所述SVM格式文件进行标准化处理,得到用于进行交叉验证的SVM参数;在所述SVM参数中选择径向基核函数(RBF,RadialBasisFunction)和第一参数、第二参数进行交叉验证,得到用于在训练语料中获取SVM模型的第一最佳参数和第二最佳参数;根据所述第一最佳参数和所述第二最佳参数确定出的SVM模型对所述完整数据向量进行分类计算。上述方案中,所述得到用于确定所述待分析数据的情感属性,包括:根据所述学习模型确定所述待分析数据的情感属性的分类概率,根据所述分类概率得到所述待分析数据的情感属性的分值;根据所述分值确定所述待分析数据的情感属性。根据本专利技术实施例的另一方面,提供一种情感数据的分析装置,所述装置包括:数据获取单元、分词处理单元、数据生成单元、第一计算单元和第二计算单元;其中,所述数据获取单元,用于获取待分析数据;所述分词处理单元,用于对所述数据获取单元获取的所述待分析数据进行分词处理,得到分词特征数据;所述数据生成单元,用于将所述分词处理单元得到的所述分词特征数据生成用于确定所述分词特征数据中各词之间语义关系的分布式词向量;所述第一计算单元,用于根据所述数据生成单元生成的所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量;所述第二计算单元,用于根据学习模型对所述第一计算单元得到的所述完整数据向量进行分类计算,得到用于确定所述待分析数据的情感属性。上述方案中,所述装置还包括:第一处理单元,用于对所述数据获取单元获取的所述待分析数据进行噪声过滤与重复评论去重,得到第一待分析数据;所述分词处理单元,具体用于对所述第一处理单元得到的所述第一待分析数据进行分词处理,得到所述分词特征数据。上述方案中,所述装置还包括:第二处理单元,用于对所述分词处理单元得到的所述分词特征数据进行重复词或重复字去重,得到第一分词特征数据;所述数据生成单元,具体用于将所述第二处理单元得到的所述第一分词特征数据生成所述分布式词向量。上述方案中,所述第一计算单元,具体用于根据所述数据生成单元生成的所述分布式词向量确定各词之间的词窗口大小数据和词向量维度数据;根据所述词窗口大小数据和所述词向量维度数据,确定所述待分析数据的语义关系词向量;根据所述语义关系词向量中各词的特征数据,对所述语义关系词向量进行加权平均计算,得到所述待分析数据的完整数据向量。上述方案中,所述第二计算单元,具体用于将所述第一计算单元得到的所述完整数据向量转换成SVM格式文件,对所述SVM格式文件进行标准化处理,得到用于进行交叉验证的SVM参数;在所述SVM参数中选择RBF和第一参数、第二参数进行交叉验证,得到用于在训练语料中获取SVM模型的第一最佳参数和第二最佳本文档来自技高网
...
一种情感数据的分析方法及装置

【技术保护点】
一种情感数据的分析方法,其特征在于,所述方法包括:获取待分析数据;对所述待分析数据进行分词处理,得到分词特征数据;将所述分词特征数据生成用于确定所述分词特征数据中各词之间语义关系的分布式词向量;根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量;根据学习模型对所述完整数据向量进行分类计算,得到用于确定所述待分析数据的情感属性。

【技术特征摘要】
1.一种情感数据的分析方法,其特征在于,所述方法包括:获取待分析数据;对所述待分析数据进行分词处理,得到分词特征数据;将所述分词特征数据生成用于确定所述分词特征数据中各词之间语义关系的分布式词向量;根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量;根据学习模型对所述完整数据向量进行分类计算,得到用于确定所述待分析数据的情感属性。2.根据权利要求1所述的方法,其特征在于,在对所述待分析数据进行分词处理之前,所述方法还包括:对所述待分析数据进行噪声过滤与重复评论去重,得到第一待分析数据;对所述第一待分析数据进行分词处理,得到所述分词特征数据。3.根据权利要求2所述的方法,其特征在于,在得到所述分词特征数据之后,所述方法还包括:对所述分词特征数据进行重复词或重复字去重,得到第一分词特征数据;将所述第一分词特征数据生成所述分布式词向量。4.根据权利要求1所述的方法,其特征在于,根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量,包括:根据所述分布式词向量确定各词之间的词窗口大小数据和词向量维度数据;根据所述词窗口大小数据和所述词向量维度数据,确定所述待分析数据的语义关系词向量;根据所述语义关系词向量中各词的特征数据,对所述语义关系词向量进行加权平均计算,得到所述待分析数据的完整数据向量。5.根据权利要求1所述的方法,其特征在于,所述根据学习模型对所述完整数据向量进行分类计算,包括:将所述完整数据向量转换成支持向量机SVM格式文件,并对所述SVM格式文件进行标准化处理,得到用于进行交叉验证的SVM参数;在所述SVM参数中选择径向基核函数RBF和第一参数、第二参数进行交叉验证,得到用于在训练语料中获取SVM模型的第一最佳参数和第二最佳参数;根据所述第一最佳参数和所述第二最佳参数确定出的SVM模型对所述完整数据向量进行分类计算。6.根据权利要求1所述的方法,其特征在于,所述得到用于确定所述待分析数据的情感属性,包括:根据所述学习模型确定所述待分析数据的情感属性的分类概率,根据所述分类概率得到所述待分析数据的情感属性的分值;根据所述分值确定所述待分析数据的情感属性。7.一种情感数据的分析装置,其特征在于,所述装置包括:数据获取单元、分词处理单元、数据生成单元、第一计算单元和第二计算单元;其中,所述数据获取单元,用于获取...

【专利技术属性】
技术研发人员:刘伟伟史佳慧骆世顺
申请(专利权)人:咪咕数字传媒有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1