The invention discloses an analysis method for emotional data, the method comprises: acquiring data to be analyzed; to analyze data processing on the segmentation, get segmentation feature data; the word feature data generation is used to determine the distributed word vector the semantic relations between the word segmentation characteristics in the data; according to the characteristics of the data of the distributed word of the vector, to obtain the complete data vector data to be analyzed; according to the learning model based on the complete classification calculation of vector data are obtained for determining the data to be analyzed and the emotional properties of the. The invention also discloses an analysis device for the emotional data.
【技术实现步骤摘要】
本专利技术涉及数据分析技术,具体涉及一种情感数据的分析方法及装置。
技术介绍
随着移动互联网的快速发展,促使着人们的生活、工作、娱乐等方方面面的行为方式也发生着改变。例如,对于各大电商、社交、阅读等平台提供的产品、内容或服务,用户自发的评论分享产生的内容呈现出爆发式增长。例如,在图书阅读平台中,每天产生的书评文本就有千万条,而这千万条书评文本中包含有读者对各图书相关内容的评价、对作者的评价、对阅读产品的性能与服务质量的反馈以及读者自身的需求或期望等价值信息,如果所述图书阅读平台能够根据这些书评文本确定出读者对该图书的情感属性(好评或差评),则将会对所述图书阅读平台满足用户的需求以及产品的改进带来极大的便利。现有技术中确定图书情感的方法通常包括以下四种:(1)人工搜索统计;(2)基于特征向量表示进行情感分类;(3)贝叶斯方法对文本特征进行分类;(4)最大熵算法。而上述四种确定图书情感的方法多是适用于短文本评论的情感分析,而在处理大数据量级的长文本评论时,无论在数据特征表示还是处理效率方面都会严重影响最终分析结果,具体如下:针对人工搜索统计的方法:在处理大数据量级的长文本评论时,不仅会消耗巨大的精力与时间,而且也难保证结果的时效性与准确性。针对基于特征向量表示进行情感分类的方法:在处理大数据量级的长文本评论时,由于其特征学习与分类识别均存在局限性。例如,基于向量空间模型(VSM,VectorSpaceModel)在处理数据量与维度较小的短评论时尚可发挥其优势,但在处理大量级长文本评论数据时,依靠大量孤立词集表示的词向量特征维度可达上万级,该模型表示的高维特征 ...
【技术保护点】
一种情感数据的分析方法,其特征在于,所述方法包括:获取待分析数据;对所述待分析数据进行分词处理,得到分词特征数据;将所述分词特征数据生成用于确定所述分词特征数据中各词之间语义关系的分布式词向量;根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量;根据学习模型对所述完整数据向量进行分类计算,得到用于确定所述待分析数据的情感属性。
【技术特征摘要】
1.一种情感数据的分析方法,其特征在于,所述方法包括:获取待分析数据;对所述待分析数据进行分词处理,得到分词特征数据;将所述分词特征数据生成用于确定所述分词特征数据中各词之间语义关系的分布式词向量;根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量;根据学习模型对所述完整数据向量进行分类计算,得到用于确定所述待分析数据的情感属性。2.根据权利要求1所述的方法,其特征在于,在对所述待分析数据进行分词处理之前,所述方法还包括:对所述待分析数据进行噪声过滤与重复评论去重,得到第一待分析数据;对所述第一待分析数据进行分词处理,得到所述分词特征数据。3.根据权利要求2所述的方法,其特征在于,在得到所述分词特征数据之后,所述方法还包括:对所述分词特征数据进行重复词或重复字去重,得到第一分词特征数据;将所述第一分词特征数据生成所述分布式词向量。4.根据权利要求1所述的方法,其特征在于,根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量,包括:根据所述分布式词向量确定各词之间的词窗口大小数据和词向量维度数据;根据所述词窗口大小数据和所述词向量维度数据,确定所述待分析数据的语义关系词向量;根据所述语义关系词向量中各词的特征数据,对所述语义关系词向量进行加权平均计算,得到所述待分析数据的完整数据向量。5.根据权利要求1所述的方法,其特征在于,所述根据学习模型对所述完整数据向量进行分类计算,包括:将所述完整数据向量转换成支持向量机SVM格式文件,并对所述SVM格式文件进行标准化处理,得到用于进行交叉验证的SVM参数;在所述SVM参数中选择径向基核函数RBF和第一参数、第二参数进行交叉验证,得到用于在训练语料中获取SVM模型的第一最佳参数和第二最佳参数;根据所述第一最佳参数和所述第二最佳参数确定出的SVM模型对所述完整数据向量进行分类计算。6.根据权利要求1所述的方法,其特征在于,所述得到用于确定所述待分析数据的情感属性,包括:根据所述学习模型确定所述待分析数据的情感属性的分类概率,根据所述分类概率得到所述待分析数据的情感属性的分值;根据所述分值确定所述待分析数据的情感属性。7.一种情感数据的分析装置,其特征在于,所述装置包括:数据获取单元、分词处理单元、数据生成单元、第一计算单元和第二计算单元;其中,所述数据获取单元,用于获取...
【专利技术属性】
技术研发人员:刘伟伟,史佳慧,骆世顺,
申请(专利权)人:咪咕数字传媒有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。