一种基于评论情感分析的汽车销量预测方法技术

技术编号:19009133 阅读:28 留言:0更新日期:2018-09-22 09:00
本发明专利技术请求保护一种基于情感分析的汽车销量预测方法,在汽车评论网站获取评论数据对数据进行预处理,利用多标签分类方法将评论数据按照用户的使用体验分为安全,舒适,操控,动力,经济和服务六个方面;将各方面情感因素分别融入模型建立情感预测模型。对汽车销量进行预测,找出消费者更加注重汽车性能的哪一方面,对以后的生产作为指导。该方法操作过程:用户输入以往销售数据,将数据带入模型,得到下一季度的销量预测数据。本预测方法提高了预测准确度。

A car sales forecasting method based on sentiment analysis

The invention requests protection of a method for predicting automobile sales based on emotional analysis. The method obtains comment data from automobile comment website and preprocesses the data. According to user's experience, the comment data is divided into six aspects: safety, comfort, control, power, economy and service. Affective factors were integrated into the model to establish affective prediction models. Predict the sales of automobiles, find out which aspect of automobile performance consumers pay more attention to, as a guide for future production. The operation process of this method: the user inputs the previous sales data, brings the data into the model, and obtains the sales forecast data for the next quarter. This prediction method improves the prediction accuracy.

【技术实现步骤摘要】
一种基于评论情感分析的汽车销量预测方法
本专利技术属于汽车销量分析预测领域,具体属于一种涉及评论情感分析的评论情感分析的汽车销量。
技术介绍
汽车销量预测技术指的是根据以往的销售数据和其他数据对下个某个阶段的销量进行估计。现有的汽车销量预测技术主要是根据以往的销售数据,使用自回归模型或者灰色模型预测技术。基于这些预测方法的局限在于,深入在以往的销售数据忽略了用户的评论数据的影响。根据研究在线评论数据有助于提高销量预测模型的准确率。基于汽车评论数据进行预测是当前研究的热门方向,但存在一些难点如在自然语言处理方面(现在的评论语言种类繁多,随意性大,网络用语较多)。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种提高预测的准确性的基于评论情感分析的汽车销量预测方法。本专利技术的技术方案如下:一种基于评论情感分析的汽车销量预测方法,其包括如下步骤:1)、对汽车评论数据进行包括统一格式并剔除重复词汇在内的预处理;2)、利用中科院汉语语法系统对经过预处理后的汽车评论数据进行分词处理,去除停用词;3)、利用多标签分类技术对对步骤2分词处理后的评论数据集进行多标签分类;4)、使用互信息技术对情感值进行量化,求得评论文本集的情感值;5)、将情感值融合进入回归模型预测下个阶段的汽车销量。进一步的,所述步骤1)将汽车评论数据分为舒适、动力、操控、服务、经济和安全六个方面,首先求出一个评论词与类标签之间的关系,公式如下:其中,n表示文档总数,表示词word不在文档Di中,x2表示某一个词word和汽车某一方面lj之间的相关性,表示不含有lj方面,即p(word,lj)表示词Word在文档Di中出现的次数且lij=1,lj表示汽车的某一方面性能,使用L={l1,l2,....,lj,…,l6}表示由6种标签构成的标记集合。具体为文档集合D所涉及的多个性能构成的方面集合,使用汽车的舒适性、动力性、操控性、服务性、经济性和安全性六个性能方面。j表示其中某一种性能(1≤j≤6),i表示第i篇文档。p(word)表示词word在文档Di中出现的次数,p(lj)文本集中lj出现的次数,表示词word不在文档Di出现的次数。进一步的,所述步骤1)使用中科院计算所的汉语词法分析系统ICTCLAS3,首先将搜狗输入法中与汽车行业相关的细胞词库导入汉语词法分析系统,利用UltraEdit编辑器将非文本格式的词库解析出来,统一格式并剔除重复词汇。进一步的,所述步骤2)将数词、代词、量词、拟声词、方位词、连词、叹词、后接成分和助词作为停用词。进一步的,所述使用平均X2的聚合策略来度量X2的值,公式如下:将X2的值从高到低排序选取部分词作为特征项,一词频作为特征项的权值,使用向量空间模型对文本进行表示,并求得每篇评论文档的特征向量di,采用SVM对文档进行分类。进一步的,所述步骤4)对情感值进行量化具体包括:当评价分数小于等于2时,认为是负向文本,归属于负向文本集;当评价分数为5时,认为是正向文本,并入正向文本集,文本中每个词word的情感值S(word)计算方式为:S(word)=P(word,pos)-P(word,neg)其中f(word,pos)表示word在正向文本集只出现的频次,f(word)表示word在整个文本集中出现的次数;f(pos)表示正向文档的数量;M表示整个文本集的数量,同理可计算P(word,neg)的值。P(word,neg)词word与负向文档之间的互信息。S(word)计算公式可化简为则第i篇评论的情感值Srev(rk)为:f(neg)表示负向文档的数量。q表示第i篇评论文档中含有q个情感词典中的词,即每篇评论文本的情感值由每个词的情感值累加而成。进一步的,所述步骤5)使用修改的回归模型AR模型进行预测,用yt表示第t个月的销售量,t=1,2,…,n;n表示未来某个月。q表示第t个月之前q个月的情感因素的影响,wt表示第t个月的情感影响,αi为最小二乘法得到的模型参数,P表示要考察的第t个月之前的P个月,i表示前P个月中的某个月,α0表示常数项,εt表示误差项,将各个标签下的情感因素分别代入模型,通过训练集的对比可以找出消费者更看中汽车性能的哪一个方面。本专利技术的优点及有益效果如下:1、有别于传统预测,使用评论数据,考虑用户对于产品的喜好程度。避免造成数据浪费。2、可以分别使用汽车某一方面性能的评论数据进行预测,找出消费者更看中汽车的哪一方面性能。3、使预测更加精确。附图说明图1是本专利技术提供优选实施例操作流程图;图2是本专利技术的多标签分类结果图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例。本专利技术解决上述技术问题的技术方案是:对网络评论进行预处理。使用中科院计算所的汉语词法分析系统(ICTCLAS3)。首先搜狗输入法中与汽车行业相关的细胞词库,导入语法系统,利用UltraEdit编辑器将非文本格式的词库解析出来,统一格式并剔除重复词汇。依据分词结果去除停用词,将数词、代词、量词、拟声词、方位词、连词、叹词、后接成分和助词作为停用词。1)对多标记分类由汽车评论文本构成的多标记训练数据集用(D,T,L)表示,D={D1,D2,…,Dn}={(d1,y1),(d2,y2),…(dn,yn)},表示由汽车这一石头的n篇评论文档构成的多标记数据集,每篇文档Di由特征向量di和标记向量yi组成(1<<i<<n),T=(t1,t2,…tp)表示n篇评论文档中选择的p个关键词构成的特征集合。L={l1,l2,…,l6}表示由6种标签构成的标记集合(舒适、动力、操控、服务、经济和安全)。特征向量di={w1i,w2i,...,wji,...,wpi}wij表示关键词tj在文档Di中的相应权值。每篇文档对应于标记集合L中的一个或者多个性能标签,并有0和1构成一个二值向量yi,如果Di包含类别lj,则yji=1,否则为0。a)以X2统计度量一个词一某一个标签之间的相关性,公式如下:其中,n表示文档总数,p(word,lj)表示词Word在文档Di中出现的次数(且lij=1),同理表示不在文档Di中b)使用平均X2的聚合策略来度量X2的值,公式如下:将X2的值从高到低排序选取部分词作为特征项,一词频作为特征项的权值,使用向量空间模型对文本进行表示,并求得每篇评论文档的特征向量di。c)采用SVM对文档进行分类,3)情感值的确定根据新浪汽车的评价体系,当消费者对某项评价为1分或2分时,表示消费者对该项非常不满意;而给出5分时,则认为消费者对该项满意。对于一条评论文本,当评价分数小于等于2时,认为是负向文本,归属于负向文本集;当评价分数为5时,认为是正向文本,并入正向文本集。文本中每个词word的情感值S(word)计算方式为:S(word)=P(word,pos)-P(word,neg)其中f(word,pos)表示word在正向文本集只出现的频次,f(word)表示word在整个文本集中出现的次数;f(pos)表示正向文档的数量;M表示整个文本集的数量。同理可计算P(word,neg)的值。S(word)计算公式可化简为则第i篇评论的情感值Sr本文档来自技高网...
一种基于评论情感分析的汽车销量预测方法

【技术保护点】
1.一种基于评论情感分析的汽车销量预测方法,其特征在于,包括如下步骤:1)、对汽车评论数据进行包括统一格式并剔除重复词汇在内的预处理;2)、利用中科院汉语语法系统对经过预处理后的汽车评论数据进行分词处理,去除停用词;3)、利用多标签分类技术对对步骤2分词处理后的评论数据集进行多标签分类;4)、使用互信息技术对情感值进行量化,求得评论文本集的情感值;5)、将情感值融合进入回归模型预测下个阶段的汽车销量。

【技术特征摘要】
1.一种基于评论情感分析的汽车销量预测方法,其特征在于,包括如下步骤:1)、对汽车评论数据进行包括统一格式并剔除重复词汇在内的预处理;2)、利用中科院汉语语法系统对经过预处理后的汽车评论数据进行分词处理,去除停用词;3)、利用多标签分类技术对对步骤2分词处理后的评论数据集进行多标签分类;4)、使用互信息技术对情感值进行量化,求得评论文本集的情感值;5)、将情感值融合进入回归模型预测下个阶段的汽车销量。2.根据权利要求1所述的基于评论情感分析的汽车销量预测方法,其特征在于,所述步骤1)将汽车评论数据分为舒适、动力、操控、服务、经济和安全六个方面,首先求出一个评论词与类标签之间的关系,公式如下:其中,n表示文档总数,表示词word不在文档Di中,x2表示某一个词word和汽车某一方面lj之间的相关性,表示不含有lj方面,即p(word,lj)表示词Word在文档Di中出现的次数且lij=1,lj表示汽车的某一方面性能,j表示其中某一种性能编号(1≤j≤6),i表示第i篇文档。p(word)表示词word在文档Di中出现的次数,p(word)表示词word在文档Di中出现的次数,p(lj)文本集中lj出现的次数,表示词word不在文档Di出现的次数。3.根据权利要求1或2所述的基于评论情感分析的汽车销量预测方法,其特征在于,所述步骤1)使用中科院计算所的汉语词法分析系统ICTCLAS3,首先将搜狗输入法中与汽车行业相关的细胞词库导入汉语词法分析系统,利用UltraEdit编辑器将非文本格式的词库解析出来,统一格式并剔除重复词汇。4.根据权利要求3所述的基于评论情感分析的汽车销量预测方法,其特征在于,所述步骤2)将数词、代词、量词、拟声词、方位词、连词、叹词、后接成分和助词作为停用词。5.根据权利要求2所述的基于...

【专利技术属性】
技术研发人员:周应华商楠
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1