一种汽车口碑的情感分析方法和装置制造方法及图纸

技术编号:26763944 阅读:20 留言:0更新日期:2020-12-18 23:32
本申请公开了一种汽车口碑的情感分析方法和装置,其中方法包括:获取汽车口碑数据;基于自然语言处理,对汽车口碑数据处理得到样本数据;基于样本数据构建训练集和测试集;基于样本数据,构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型;通过训练集和测试集训练隐马尔可夫模型,并保存训练后的各隐马尔可夫模型;获取新汽车口碑数据,并基于保存的隐马尔可夫模型对新汽车口碑数据进行基于汽车配置项的情感极性分析,得到情感分析结果;基于预置指标维度,汇总情感分析结果对应的指标维度结果后进行展示,解决了自然语言导致后期维护量大且麻烦的困扰和传统机器学习方式导致的样本数据不全面引发的过拟合的技术问题。

【技术实现步骤摘要】
一种汽车口碑的情感分析方法和装置
本申请涉及汽车数据分析
,尤其涉及一种汽车口碑的情感分析方法和装置。
技术介绍
随着网络社交媒体的快速发展,情感分析已经成为自然语言处理(NLP)中最活跃的研究领域之一。无论是个人还是企业,本实施例常常需要借助于别人的意见做出决定。因此,情感分析的重要性引发整个社会的共同关注。在汽车这个细分领域中,用户买车、用车过程中会发表海量评论(即汽车口碑数据),企业希望可以自动挖掘出评论中用户的评价态度,以正确分析客户情感,精准定位产品问题,进而满足客户需求。现有技术中汽车口碑的情感分析方法主要有:通过手工打标签,然后对整段评论建分类模型,判断整体的情感极性;或是调用目前一些开放的接口,如百度AI接口,进行整段评论的情感极性判断;或是对评论从整体到部分,如将文本按主题进行划分,再提取主题下特征信息,判断情感极性。然而上述的现有情感分析方法存在如下缺点:(1)虽然对整段评论进行情感极性判断的准确率会普遍偏高,但得出的结论比较笼统,无法进一步得出具体的改善方向,比如用户讲“空间”方面的评价,只能得出对“空间”整体的情感极性是“正、中、负”其中一个,无法得知是“前排空间”、“后排空间”还是“头部空间”的问题,且手工打标签,很难保证样本的丰富度,容易导致过拟合。(2)调用现有情感极性判断接口,限制多,并且无法进行词典优化,质量提升空间有限。(3)当一条评论中主题不唯一时,每个主题下的特征会出现交叉现象,比较难确定特征的唯一性,导致主题的情感极性判断可能错误。
技术实现思路
有鉴于此,本申请提供了一种汽车口碑的情感分析方法和装置,解决了自然语言导致后期维护量大且麻烦的困扰和传统机器学习方式导致的样本数据不全面引发的过拟合的技术问题。本申请第一方面提供了一种汽车口碑的情感分析方法,包括步骤:S1、从汽车平台获取用于训练和测试的汽车口碑数据;S2、基于自然语言处理,对所述汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取,并对所述汽车配置项所在切割语料的情感极性进行判断后得到样本数据,其中,所述切割语料为基于所述汽车配置项对所述汽车口碑数据进行切割后得到的;S3、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行分层抽样,并基于抽样的数据构建训练集和测试集;S4、基于所述样本数据,构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型;S5、通过训练集训练所述隐马尔可夫模型,直至训练后的所述隐马尔可夫模型对所述测试集的预测准确率满足预设条件,停止训练,并保存训练后的各所述隐马尔可夫模型;S6、获取新汽车口碑数据,并基于保存的所述隐马尔可夫模型对所述新汽车口碑数据进行基于所述汽车配置项的情感极性分析,得到所述新汽车口碑数据对应的情感分析结果;S7、基于预置指标维度,汇总所述情感分析结果对应的指标维度结果后,展示所述指标维度结果。可选地,步骤S1具体包括:S11、从汽车平台获取用于训练和测试的汽车口碑数据;S12、构建所述汽车口碑数据的情感元素五元组,其中,所述情感元素五元组包括:所述汽车配置项、所述情感词、所述程度词、所述否定词和所述汽车配置项的配置项类别。可选地,步骤S2具体包括:S21、基于结巴分词,根据步骤S12中的所述汽车配置项对所述汽车口碑数据进行切割,得到切割语料;S22、根据所述汽车配置项和对应的切割语料的语料类别,通过卡方计算各所述汽车配置项对应的所述配置项类别;S23、根据步骤S12中的所述情感元素五元组对所述切割语料进行分词,并对所述汽车配置项、所述情感词、所述程度词、所述否定词进行实体抽取;S24、对所述汽车配置项所在的所述切割语料进行情感极性的判断,得到情感极性计分;S25、按所述配置项类别对所述情感极性计分进行随机抽样后,进行人工校对,当校对准确率达到预置准确率阈值后,将实体抽取的所述汽车配置项、所述情感词、所述程度词和所述否定词作为样本数据。可选地,步骤S3具体包括:S31、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行组合分层;S32、对组合分层后的数据按照第一预置比例进行抽取,得到抽取数据;S33、对抽取数据进行清洗、分词、去停用词后,得到中间数据;S34、按照第二预置比例分配所述中间数据,得到训练集和测试集。可选地,步骤S4具体包括:S41、基于所述样本数据构建用于构建隐马尔可夫模型的隐马尔可夫五元组;S42、根据所述隐马尔可夫五元组分别构建各汽车配置项的正、中、负三个情感极性的隐马尔可夫模型。可选地,步骤S5具体包括:S51、通过训练集训练所述隐马尔可夫模型;S52、验证步骤S51得到的所述隐马尔可夫模型对所述测试集中的测试数据的情感测试结果;S53、判断所述情感测试结果的预测准确率和F1,若均满足各自对应的子预设条件,则保存训练后的各所述隐马尔可夫模型,否则,确定造成未满足子预设条件的原因后,返回步骤S51重新训练所述隐马尔可夫模型其中,F1为精确率和召回率的调和平均数。可选地,步骤S6具体包括:S61、通过异步多线程接口将新汽车口碑数据平均分配到不同线程中进行处理;S62、根据所述新汽车口碑数据中包括的汽车配置项,对所述新汽车口碑数据进行口碑语料切割,得到拆分数据;S63、对所述拆分数据清洗、分词、去停用词后,得到待分析数据;S64、基于保存的所述隐马尔可夫模型对所述待分析数据进行基于所述汽车配置项的情感极性分析,得到所述新汽车口碑数据对应的情感分析结果。可选地,步骤S7具体包括:S71、将步骤S22得到的所述配置项类别作为一级指标;S72、将预置二级指标和所述汽车口碑数据中包括的汽车配置项添加至原文中,采用词向量与正则计算该汽车配置项与各预置二级指标的相关性,判断该汽车配置项的指标维度结果;S73、将预置三级指标和所述汽车口碑数据中包括的汽车配置项添加至原文中,采用词向量与正则计算该汽车配置项与各预置三级指标的相关性,判断该汽车配置项的指标维度结果;S74、汇总所有所述指标维度结果后,展示所述指标维度结果。本申请第二方面提供了一种汽车口碑的情感分析装置,包括:第一获取单元,用于从汽车平台获取用于训练和测试的汽车口碑数据;第一处理单元,用于基于自然语言处理,对所述汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取,并对所述汽车配置项所在切割语料的情感极性进行判断后得到样本数据,其中,所述切割语料为基于所述汽车配置项对所述汽车口碑数据进行切割后得到的;分层抽样单元,用于对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行分层抽样,并基于抽样的数据构建训练集和测试集;模型构建单元,用本文档来自技高网
...

【技术保护点】
1.一种汽车口碑的情感分析方法,其特征在于,包括步骤:/nS1、从汽车平台获取用于训练和测试的汽车口碑数据;/nS2、基于自然语言处理,对所述汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取,并对所述汽车配置项所在切割语料的情感极性进行判断后得到样本数据,其中,所述切割语料为基于所述汽车配置项对所述汽车口碑数据进行切割后得到的;/nS3、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行分层抽样,并基于抽样的数据构建训练集和测试集;/nS4、基于所述样本数据,构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型;/nS5、通过训练集训练所述隐马尔可夫模型,直至训练后的所述隐马尔可夫模型对所述测试集的预测准确率满足预设条件,停止训练,并保存训练后的各所述隐马尔可夫模型;/nS6、获取新汽车口碑数据,并基于保存的所述隐马尔可夫模型对所述新汽车口碑数据进行基于所述汽车配置项的情感极性分析,得到所述新汽车口碑数据对应的情感分析结果;/nS7、基于预置指标维度,汇总所述情感分析结果对应的指标维度结果后,展示所述指标维度结果。/n

【技术特征摘要】
1.一种汽车口碑的情感分析方法,其特征在于,包括步骤:
S1、从汽车平台获取用于训练和测试的汽车口碑数据;
S2、基于自然语言处理,对所述汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取,并对所述汽车配置项所在切割语料的情感极性进行判断后得到样本数据,其中,所述切割语料为基于所述汽车配置项对所述汽车口碑数据进行切割后得到的;
S3、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行分层抽样,并基于抽样的数据构建训练集和测试集;
S4、基于所述样本数据,构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型;
S5、通过训练集训练所述隐马尔可夫模型,直至训练后的所述隐马尔可夫模型对所述测试集的预测准确率满足预设条件,停止训练,并保存训练后的各所述隐马尔可夫模型;
S6、获取新汽车口碑数据,并基于保存的所述隐马尔可夫模型对所述新汽车口碑数据进行基于所述汽车配置项的情感极性分析,得到所述新汽车口碑数据对应的情感分析结果;
S7、基于预置指标维度,汇总所述情感分析结果对应的指标维度结果后,展示所述指标维度结果。


2.根据权利要求1所述的汽车口碑的情感分析方法,其特征在于,步骤S1具体包括:
S11、从汽车平台获取用于训练和测试的汽车口碑数据;
S12、构建所述汽车口碑数据的情感元素五元组,其中,所述情感元素五元组包括:所述汽车配置项、所述情感词、所述程度词、所述否定词和所述汽车配置项的配置项类别。


3.根据权利要求2所述的汽车口碑的情感分析方法,其特征在于,步骤S2具体包括:
S21、基于结巴分词,根据步骤S12中的所述汽车配置项对所述汽车口碑数据进行切割,得到切割语料;
S22、根据所述汽车配置项和对应的切割语料的语料类别,通过卡方计算各所述汽车配置项对应的所述配置项类别;
S23、根据步骤S12中的所述情感元素五元组对所述切割语料进行分词,并对所述汽车配置项、所述情感词、所述程度词、所述否定词进行实体抽取;
S24、对所述汽车配置项所在的所述切割语料进行情感极性的判断,得到情感极性计分;
S25、按所述配置项类别对所述情感极性计分进行随机抽样后,进行人工校对,当校对准确率达到预置准确率阈值后,将实体抽取的所述汽车配置项、所述情感词、所述程度词和所述否定词作为样本数据。


4.根据权利要求3所述的汽车口碑的情感分析方法,其特征在于,步骤S3具体包括:
S31、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行组合分层;
S32、对组合分层后的数据按照第一预置比例进行抽取,得到抽取数据;
S33、对抽取数据进行清洗、分词、去停用词后,得到中间数据;
S34、按照第二预置比例分配所述中间数据,得到训练集和测试集。


5.根据权利要求4所述的汽车口碑的情感分析方法,其特征在于,步骤S4具体包括:
S41、基于所述样本数据构建用于构建隐马尔可夫模型的隐马尔可夫五元组;
S42、根据所述隐马尔可夫五元组分别构建各汽车配置项的正、中、负三个情感极性的隐马尔可夫模型。


6.根据权利要求5所述的汽车口碑的情感分析方法,其特征在于,步骤S5具体包括:
S51、通过训练...

【专利技术属性】
技术研发人员:陈晶李奏换卢春霞黎秋怡刘丹梁维新
申请(专利权)人:广州威尔森信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1