【技术实现步骤摘要】
一种汽车口碑的情感分析方法和装置
本申请涉及汽车数据分析
,尤其涉及一种汽车口碑的情感分析方法和装置。
技术介绍
随着网络社交媒体的快速发展,情感分析已经成为自然语言处理(NLP)中最活跃的研究领域之一。无论是个人还是企业,本实施例常常需要借助于别人的意见做出决定。因此,情感分析的重要性引发整个社会的共同关注。在汽车这个细分领域中,用户买车、用车过程中会发表海量评论(即汽车口碑数据),企业希望可以自动挖掘出评论中用户的评价态度,以正确分析客户情感,精准定位产品问题,进而满足客户需求。现有技术中汽车口碑的情感分析方法主要有:通过手工打标签,然后对整段评论建分类模型,判断整体的情感极性;或是调用目前一些开放的接口,如百度AI接口,进行整段评论的情感极性判断;或是对评论从整体到部分,如将文本按主题进行划分,再提取主题下特征信息,判断情感极性。然而上述的现有情感分析方法存在如下缺点:(1)虽然对整段评论进行情感极性判断的准确率会普遍偏高,但得出的结论比较笼统,无法进一步得出具体的改善方向,比如用户讲“空间”方面的评价,只能得出对“空间”整体的情感极性是“正、中、负”其中一个,无法得知是“前排空间”、“后排空间”还是“头部空间”的问题,且手工打标签,很难保证样本的丰富度,容易导致过拟合。(2)调用现有情感极性判断接口,限制多,并且无法进行词典优化,质量提升空间有限。(3)当一条评论中主题不唯一时,每个主题下的特征会出现交叉现象,比较难确定特征的唯一性,导致主题的情感 ...
【技术保护点】
1.一种汽车口碑的情感分析方法,其特征在于,包括步骤:/nS1、从汽车平台获取用于训练和测试的汽车口碑数据;/nS2、基于自然语言处理,对所述汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取,并对所述汽车配置项所在切割语料的情感极性进行判断后得到样本数据,其中,所述切割语料为基于所述汽车配置项对所述汽车口碑数据进行切割后得到的;/nS3、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行分层抽样,并基于抽样的数据构建训练集和测试集;/nS4、基于所述样本数据,构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型;/nS5、通过训练集训练所述隐马尔可夫模型,直至训练后的所述隐马尔可夫模型对所述测试集的预测准确率满足预设条件,停止训练,并保存训练后的各所述隐马尔可夫模型;/nS6、获取新汽车口碑数据,并基于保存的所述隐马尔可夫模型对所述新汽车口碑数据进行基于所述汽车配置项的情感极性分析,得到所述新汽车口碑数据对应的情感分析结果;/nS7、基于预置指标维度,汇总所述情感分析结果对应的指标维度结果后,展示所述指标维度结果。/n
【技术特征摘要】
1.一种汽车口碑的情感分析方法,其特征在于,包括步骤:
S1、从汽车平台获取用于训练和测试的汽车口碑数据;
S2、基于自然语言处理,对所述汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取,并对所述汽车配置项所在切割语料的情感极性进行判断后得到样本数据,其中,所述切割语料为基于所述汽车配置项对所述汽车口碑数据进行切割后得到的;
S3、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行分层抽样,并基于抽样的数据构建训练集和测试集;
S4、基于所述样本数据,构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型;
S5、通过训练集训练所述隐马尔可夫模型,直至训练后的所述隐马尔可夫模型对所述测试集的预测准确率满足预设条件,停止训练,并保存训练后的各所述隐马尔可夫模型;
S6、获取新汽车口碑数据,并基于保存的所述隐马尔可夫模型对所述新汽车口碑数据进行基于所述汽车配置项的情感极性分析,得到所述新汽车口碑数据对应的情感分析结果;
S7、基于预置指标维度,汇总所述情感分析结果对应的指标维度结果后,展示所述指标维度结果。
2.根据权利要求1所述的汽车口碑的情感分析方法,其特征在于,步骤S1具体包括:
S11、从汽车平台获取用于训练和测试的汽车口碑数据;
S12、构建所述汽车口碑数据的情感元素五元组,其中,所述情感元素五元组包括:所述汽车配置项、所述情感词、所述程度词、所述否定词和所述汽车配置项的配置项类别。
3.根据权利要求2所述的汽车口碑的情感分析方法,其特征在于,步骤S2具体包括:
S21、基于结巴分词,根据步骤S12中的所述汽车配置项对所述汽车口碑数据进行切割,得到切割语料;
S22、根据所述汽车配置项和对应的切割语料的语料类别,通过卡方计算各所述汽车配置项对应的所述配置项类别;
S23、根据步骤S12中的所述情感元素五元组对所述切割语料进行分词,并对所述汽车配置项、所述情感词、所述程度词、所述否定词进行实体抽取;
S24、对所述汽车配置项所在的所述切割语料进行情感极性的判断,得到情感极性计分;
S25、按所述配置项类别对所述情感极性计分进行随机抽样后,进行人工校对,当校对准确率达到预置准确率阈值后,将实体抽取的所述汽车配置项、所述情感词、所述程度词和所述否定词作为样本数据。
4.根据权利要求3所述的汽车口碑的情感分析方法,其特征在于,步骤S3具体包括:
S31、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行组合分层;
S32、对组合分层后的数据按照第一预置比例进行抽取,得到抽取数据;
S33、对抽取数据进行清洗、分词、去停用词后,得到中间数据;
S34、按照第二预置比例分配所述中间数据,得到训练集和测试集。
5.根据权利要求4所述的汽车口碑的情感分析方法,其特征在于,步骤S4具体包括:
S41、基于所述样本数据构建用于构建隐马尔可夫模型的隐马尔可夫五元组;
S42、根据所述隐马尔可夫五元组分别构建各汽车配置项的正、中、负三个情感极性的隐马尔可夫模型。
6.根据权利要求5所述的汽车口碑的情感分析方法,其特征在于,步骤S5具体包括:
S51、通过训练...
【专利技术属性】
技术研发人员:陈晶,李奏换,卢春霞,黎秋怡,刘丹,梁维新,
申请(专利权)人:广州威尔森信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。