电商评论分析方法、系统及计算机可读存储介质技术方案

技术编号:37393459 阅读:36 留言:0更新日期:2023-04-27 07:30
本发明专利技术涉及电商评论分析方法、系统及计算机可读存储介质,其电商评论分析方法包括:抓取电商平台的商品评论数据;对商品评论数据进行清洗,得到目标商品评论数据;利用电商评论观点分析模型对目标商品评论数据进行观点分析,得到每条评论文本的四元组信息,四元组信息包括属性词及其对应的属性类别、观点词、情感极性;具体利用BERT模型和BiLSTM模型进行编码,之后获取四元组信息。本发明专利技术采用基于BERT和BiLSTM编码相结合,先抽取属性词,然后基于属性词信息抽取观点词,并进行属性类别和情感极性的判别,实现了更细粒度的四元组(属性、观点、属性类别、情感极性)抽取,能更好地分析消费者对商品的观点和看法。费者对商品的观点和看法。费者对商品的观点和看法。

【技术实现步骤摘要】
电商评论分析方法、系统及计算机可读存储介质


[0001]本专利技术属于数据分析
,具体涉及电商评论分析方法、系统及计算机可读存储介质。

技术介绍

[0002]随着互联网电商的发展和普及,越来越多的消费者开始在电商平台上购物。在购物过程中,消费者往往会通过发表评论来描述对商品的使用体验,商家端会积累大量的商品评论数据。对商家来说,从大量的商品评论数据中挖掘出消费者的观点和情感倾向,对于把握消费者需求和喜好,同时将其用于竞品分析、产品迭代、体验优化等有着很现实的意义。现有技术中,按照情感倾向的不同判别粒度,可以将评论观点分析分为句子粒度情感分析和细粒度情感分析(Aspect

based Sentiment Analysis,简称ABSA)。
[0003]句子粒度情感分析一般就是判别某个用户的一条评论的整体情感,常见的分类为“好评”、“中评”、“差评”;如果一条评论中只存在一种情感极性,如“快递很给力,第二天就到了”,句子粒度情感分析可以将其分类到“好评”标签中;如果一条评论中存在多种情感极性,如“快递很给力,第二天就到了,就是味道不太好闻”中有正负两种情感极性,句子粒度情感分析就很难进行分类。句子粒度情感分析由于其粒度较大,导致分析结果很多时候是没有太大的参考价值。句子粒度情感分析属于文本分类任务,常见的算法模型有长短期记忆网络(Long short term memory,简称LSTM)文本分类模型、双向编码表征转换算法(Bidirectional Encoder Representation from Transformers,简称BERT)文本分类模型等。
[0004]细粒度情感分析一般是针对一条文本里面的多个属性,识别每个属性对应的观点和情感极性(又称观点极性)。常见的细粒度情感分析主要是抽取(属性词、观点、观点极性)三元组,如图1所示,对于“快递很给力,第二天就到了,就是味道不太好闻。”,可以从其中抽取出(快递、给力、正面)和(气味、不太好闻、负面)两个三元组信息。
[0005]目前常见的电商评论观点分析方案,在抽取粒度上基本为(属性、观点、情感极性)的三元组抽取,根据不同的应用场景,如美妆、家电等场景,建立相应的标签体系,再标注一定量的数据用于训练模型,模型训练完成后就可以部署使用;整个方案在流程上需要用户参与的地方很多,如预测数据抓取、后续的数据分析等,主要存在以下缺点和不足:一、分析粒度不够细致。目前市场上常见的电商评论观点分析主要分为粗粒度情感分析和细粒度情感分析,粗粒度情感分析主要是识别评论文本的正负向的情感极性,对一条评论文本包含多个情感极性的情况不能很好的区分。细粒度情感分析主要是抽取(属性、观点、情感极性)三元组,如申请号为CN201910571890.4的专利文献公开的基于个人计算机电商评论的多粒度观点挖掘方法,公开了基于(属性、观点、情感极性)三元组的电商评论的多粒度观点挖掘方法,然而抽取(属性、观点、情感极性)三元组只能判断属性与观点的正负向情感,无法明确属性与观点具体描述的问题点,如物流、服务等。对于商家来说,获取属性分类对于准确快速地判别消费者关注的问题点是至关重要的。
[0006]二、无法处理属性缺失的情况。目前常用的细粒度情感分析是抽取(属性、观点、情感极性)三元组,如“快递很给力”这句话抽取结果为(快递、给力、正面)三元组,是对快递的正面观点。但是现实中还存在很多属性词缺失的情况,如“不太好闻”这句话是描述味道不太好闻,但是只有观点词“不太好闻”,而缺失了属性词“味道”,目前很多常见的细粒度情感分析模型只能够识别带有属性词的观点,不能很好的处理属性词缺失的情况。
[0007]三、缺乏完善的电商评论分析监控系统,用户使用成本高。目前常见的细粒度电商评论分析的解决方案,需要用户参与的地方较多,如前期的数据导入和后续的数据分析显示等,一方面增加了用户的使用成本和难度,对用户来说体验不好,另一方面也增加了系统部署使用所需要的时间。实际上可以实现端到端的解决方案,用户只需要在系统的商品链接框内输入商品链接的网址,系统就能自动抓取该商品的所有评论,然后输出评论观点分析的结果,这样对用户来说只需要输入商品链接即可,可以大大提升效率和体验。

技术实现思路

[0008]基于现有技术中存在的上述缺点和不足,本专利技术的目的之一是至少解决现有技术中存在的上述问题之一或多个,换言之,本专利技术的目的之一是提供满足前述需求之一或多个的电商评论分析方法、系统及计算机可读存储介质。
[0009]为了达到上述专利技术目的,本专利技术采用以下技术方案:一种电商评论分析方法,包括以下步骤:S1、抓取电商平台的商品评论数据;S2、对商品评论数据进行清洗,得到目标商品评论数据;S3、利用电商评论观点分析模型对目标商品评论数据进行观点分析,得到每条评论文本的四元组信息,四元组信息包括属性词及其对应的属性类别、观点词、情感极性;其中,观点分析的过程,包括以下步骤:S31、将目标商品评论数据输入BERT模型进行编码,取BERT模型的后四层向量的平均值作为BERT编码向量;将目标商品评论数据转换为腾讯词向量,之后输入第一BiLSTM模型进行编码,得到BiLSTM编码向量;将BERT编码向量和BiLSTM编码向量拼接,得到句子编码向量;S32、基于句子编码向量进行属性词抽取,得到属性词;S33、基于属性词进行观点词的抽取以及属性类别和情感极性的预测。
[0010]作为优选方案,所述步骤S32具体包括:句子编码向量分别经过第一全连接网络和第二全连接网络分别得到Start和End序列,两个序列组合以抽取属性词;其中,Start和End序列分别用于标记每个属性词的开始和结束位置,序列长度和评论文本的字符个数相等;对于Start序列,在属性词开始的位置为1,其它位置为0;对于End序列,在属性词结束的位置为1,其它位置为0。
[0011]作为优选方案,所述步骤S33具体包括以下步骤:S331、对句子编码向量中的属性词进行显式标注,并进行向量转换得到第一目标句向量;
将属性词对应的词向量拼接在第一目标句向量中的每个字向量之后,得到第二目标句向量;以属性词的开始位置作为初始零位,基于第一目标句向量往两边扩充,每移动一个字,就在上一个字的位置基础上加1,以得到每个字的相对位置并进行向量编码,得到相对位置编码;将相对位置编码拼接在第二目标句向量中的每个字向量之后,得到第三目标句向量;S332、将第一目标句向量、第二目标句向量和第三目标句向量输入第二BiLSTM模型,以输出BiLSTM特征向量;S333、BiLSTM特征向量输入第三全连接网络,以进行观点词的抽取;BiLSTM特征向量输入第四全连接网络,以进行属性类别和情感极性的预测。
[0012]作为优选方案,所述步骤S331中,对句子编码向量中的属性词进行显式标注的过程包括:在属性词的前后添加标识符以标注属性词的位置,之后进行向量转换,得到第一目标句向量。
[0013]作为优选方案,若属性词缺失,则第一目标句向量、第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电商评论分析方法,其特征在于,包括以下步骤:S1、抓取电商平台的商品评论数据;S2、对商品评论数据进行清洗,得到目标商品评论数据;S3、利用电商评论观点分析模型对目标商品评论数据进行观点分析,得到每条评论文本的四元组信息,四元组信息包括属性词及其对应的属性类别、观点词、情感极性;其中,观点分析的过程,包括以下步骤:S31、将目标商品评论数据输入BERT模型进行编码,取BERT模型的后四层向量的平均值作为BERT编码向量;将目标商品评论数据转换为腾讯词向量,之后输入第一BiLSTM模型进行编码,得到BiLSTM编码向量;将BERT编码向量和BiLSTM编码向量拼接,得到句子编码向量;S32、基于句子编码向量进行属性词抽取,得到属性词;S33、基于属性词进行观点词的抽取以及属性类别和情感极性的预测。2.根据权利要求1所述的一种电商评论分析方法,其特征在于,所述步骤S32具体包括:句子编码向量分别经过第一全连接网络和第二全连接网络分别得到Start和End序列,两个序列组合以抽取属性词;其中,Start和End序列分别用于标记每个属性词的开始和结束位置,序列长度和评论文本的字符个数相等;对于Start序列,在属性词开始的位置为1,其它位置为0;对于End序列,在属性词结束的位置为1,其它位置为0。3.根据权利要求2所述的一种电商评论分析方法,其特征在于,所述步骤S33具体包括以下步骤:S331、对句子编码向量中的属性词进行显式标注,并进行向量转换得到第一目标句向量;将属性词对应的词向量拼接在第一目标句向量中的每个字向量之后,得到第二目标句向量;以属性词的开始位置作为初始零位,基于第一目标句向量往两边扩充,每移动一个字,就在上一个字的位置基础上加1,以得到每个字的相对位置并进行向量编码,得到相对位置编码;将相对位置编码拼接在第二目标句向量中的每个字向量之后,得到第三目标句向量;S332、将第一目标句向量、第二目标句向量和第三目标句向量输入第二BiLSTM模型,以输出BiLSTM特征向量;S333、BiLSTM特征向量输入第三全连接网络,以进行观点词的抽取;BiLSTM特征向量输入第四全连接网络,以进行属性类别和情感极性的预测。4.根据权利要求3所...

【专利技术属性】
技术研发人员:倪进鑫
申请(专利权)人:杭州实在智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1