【技术实现步骤摘要】
一种基于实体情感识别的电商评论意见抽取方法
本专利技术涉及到电商评论意见抽取
,尤其涉及一种基于实体情感识别的电商评论意见抽取方法。
技术介绍
随着互联网技术的日渐成熟以及智能手机的普及,出现了越来越多的电子商务平台,比如网购平台、外卖平台等,给消费者提供了很大的便利。消费者通过这些平台进行网购等操作时,往往习惯通过其他用户对于商品的评论判断商品的品质,进而决定是否进行购买,同时,对于商家和电商平台,可以通过用户的评论判断用户的喜好,进而改进产品或调整广告推送策略,从而达到提升用户体验和提高销售额的目的。用户的评论内容往往以文本为主,因此如何自动化的从大量文本中抽取用户意见就是当前亟待解决的关键问题。然而在传统的意见抽取方法中,会通过构建情感词典的方法来判断观点词的情感倾向,这种方法忽略了词语的上下文联系,且使用场景局限大,对于词典外的词无法进行情感判断;其次,电商场景的用户评论往往复杂度较高,其中可能包含多种产品,产品的不同方面等,现有的意见抽取方法无法指向性得抽取用户感兴趣的实体和方面,而是笼统的抽取文本的 ...
【技术保护点】
1.一种基于实体情感识别的电商评论意见抽取方法,其特征在于:该抽取方法主要包括主要包括评论获取、模型训练/预测、意见抽取三个模块:/n1)评论获取/n评论获取模块包括领域定义、爬取文本评论和数据处理三个步骤。领域定义是指文本评论是来自于哪个领域,按照领域的不同,实体和方面的定义也会不同;本方案以美妆领域为研究对象,按照专家意见将方面定义为“包装”、“价格”、“味道”、“服务”、“成分”、“品牌”、“效果”、“真伪”8项,而实体主要为美妆类产品名称。/n领域定义完成后,便可从对应的电商平台使用脚本爬取用户评论。/n数据处理的主要目的是将文本评论处理成模型可以接受的格式,包括数 ...
【技术特征摘要】
1.一种基于实体情感识别的电商评论意见抽取方法,其特征在于:该抽取方法主要包括主要包括评论获取、模型训练/预测、意见抽取三个模块:
1)评论获取
评论获取模块包括领域定义、爬取文本评论和数据处理三个步骤。领域定义是指文本评论是来自于哪个领域,按照领域的不同,实体和方面的定义也会不同;本方案以美妆领域为研究对象,按照专家意见将方面定义为“包装”、“价格”、“味道”、“服务”、“成分”、“品牌”、“效果”、“真伪”8项,而实体主要为美妆类产品名称。
领域定义完成后,便可从对应的电商平台使用脚本爬取用户评论。
数据处理的主要目的是将文本评论处理成模型可以接受的格式,包括数据清洗、人工标注两部分,数据清洗包括去重、清理缺失值、去除文本中的诸如表情图等非法字符;人工标注是针对训练数据的步骤,主要是标注出评论中的实体以及实体的情感,便于模型开展训练;实体的情感标注包括正面、负面、中性三类。
2)模型训练/预测
模型训练/预测模块包括命名实体识别和实体情感识别两个步骤。
命名实体识别采用BERT+CRF模型。
接着将实体识别的结果输入实体情感识别模型,模型采用经过预训练的BERT模型,通过训练数据对模型进行微调;BERT的[CLS]位置的输出为整个句子的向量表示Hcls,维度为[n,d],n表示batchsize,即文本个数,d表示最后一个隐藏层的大小,实体的向量表示为He,维度为[n,d],它由组成实体的各个词的向量的平均得到,上下文的向量表示为Hc,维度为[n,d],由组成上下文的各个词的向量的平均得到,上下文通常取实体左右各N个词,N的大小可动态调整。公式如下:
实体向量表示:
上下文向量表示:
其中实体的开始位置的向量为Hi,结束位置的向量为Hj,上下文的开始位置的向量为Hk,结束位置的向量为Hm。
之后将句子的向量,实体的向量和上下文的向量分别通过三个不同的全连接层,激活函数为tanh函数,得到H′cls、H′e和H′c,公式如下:
H′cls=W0(tanh(Hcls))+b0
H′e=W1(tanh(He))+b1
H′c=W2(tanh(Hc))+b2
其中W代表全连接层的参数矩阵,维度为[d,d],b为偏置参数,维度为[d,1]。
接着将H′cls、H′e和H′c三个向量拼接在一起,再通过一个全连接层,公式如下:
h=W3(concat(H′cls,H′e,H′c))+b3
其中W3的维度为[L...
【专利技术属性】
技术研发人员:颜丙聪,卫海天,闫峰,
申请(专利权)人:北京明略昭辉科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。