基于多维评论表示的虚假评论检测方法技术

技术编号:27935660 阅读:38 留言:0更新日期:2021-04-02 14:15
基于多维评论表示的虚假评论检测方法,属于信息挖掘技术领域。本发明专利技术是为了解决现有的虚假评论检测方法不能真实的、自动的、准确的解决电子商务平台中的商品评价信息处理的问题。本发明专利技术从词级和句子级将用户级相关特征表示、产品级相关特征表示和细粒度方面级相关特征表示进行融合,并对用户与产品之间的关系进行建模,将关系融入模型之中;基于注意力机制计算包含丰富上下文信息h′与用户‑产品知识的评论表示UP′之间的交互影响,获得最终的评论表示F

【技术实现步骤摘要】
基于多维评论表示的虚假评论检测方法
本专利技术涉及一种基于多维评论表示的虚假评论检测方法,属于信息挖掘

技术介绍
随着网络的飞速发展,用户使用网络的便捷性在不断上升。现如今,网络已不仅仅是人们获取知识的工具,同时还是人们发表观点和传播信息的载体。在电子商务方面,评论信息对网络平台中的用户与企业都影响重大,一方面影响着用户的购买决策,另一方面影响着企业的发展。据社交商务平台Bazaarvoice最新数据发现,超过50%的用户在发现产品有虚假评论后会停止购买行为,失去对品牌的信任。而针对虚假评论,据《华盛顿邮报》研究,亚马逊网站中电子产品的评论超过60%为虚假评论。正因此,自动鉴别网络平台信息的真假、给用户提供更加真实的信息至关重要。现有的虚假评论的检测方法主要分为两种:一种是基于特征工程的虚假评论的检测方法,此方法多从文本特征和行为特征入手,例如在文本的语义特征方面包括评论文本的长度、词性特征和情感极性等,在用户行为特征方面包括好/差评论的发表数量,发表评论的频率等,然而在利益的驱使下,这些特征容易被虚假评论发布者反侦破,再伪装本文档来自技高网...

【技术保护点】
1.基于多维评论表示的虚假评论检测方法,其特征在于:所述的检测方法包括以下步骤:/n步骤1、提取细粒度方面词集:/n首先,对评论语句进行预处理,提取评论语句中词性为名词且词频大于词频阈值的所有单词构成细粒度方面词集1;/n然后,将评论中所包含的细粒度方面词视为当前评论句子中的主题,采用LDA主题挖掘模型结合主题困惑度计算对已有的评论集进行细粒度方面词的提取,得到细粒度方面词集2;/n最后,将得到的细粒度方面词集1和细粒度方面词集2进行去重合并,得到最终的细粒度方面词集

【技术特征摘要】
1.基于多维评论表示的虚假评论检测方法,其特征在于:所述的检测方法包括以下步骤:
步骤1、提取细粒度方面词集:
首先,对评论语句进行预处理,提取评论语句中词性为名词且词频大于词频阈值的所有单词构成细粒度方面词集1;
然后,将评论中所包含的细粒度方面词视为当前评论句子中的主题,采用LDA主题挖掘模型结合主题困惑度计算对已有的评论集进行细粒度方面词的提取,得到细粒度方面词集2;
最后,将得到的细粒度方面词集1和细粒度方面词集2进行去重合并,得到最终的细粒度方面词集
步骤2、构建词级融合模型:
通过用户ID信息、产品ID信息和细粒度方面词分别与评论文本中的单词基于注意力机制进行计算,获取用户级相关特征、产品级相关特征和细粒度方面级相关特征;
步骤3、构建句级交互模型:
步骤3.1、利用双向LSTM+max-pooling层作为基础模型,获取评论句子表示h:
步骤3.2、根据词级融合模型输出的用户级相关特征表示vuc、产品级相关特征表示vpc和细粒度方面级相关特征表示vaspect得到用户句子表示U、产品句子表示P以及细粒度方面句子表示A;
步骤3.3、将用户句子表示U与产品句子表示P拼接在一起生成用户-产品级句子表示,将细粒度方面句子表示A作为约束门,分别对评论句子表示h与用户-产品级句子表示UP传向下一层的信息进行约束,并将细粒度方面句子表示A分别融入包含丰富上下文信息h与用户-产品知识的评论表示UP′中,基于注意力机制计算包含丰富上下文信息h与用户-产品知识的评论表示UP′之间的交互影响,并获得最终的评论表示Fr;
步骤4、构建分类模型:
对句级交互模型输出的最终的评论表示Fr进行分类,判断评论是虚假评论还是真实评论。


2.根据权利要求1所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤1中,对评论语句进行预处理的方式为:利用语法和形态分析工具对分词后的评论语句进行处理。


3.根据权利要求2所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤1中,获得细粒度方面词集2的具体步骤如下:对评论语料进行语法和形态分析,然后利用语法和形态分析工具对分词后的评论语句进行预处理,通过LDA主题挖掘模型对预处理之后的评论集进行建模,采用困惑度最小时的主题数来确定每个评论集中的主题数,将确定的所有主题下的所有词全部进行整合,从而得到细粒度方面词集2。


4.根据权利要求3所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤2中,获取用户级相关特征、产品级相关特征和细粒度方面级相关特征具体过程如下:
设定单词相关域d,根据每一个用户的ID信息在其所发表的评论文本的(wi′-d,wi′+d)基于注意力机制进行计算,从评论文本的单词中获取用户级相关特征表示vuc,具体计算过程如公式(1);



其中,X是(wi′-d,wi′+d)的词向量,i′∈[0,m];αi是整个句子中用户相关文本隐含模式重要程度的得分函数,W1和Wu是转换矩阵;u=[u1,u2,...,ui,...,un]是词向量与用户词向量加和之后进行tanh激活函数转化的一个矩阵,Uc矩阵是将用户Userc的ID的词向量进行复制2d+1倍的矩阵;
确定产品级相关特征表示vpc与确定用户级相关特征表示vuc的方式相同;
对于评论Sl,判定其是否包含细粒度方面词,使用Stanford的NLP库工具将Sl中的每一个词wi′,i′∈[0,m],进行词形还原,并与细粒度方面词集进行对比,若基于公式(2)进行计算,获取在虚假评论中细粒度方面级相关特征表示νaspect,
vaspect=βtXt
βt=softmax(apt)(2)
apt=tanh(XtW3+AtWa)
其中,Xt为wi′的词向量,At为评论Sl中所包含的细粒度方面词的词向量,βt为评论Sl中细粒度方面词的重要程度得分函数。


5.根据权利要求4所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤3.1中获取评论句子表示h的具体过程如下:
首先对评论集S={S1,S2,...,Sl,...,SL}中的原始评论进行预处理,然后将预处理后的句子向量Sl作为模型的输入,将双向LSTM模型的前向输出向...

【专利技术属性】
技术研发人员:刘美玲尚玥于洋
申请(专利权)人:东北林业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1