当前位置: 首页 > 专利查询>福州大学专利>正文

一种虚假用户评论检测方法及系统技术方案

技术编号:28295655 阅读:30 留言:0更新日期:2021-04-30 16:19
本发明专利技术提供了一种虚假用户评论检测方法及系统,包括以下步骤:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集;使用用户评论数据集

【技术实现步骤摘要】
一种虚假用户评论检测方法及系统
本专利技术涉及自然语言处理
,特别是一种虚假用户评论检测方法及系统。
技术介绍
虚假用户评论指故意提升或诋毁商品声誉和口碑的不真实评论,虚假用户评论检测是自然语言处理中文本分类任务的一项基本任务,其基本目标是根据用户评论的相关信息分析其语义关系,检测虚假性。随着电商平台的快速发展和逐渐成熟,虚假用户评论问题也越来越突出,许多国内外研究工作者开始就该问题开展工作。虚假用户评论检测的早期研究通常采用传统的监督学习算法,该类研究着重于通过诸如N-gram、LDA等方法来提取特征以训练分类器。这些方法需要复杂的特征工程来提取文本特征,十分繁琐。最近,深度学习的神经网络模型,例如卷积神经网络(ConvolutionalNeuralNetwork,CNN)与循环神经网络(RecurrentNeuralNetwork,RNN),已经在该任务上表现出最先进的性能,而且无需任何费力的特征工程。LiL等人使用卷积神经网络在文档级别上做语义表示进行虚假评论分类,通过在CNN中加入注意力机制,使用KL散度作为权重计算,先计本文档来自技高网...

【技术保护点】
1.一种虚假用户评论检测方法,其特征在于,包括以下步骤:/n步骤A:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集S=S

【技术特征摘要】
1.一种虚假用户评论检测方法,其特征在于,包括以下步骤:
步骤A:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集S=SLUSU,其中SL表示已标记的用户评论数据集,SU表示未标记的用户评论数据集;
步骤B:使用用户评论数据集S,对虚假用户评论检测模型进行预训练,模型由文本生成器G、鉴别器D以及分类器C三个模块构成;
步骤C:使用用户评论数据集S,对虚假用户评论检测模型进行对抗训练;
步骤D:将用户评论与主题输入虚假用户评论检测模型的分类器中,输出对用户评论的检测结果,即用户评论为虚假评论或真实评论。


2.根据权利要求1所述的一种虚假用户评论检测方法,其特征在于,步骤B具体包括以下步骤:
步骤B1:使用用户评论数据集S对文本生成器进行预训练;
步骤B2:使用步骤B1得到的文本生成器生成评论,与用户评论数据集S中的评论一起用于对鉴别器及其评价器进行预训练;
步骤B3:使用用户评论数据集S对分类器及其评价器进行预训练。


3.根据权利要求2所述的一种虚假用户评论检测方法,其特征在于,步骤B1具体包括以下步骤:
步骤B11:遍历评论训练集S,将SL中的每个已标记训练样本表示为s=(r,t,c),将SU中的每个未标记训练样本表示为s=(r,t),其中r表示评论文本,t表示评论涉及的主题文本,c为该评论虚假与否的类别标记;对训练样本s中的评论r和主题t进行分词并去除停用词,之后将评论r和主题t的文本分别设置为固定长度N和M,若经过分词与去除停用词后的评论r和主题t中的词语数量小于固定长度值,则使用补充符号<PAD>进行补充,大于固定长度值则进行截断;
其中,评论r经过分词及去除停用词并设置为固定长度后,表示为:



式中,为评论r经过分词、去除停用词并设置为固定长度后文本中的第i个词,i=1,2,...,RN,RN≤N;
其中,主题t经过分词及去除停用词并设置为固定长度后,表示为:



式中,为主题t经过分词、去除停用词并设置为固定长度后文本中的第i个词,i=1,2,...,TM,TM≤M;
步骤B12:对步骤B11处理后的评论文本r和主题文本t进行编码,分别得到评论与主题的表征向量vr和vt;
其中,vr表示为:



式中,为评论文本的第i个词所对应的词向量,通过在预训练的词向量矩阵中查找得到,i=1,2,...,N,d表示词向量的维度,|V|是词典中的词语数;
其中,vt表示为:



式中,为主题文本的第i个词所对应的词向量,通过在预训练的词向量矩阵中查找得到,i=1,2,...,M,d表示词向量的维度,|V|是词典中的词语数;
步骤B13:对主题的表征向量vt,通过线性变换与激活函数后采用最大池化提取主题的主干信息的表征向量



其中,为主题的主干信息的表征向量,为权值矩阵,·表示矩阵点乘操作,为偏置项;
步骤B14:将构成vr的向量序列依次输入生成器中的融合主题的多头注意力单元,第i个时间步的输入为在每个时间步将与结合,通过多头注意力机制融合评论与主题信息,得到每个时间步的融合主题的表征向量,并与随机噪声拼接,最后得到向量序列{x1,x2,...,xi,...,xN};
步骤B15:将步骤B14得到的向量序列{x1,x2,...,xi,...,xN}输入双向GRU,在第i个时间步,对于双向GRU的前向层,输出的隐层状态向量为对于双向GRU的反向层,输出的隐层状态向量为f为激活函数;在每个时间步采用谱归一化对GRU的各个权值矩阵进行更新,以WiG表示GRU在第i个时间步的某个权值矩阵,求得WiG的最大奇异值对WiG进行谱归一化,得到GRU在第i+1个时间步的权值矩阵表示如下:



重复上述步骤,得到正向隐层状态向量序列和反向隐层状态向量序列
步骤B16:连接正向与反向隐层状态向量,得到融合主题的评论表征向量H,H=[h1,...,hi,...,hN]T,hi为正向隐层状态向量与反向隐层状态向量的连接;
步骤B17:对融合主题的评论表征向量H进行线性变换后输入softmax,得到词概率分布矩阵B,根据词概率分布矩阵B进行随机采样,生成评论文本的词序列y={y1,y2,...,yi,...,yN};
步骤B18:根据以下目标损失函数对文本生成器G进行训练:



其中,表示生成器在目标词位置上计算得到的条件概率,θg为生成器的参数集,c为类别标签,z为随机噪声。


4.根据权利要求3所述的一种虚假用户评论检测方法,其特征在于,所述步骤B14具体为:
首先,以Xi表示第i个时间步的输入对Xi在的向量方向上进行正交分解操作,得到Xi中关于主题部分的信息和其他信息,分别对应平行向量和垂直向量表示为:






式中,为平行向量,为垂直向量,表示向量的转置;
然后,利用多头注意力机制进行信息筛选:对于每个注意力头,对平行向量进行线性变换得到作为多头注意力机制中的Q;对进行线性变换得到和分别作为多头注意力机制中的K和V,表示为:









式中,分别为待训练的权值矩阵;
之后,将输入多头注意力单元中进行多头注意力计算,表示为:



式中,表示平行方向的多头注意力机制的输出向量,MHA表示多头注意力机制,H表示注意力头的总数,表示第i个注意力头的计算结果,为待训练的权值矩阵;
之后,通过softmax函数将映射到0到1之间,得到平行向量经过多头注意力机制后在平行方向上的信息门向量表示为:



对垂直向量进行线性变换得到作为多头注意力机制中的Q,对进行线性变换得到和分别作为注意力机制中的K和V,将输入多头注意力单元中进行多头注意力计算,得到再通过softmax函数,得到垂直向量经过多头注意力机制后在垂直方向上的信息门向量利用和两个门向量对Xi进行信息筛选,得到第i个时间步的融合主题的表征向量表示为:



式中,分别表示平行方向和垂直方向上的权值矩阵,分别表示平行方向和垂直方向上的输入偏置项,·表示矩阵点乘操作;
之后将与随机噪声进行拼接,得到第i个时间步的输出向量xi,表示为:



式中,;表示连接操作,为随机噪声,表示为:



式中,从符合标准高斯分布的随机分布Pz中采样获得,Pz符合标准高斯分布,类别标签c从符合标准伯努利分布的随机分布Pc中采样获得,c=1时表示正常评论,当c=0时表示虚假评论。


5.根据权利要求2所述的一种虚假用户评论检测方法,其特征在于,步骤B2具体包括以下步骤:
步骤B21:完成生成器G的预训练后,利用生成器G生成评论数据集SG,从SG和S中随机提取已标注评论与未标注评论构成鉴别器D的预训练集SD,SD中的每个训练样本表示为s=(r,cD),其中r表示评论文本,cD表示该评论文本是否为生成器生成的类别标记,将SD中的训练样本输入基于Transformer的鉴别器D中进行预训练;
步骤B22:对SD中的每个训练样本,按照步骤B11得到评论文本r的初始表征向量vr,加入位置向量得到位置感知的表征向量表示为:

【专利技术属性】
技术研发人员:陈羽中徐闽樟
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1