一种基于语义分析过滤化妆品互联网虚假评论的方法技术

技术编号:36560952 阅读:12 留言:0更新日期:2023-02-04 17:16
本发明专利技术通过对预处理后的化妆品评论数据进行正负样本的筛选与标注,利用textCNN、BERT和BiLSTM模型对评论文本特征提取并融合提取的文本语义特征,对特征赋予权重并训练分类器判定评论是否虚假,并训练调优得到最终模型用于化妆品虚假评论的检测。融合textCNN、BERT和BiLSTM三种模型基于监督学习的思想训练一种完整的自然语言处理模型,来过滤化妆品互联网虚假评论,能够有效地识别和筛选欺骗性评论、破坏性评论、非法评论等虚假评论,防止虚假评论误导其他用户消费和恶意攻击商家,为互联网化妆品商家和用户提供一个健康公平的电商平台。台。台。

【技术实现步骤摘要】
一种基于语义分析过滤化妆品互联网虚假评论的方法


[0001]本专利技术涉及自然语言处理和机器学习
,具体涉及一种基于语义分析过滤化妆品互联网虚假评论的方法。

技术介绍

[0002]随着电商网络的快速发展,线上消费成为了人们生活重要的组成部分,但是线上消费也存在一定的弊端和风险。在化妆品领域,由于消费者无法在购买前了解产品的真实情况,此时大部分消费者就会去浏览参考用户评论,线上留言和评论是消费者决策的重要参考因素之一。由于线上评论可以在很大程度上影响消费者的决策,受利益的驱使,商家存在雇佣个人或机构撰写虚假评论的行为,同时存在恶意评论抹黑商家从而影响商家的真实信用问题,虚假的评论会误导消费者的决策,因此有效识别虚假评论具有重要意义。
[0003]对于虚假评论检测识别,通常基于文本或用户行为等进行研究,基于文本进行研究的方法可以分为基于语义特征和基于语法特征的研究。基于语义的研究主要是针对评论文本,在语义层面进行特征抽取,主要包含相似观点以及情感分析等方面;基于语法的研究是从评论文本中的词性特征角度进行分类;基于用户行为特征的研究主要挖掘以评论产品、评论文本以及用户为中心的特征。
[0004]现有技术CN111259140A公开基于LSTM(Long Short

Term Memory)多实体特征融合的虚假评论检测方法,联合评论的文本特征与行为特征,对评论的时序联合特征进行再提取得到特征向量,学习新的特征并构建分类器对评论进行判断。现有对虚假评论的检测识别技术主要依靠特征工程将评论文本的特征进行组合,以寻求最优句子的中间表达,然后根据中间表达来训练分类模型,这样的模型虚假评论识别效果不佳。因此,提高虚假评论检测方法的准确性是一个亟需解决的问题。

技术实现思路

[0005]本专利技术的目的在于,提供一种基于语义分析过滤化妆品互联网虚假评论的方法,利用textCNN、BERT和BiLSTM三种模型基于监督学习训练一种自然语言处理模型,来过滤化妆品互联网虚假评论。
[0006]为实现上述技术目的,达到上述技术效果,本专利技术是通过以下技术方案实现:
[0007]基于语义分析过滤化妆品互联网虚假评论的方法,通过对预处理后的化妆品评论数据进行正负样本的筛选与标注,利用textCNN、BERT和BiLSTM对评论文本特征提取并融合提取的文本语义特征,对特征赋予权重并训练分类器判定评论是否虚假,并训练调优得到最终模型用于化妆品虚假评论的检测。
[0008]基于语义分析过滤化妆品互联网虚假评论的方法,包括以下步骤:
[0009]S1:化妆品互联网评论数据收集及数据集预处理;
[0010]S2:对预处理后的化妆品评论数据进行正负样本的筛选与标注;
[0011]S3:利用textCNN、BERT和BiLSTM的化妆品评论文本特征提取;
[0012]S4:融合textCNN、BERT和BiLSTM三种模型提取的文本语义特征;
[0013]S5:对特征赋予权重并训练分类器判定评论是否虚假,并训练调优得到最终模型;
[0014]S6:通过最终模型过滤化妆品互联网虚假评论。
[0015]进一步的,所述S1包括:
[0016]S101:收集化妆品互联网评论数据;
[0017]S102:对化妆品评论数据集进行预处理。
[0018]进一步的,所述S101收集化妆品互联网评论数据:
[0019]利用爬虫程序抓取电商网站的化妆品评论数据,包括评论内容、评论分数和评论者信息。
[0020]进一步的,所述S102对化妆品评论数据集进行预处理:
[0021]设定评论长度阈值为θ,删除评论文本长度小于θ的评论;
[0022]过滤非法字符和无含义的字符,并进行分词处理;分词处理后得到的数据去停用词。
[0023]进一步的,所述S2对预处理后的化妆品评论数据进行正负样本的筛选与标注,包括:
[0024]S201:利用基于BERT的电商评论情感分析模型,对预处理后的数据进行行化妆品评论的情感分析,判断文本内容为正向情绪或负向情绪;
[0025]结合评分进一步判定评论是否为虚假评论,如果评论判断为正向情绪并且评分小于评判标准3分(总分5分),则判定此评论为虚假评论;如果评论判断为负向情绪并且评分大于评判标准3分(总分5分),则判定此评论亦为虚假评论;
[0026]筛选并标注为虚假评论,作为负样本1;
[0027]S202:利用基于BERT的通用文本匹配模型,将S201中未标注的数据进行化妆品评论的文本匹配,来寻找与虚假评论相似的文本,将大于相似度阈值ε的评论判定为虚假评论;
[0028]筛选并标注为虚假评论,作为负样本2;
[0029]S203:利用基于BERT的文本内容反垃圾模型,将S202中未标注的数据进行化妆品评论的垃圾文本内容识别,其分类为正常、辱骂、涉政或恶意推广标签,将大于设定阈值的评论判定为虚假评论;
[0030]筛选并标注为虚假评论,作为负样本3;
[0031]S204:对S203中未标注数据进行过评论的用户的所有评论数量降序排列,将前k%的所有用户的评论判定为虚假评论;
[0032]筛选并标注为虚假评论,作为负样本4;
[0033]S205:将S204中未标注的数据根据化妆品评论对其他用户的有用程度降序排列,提取前面与已经筛选的负样本总数量相等的评论;
[0034]筛选并标注为正常评论,作为正样本;
[0035]S206:将上述S201

S205得到的所有正负样本汇总,得到一个正常评论和虚假评论条数相等的样本集,作为训练集。
[0036]进一步的,所述基于textCNN、BERT和BiLSTM的化妆品评论文本特征提取方法包括:
[0037](1)基于textCNN的化妆品评论文本特征提取方法具体包括:
[0038]卷积层特征公式为:
[0039]C
i
=f(W
·
x
i:i+h
‑1+b)
[0040]卷积层输出矩阵为:
[0041]C=[C1,C2,C3,

,C
n

h+1
][0042]其中,C
i
表示特征,f表示激活函数,W表示卷积核矩阵,x
i:j
表示输入矩阵x的第i行第j列,h表示卷积核高度,b表示偏置参数,n表示输入行数;
[0043]池化层使用MaxPool最大值池化方法,不定长的卷基层的输出上获得一个定长的全连接层的输入;
[0044]进一步采用正则化的方法在倒数第二层加入Dropout方法,防止隐藏层过拟合,并用L2范数约束权重向量;
[0045]将训练集数据输入到textCNN模型,得到其文本特征矩阵;
[0046](2)基于BERT的化妆品评论文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于语义分析过滤化妆品互联网虚假评论的方法,其特征在于:通过对预处理后的化妆品评论数据进行正负样本的筛选与标注,利用textCNN、BERT和BiLSTM对评论文本特征提取并融合提取的文本语义特征,对特征赋予权重并训练分类器判定评论是否虚假,并训练调优得到最终模型用于化妆品虚假评论的检测。2.如权利要求1所述的基于语义分析过滤化妆品互联网虚假评论的方法,其特征在于:包括以下步骤:S1:化妆品互联网评论数据收集及数据集预处理;S2:对预处理后的化妆品评论数据进行正负样本的筛选与标注;S3:利用textCNN、BERT和BiLSTM模型对化妆品评论文本进行特征提取;S4:融合textCNN、BERT和BiLSTM三种模型提取的文本语义特征;S5:对特征赋予权重并训练分类器判定评论是否虚假,并训练调优得到最终模型;S6:通过最终模型过滤化妆品互联网虚假评论。3.如权利要求2所述的基于语义分析过滤化妆品互联网虚假评论的方法,其特征在于:所述S1包括:S101:收集化妆品互联网评论数据;S102:对化妆品评论数据集进行预处理。4.如权利要求3所述的基于语义分析过滤化妆品互联网虚假评论的方法,其特征在于:所述S101收集化妆品互联网评论数据:利用爬虫程序抓取电商网站的化妆品评论数据,包括评论内容、评论分数和评论者信息。5.如权利要求3所述的基于语义分析过滤化妆品互联网虚假评论的方法,其特征在于:所述S102对化妆品评论数据集进行预处理:设定评论长度阈值为θ,删除评论文本长度小于θ的评论;过滤非法字符和无含义的字符,并进行分词处理;分词处理后得到的数据去停用词。6.如权利要求2所述的基于语义分析过滤化妆品互联网虚假评论的方法,其特征在于:所述S2对预处理后的化妆品评论数据进行正负样本的筛选与标注,包括:S201:利用基于BERT的电商评论情感分析模型,对预处理后的数据进行行化妆品评论的情感分析,判断文本内容为正向情绪或负向情绪;结合评分进一步判定评论是否为虚假评论,如果评论判断为正向情绪并且评分小于评判标准,则判定此评论为虚假评论;如果评论判断为负向情绪并且评分大于评判标准,则判定此评论亦为虚假评论;筛选并标注为虚假评论,作为负样本1;S202:利用基于BERT的通用文本匹配模型,将S201中未标注的数据进行化妆品评论的文本匹配,来寻找与虚假评论相似的文本,将大于相似度阈值ε的评论判定为虚假评论;筛选并标注为虚假评论,作为负样本2;S203:利用基于BERT的文本内容反垃圾模型,将S202中未标注的数据进行化妆品评论的垃圾文本内容识别,其分类为正常、辱骂、涉政或恶意推广标签,将大于设定阈值的评论判定为虚假评论;筛选并标注为虚假评论,作为负样本3;
S204:对S203中未标注数据进行过评论的用户的所有评论数量降序排列,将前k%的所有用户的评论判定为虚假评论;筛选并标注为虚假评论,作为负样本4;S205:将S204中未标注的数据根据化妆品评论对其他用户的有用程度降序排列,提取与已经筛选的负样本总数量相等的评论;筛选并标注为正常评论,作为正样本;S206:将上述S201

S205得到的所有正负样本汇总,得到一个正常评论和虚假评论条数相等的样本集,作为训练集。7.如权利要求2所述的基于语义分析过滤化妆品互联网虚假评论的方法,其特征在于:所述基于textCNN、BERT和BiLSTM的化妆品评论文本特征提取方法包括:(1)基于textCNN的化妆品评论文本特征提取方法具体包括:卷积层特征公式为:C
i
=f(W
·
x
i:i+h
‑1+b)卷积层输出矩阵为:C=[C1,C2,C3,

,C
n

h+1
]其中,C
i
表示特征,f表示激活函数,W表示卷积核矩阵,x
i:j
表示输入矩阵x的第i行第j列,h表示卷积核高度,b表示偏置参数,n表示输入行数;池化层使用MaxPool最大值池化方法,在不定长的卷基层的输出上获得一个定长的全连接层的输入;采用正则化的方法在倒数第二层加入Dropout方法,防止隐藏层过拟合,并用L2范数约束权重向量;将训练集数据输入到textCNN模型,得到其文本特征矩阵;(2)基于BERT的化妆品评论文本特征提取方法具体包括:BERT模型设置如下...

【专利技术属性】
技术研发人员:舒晓红李利王曦华薇熊丽丹唐洁汤莹邹琳李朝霞霍维
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1