虚假评论检测模型训练方法、检测方法及装置制造方法及图纸

技术编号：27619685 阅读：23 留言：0更新日期：2021-03-10 10:58

本发明专利技术提供一种虚假评论检测模型训练方法、检测方法及装置，所述训练方法中，基于训练样本集，在词向量库和情绪向量库中检索样本评论文本中的每个单词对应的词向量和情绪向量，将各词向量按照顺序连接成第一输入向量，将各情绪向量按照顺序连接成第二输入向量；初始网络模型利用第一卷积神经网络提取第一输入向量的语义特征向量，利用第二卷积神经网络提取第二输入向量的情绪特征向量，将语义特征向量、情绪特征向量、评论主体特征向量和被评论主体特征向量进行线性连接后，通过全连接层和激活函数进行分类；采用训练样本集对初始网络模型进行训练得到虚假评论检测模型。基于语义特征和情绪特征共同分析，以获得更准确的识别检测效果。检测效果。检测效果。

全部详细技术资料下载

【技术实现步骤摘要】
虚假评论检测模型训练方法、检测方法及装置

[0001]本专利技术涉及服务计算机
，尤其涉及一种虚假评论检测模型训练方法、检测方法及装置。

技术介绍

[0002]在Web2.0时代，以互动共享形式存在的产品以及消费体验等评论信息数量开始急速增长，并逐步成为消费者进行消费时参考的一个重要指标。评论通常包含丰富的消费者个人体验，它对企业的财务收益和声誉产生了重大影响。这给虚假评论者蒙蔽系统提供了动机，通过发布虚假的评论或意见，以推广或诋毁一些目标产品和服务。因此，虚假评论被视为电子商务网站、公司和用户生态系统的严重威胁。
[0003]用户评价过程中的情感取向较为复杂，简单的通过一个或几个行为特征去判断评论是否为虚假评论难以获得准确的结果。例如，一般来说5星代表高满意度，1星代表低满意度。但这些以评分为指标的方法存在缺点。首先，评级不一定完全代表评论者的情绪。有一些积极的评价但是评级却相对较低；一些负面评论的评级却相对较高。这种情况会极大程度影响对于虚假评论的判断。同时，即使两篇评论的评分或评分相同，不同的内容也会对读者产生不同的影响，这使得负面的虚假评论能够在检测过程中被相对较高的评级隐藏，而积极的虚假评论也易于被相对较低的评级所掩饰。现有技术无法识别和捕捉评论的情绪状态，仅基于评级进行判断并不准确。

技术实现思路

[0004]本专利技术实施例提供了一种虚假评论检测模型训练方法、检测方法及装置，以解决现有技术中不能将评论的情绪特征作为参考以识别虚假评论，导致检测结果不可靠的问题。
[0...

【技术保护点】

【技术特征摘要】
1.一种虚假评论检测模型训练方法，其特征在于，包括：获取多个样本评论文本，以及各样本评论文本对应的评论主体特征向量和被评论主体特征向量，并添加标签形成训练样本集；所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数，所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数；在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量，将各词向量按照顺序连接成第一输入向量，将各情绪向量按照顺序连接成第二输入向量；获取初始网络模型，所述初始网络模型利用第一卷积神经网络提取所述第一输入向量的语义特征向量，利用第二卷积神经网络提取所述第二输入向量的情绪特征向量，将所述语义特征向量、所述情绪特征向量、所述评论主体特征向量和所述被评论主体特征向量进行线性连接后，通过全连接层和激活函数进行分类；采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型。2.根据权利要求1所述的虚假评论检测模型训练方法，其特征在于，所述词向量库是采用Word2Vec模型对所述样本评论文本中的每个单词进行词嵌入操作得到的。3.根据权利要求1所述的虚假评论检测模型训练方法，其特征在于，在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量，还包括：若所述词向量库中缺乏一单词的词向量，则采用未知词标识替代该单词的词向量；若所述情绪向量库中缺乏一单词的情绪向量，则采用未知情绪标识代替该单词的情绪向量。4.根据权利要求1所述的虚假评论检测模型训练方法，其特征在于，采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型中，所述初始网络模型采...

【专利技术属性】
技术研发人员：吴晓非，王振山，禹可，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人