虚假评论检测模型训练方法、检测方法及装置制造方法及图纸

技术编号:27619685 阅读:23 留言:0更新日期:2021-03-10 10:58
本发明专利技术提供一种虚假评论检测模型训练方法、检测方法及装置,所述训练方法中,基于训练样本集,在词向量库和情绪向量库中检索样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量;初始网络模型利用第一卷积神经网络提取第一输入向量的语义特征向量,利用第二卷积神经网络提取第二输入向量的情绪特征向量,将语义特征向量、情绪特征向量、评论主体特征向量和被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类;采用训练样本集对初始网络模型进行训练得到虚假评论检测模型。基于语义特征和情绪特征共同分析,以获得更准确的识别检测效果。检测效果。检测效果。

【技术实现步骤摘要】
虚假评论检测模型训练方法、检测方法及装置


[0001]本专利技术涉及服务计算机
,尤其涉及一种虚假评论检测模型训练方法、检测方法及装置。

技术介绍

[0002]在Web2.0时代,以互动共享形式存在的产品以及消费体验等评论信息数量开始急速增长,并逐步成为消费者进行消费时参考的一个重要指标。评论通常包含丰富的消费者个人体验,它对企业的财务收益和声誉产生了重大影响。这给虚假评论者蒙蔽系统提供了动机,通过发布虚假的评论或意见,以推广或诋毁一些目标产品和服务。因此,虚假评论被视为电子商务网站、公司和用户生态系统的严重威胁。
[0003]用户评价过程中的情感取向较为复杂,简单的通过一个或几个行为特征去判断评论是否为虚假评论难以获得准确的结果。例如,一般来说5星代表高满意度,1星代表低满意度。但这些以评分为指标的方法存在缺点。首先,评级不一定完全代表评论者的情绪。有一些积极的评价但是评级却相对较低;一些负面评论的评级却相对较高。这种情况会极大程度影响对于虚假评论的判断。同时,即使两篇评论的评分或评分相同,不同的内容也会对读者产生不同的影响,这使得负面的虚假评论能够在检测过程中被相对较高的评级隐藏,而积极的虚假评论也易于被相对较低的评级所掩饰。现有技术无法识别和捕捉评论的情绪状态,仅基于评级进行判断并不准确。

技术实现思路

[0004]本专利技术实施例提供了一种虚假评论检测模型训练方法、检测方法及装置,以解决现有技术中不能将评论的情绪特征作为参考以识别虚假评论,导致检测结果不可靠的问题。
[0005]本专利技术的技术方案如下:
[0006]一方面,本专利技术提供一种虚假评论检测模型训练方法,包括:
[0007]获取多个样本评论文本,以及各样本评论文本对应的评论主体特征向量和被评论主体特征向量,并添加标签形成训练样本集;所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;
[0008]在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量;
[0009]获取初始网络模型,所述初始网络模型利用第一卷积神经网络提取所述第一输入向量的语义特征向量,利用第二卷积神经网络提取所述第二输入向量的情绪特征向量,将所述语义特征向量、所述情绪特征向量、所述评论主体特征向量和所述被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类;
[0010]采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型。
[0011]在一些实施例中,所述词向量库是采用Word2Vec模型对所述样本评论文本中的每个单词进行词嵌入操作得到的。
[0012]在一些实施例中,在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,还包括:
[0013]若所述词向量库中缺乏一单词的词向量,则采用未知词标识替代该单词的词向量;
[0014]若所述情绪向量库中缺乏一单词的情绪向量,则采用未知情绪标识代替该单词的情绪向量。
[0015]在一些实施例中,采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型中,所述初始网络模型采用交叉熵损失函数进行参数训练。
[0016]在一些实施例中,所述训练样本集中的数据是基于预设资源定位符对应的网络页面进行数据爬取得到的。
[0017]在一些实施例中,所述激活函数输出值大于0.5时,则判断所述样本评论文本为虚假评论。
[0018]另一方面,本专利技术还提供一种虚假评论检测方法,包括:
[0019]获取待检测评论文本,以及其对应的评论主体特征向量和被评论主体特征向量,所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;
[0020]在词向量库和情绪向量库中检索所述待检测评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第三输入向量,将各情绪向量按照顺序连接成第四输入向量;
[0021]将所述第三输入向量、所述第四输入向量以及所述待检测评论文本对应的评论主体特征向量和被评论主体特征向量线性连接,并输入至如前述虚假评论检测模型训练方法得到的虚假评论检测模型中运算,得到所述待检测评论文本的识别结果。
[0022]在一些实施例中,得到所述待检测评论文本的识别结果之后,还包括:
[0023]将所述待检测评论文本的识别结果记录在日志中备案。
[0024]另一方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
[0025]另一方面,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
[0026]本专利技术的有益效果至少是:
[0027]所述虚假评论检测模型训练方法、检测方法及装置中,在通过提取词向量以获得语义特征的同时,还提取情绪向量以获得评论所对应的情绪特征,以识别检测在一般语义下隐藏负面情绪或诱导情绪的复杂虚假评论。进一步的,本专利技术还结合评论主体和被评论主体的特征向量,以从评论主体和被评论主体两个角度对评论进行综合分析,以获得更准确的识别检测效果。
[0028]本专利技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对
于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本专利技术的实践而获知。本专利技术的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
[0029]本领域技术人员将会理解的是,能够用本专利技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本专利技术能够实现的上述和其他目的。
附图说明
[0030]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中:
[0031]图1为本专利技术一实施例所述虚假评论检测模型训练方法的流程示意图;
[0032]图2为本专利技术一实施例所述虚假评论检测模型训练方法的逻辑示意图;
[0033]图3为本专利技术一实施例所述虚假评论检测模型训练方法的初始模型结构示意图;
[0034]图4为本专利技术一实施例所述虚假评论检测方法的流程示意图。
具体实施方式
[0035]为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本专利技术做进一步详细说明。在此,本专利技术的示意性实施方式及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0036]在此,还需要说明的是,为了避免因不必要的细节而模糊了本专利技术,在附图中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚假评论检测模型训练方法,其特征在于,包括:获取多个样本评论文本,以及各样本评论文本对应的评论主体特征向量和被评论主体特征向量,并添加标签形成训练样本集;所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量;获取初始网络模型,所述初始网络模型利用第一卷积神经网络提取所述第一输入向量的语义特征向量,利用第二卷积神经网络提取所述第二输入向量的情绪特征向量,将所述语义特征向量、所述情绪特征向量、所述评论主体特征向量和所述被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类;采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型。2.根据权利要求1所述的虚假评论检测模型训练方法,其特征在于,所述词向量库是采用Word2Vec模型对所述样本评论文本中的每个单词进行词嵌入操作得到的。3.根据权利要求1所述的虚假评论检测模型训练方法,其特征在于,在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,还包括:若所述词向量库中缺乏一单词的词向量,则采用未知词标识替代该单词的词向量;若所述情绪向量库中缺乏一单词的情绪向量,则采用未知情绪标识代替该单词的情绪向量。4.根据权利要求1所述的虚假评论检测模型训练方法,其特征在于,采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型中,所述初始网络模型采...

【专利技术属性】
技术研发人员:吴晓非王振山禹可
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1