一种冷启动情况下的垃圾评论检测分类系统及方法技术方案

技术编号:27291735 阅读:29 留言:0更新日期:2021-02-06 12:01
本发明专利技术公开了一种冷启动情况下的垃圾评论检测分类系统及方法,其利用拥有大量数据的老用户上,运用老用户的行为特征和易得信息训练生成对抗网络。然后运用新用户的易得信息用训练好的生成器生成新用户的行为特征,最后将经过领域自适应的生成行为特征对用户进行分类。该方法支持垃圾评论分类,能够在可利用数据十分匮乏时,即冷启动情况下进行垃圾评论检测,并取得良好的效果。并取得良好的效果。并取得良好的效果。

【技术实现步骤摘要】
一种冷启动情况下的垃圾评论检测分类系统及方法


[0001]本专利技术涉及数据分析
,具体涉及一种冷启动情况下的垃圾评论检测分类系统及方法。

技术介绍

[0002]随着人工智能的发展,运用人工智能技术进行数据分析成为了一个重要的应用方向。特别是近年来,随着移动互联网技术的迅速发展,在线点评网站拥有大量的评论,而这些评论有可能是垃圾评论,相关技术中,主流方法是基于语言特征和基于行为特征的垃圾评论检测。但是,基于语言学特征进行垃圾评论检测的准确度通常不高;而基于行为特征的垃圾评论检测需要长时间的观察与大量的数据支持,不适用于冷启动问题这样数据匮乏的情况。因此,相关技术中的文本语义理解方法的效果在冷启动情况下并不理想。因此,急需提供一种可以在冷启动情况下进行垃圾评论检测的方法。

技术实现思路

[0003]本专利技术的目的在于提供一种冷启动情况下的垃圾评论检测分类系统及方法,。该方法支持垃圾评论分类,能够在可利用数据十分匮乏时,即冷启动情况下进行垃圾评论检测,且准确度高,能够对垃圾评论进行精准筛查检测。
[0004]为了达到上述技术效果,本专利技术提供了如下技术方案:
[0005]一种冷启动情况下的垃圾评论检测分类系统,包括易得信息生产模块,用于生成新用户与老用户的易得信息;真实行为特征提取模块,用于从老用户的大量数据中提取老用户的真实行为特征;
[0006]生成对抗网络模块,用于利用老用户的真实行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
[0007]特征生成模块,用于利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征;
[0008]领域自适应模块,用于进行领域自适应,提取其他相关但不同领域的信息;
[0009]分类模块,用于将用户通过特征进行分类,判断是否是垃圾评论的生产者。
[0010]本专利技术还提供了一种冷启动情况下的垃圾评论检测分类方法,包括以下步骤:
[0011]步骤s1:对于老用户,预处理易得信息;
[0012]步骤s2:对于老用户,通过长时间收集到的老用户评论信息生成老用户的行为特征;
[0013]步骤s3:对于老用户,利用老用户的行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
[0014]步骤s4:对于新用户,预处理易得信息;
[0015]步骤s5:将新用户的易得信息都放入步骤s3在老用户数据上得到的生成器,生成新用户的行为特征;
[0016]步骤s6:运用迁移学习的方法,对相关但不同领域的评论信息进行自适应操作,得到领域自适应后的新用户行为特征;
[0017]步骤s7:将通过s4,s5,s6步骤后得到的新用户行为特征放入分类模型,进行分类,完成垃圾评论检测分类系统。;
[0018]进一步的技术方案为,所述步骤s1包括提取老用户的易得特征,具体包括评分信息,属性信息和评论文本信息。
[0019]进一步的技术方案为,所述步骤s2包括计算老用户的真实行为特征,具体包括活动窗口期,最大评论数,评论数量,正向评论数,评论者偏移,最大评论内容相似度。
[0020]进一步的技术方案为,所述步骤s3具体为:首先,利用老用户的易得信息作为约束,从随机向量生成行为特征,生成对抗网络的判别器则区分输入是来自真实数据还是生成的行为特征,并返回结果,并再次训练生成器,生成器的目的是最大程度生成判别器无法区分的数据,而判别器的目的是最大程度的区分出输入来自真实数据还是生成器,重复这一过程,不断优化生成对抗网络。
[0021]进一步的技术方案为,所述步骤s4包括,提取新用户的易得特征,具体包括评分信息,属性信息和评论文本信息。
[0022]进一步的技术方案为,所述步骤s5包括,通过新用户的易得信息做约束,生成新用户的行为特征。
[0023]进一步的技术方案为,所述步骤s6包括,通过迁移学习中的TCA方法,将相关但不同的领域信息互相利用,来补充信息,从而提高垃圾检测的准确率。
[0024]进一步的技术方案为,所述步骤s7包括,将新用户的行为特征放入分类器进行分类,得到垃圾评论检测模型的结果。
[0025]与现有技术相比,本专利技术具有如下有益效果:本专利技术听出一种可以在冷启动情况下,进行垃圾评论检测的方法和系统,冷启动情况是指在一个新用户发表它的第一条评论时检测是否是垃圾评论,冷启动情况的主要的难点在于可利用的信息较少,无法对用户的行为特征进行很好的描述,而生成对抗网络能够在有限的信息中进行挖掘,得到更多的信息。本专利技术中选取的有限的信息诸如评论的评分,文本等即使在冷启动情况下也能够轻易获取的信息。通过能够轻易获取的信息利用生成对抗网络来生成用户的行为特征。于是,当本专利技术面临每一个新的用户撰写的新评论的时候,都运用训练好的生成对抗网络的生成器生成该用户的行为特征,再运用在已经拥有大量行为特征的老用户中训练好的分类器对生成的行为特征进行分类。由此判断该用户是否为垃圾评论生产者。
[0026]本专利技术采用的方法能够在冷启动情况下,也就是新用户发表的第一条评论,判断该评论是否是垃圾评论。利用老用户的数据训练生成对抗网络,再将能够获取到的新用户的信息通过训练好的生成对抗网络的生成器生成新用户的行为特征,该系统成功解决了冷启动情况下新用户数据少的问题,且分类精确准确,应用场景广。
附图说明
[0027]图1为本专利技术冷启动情况下垃圾评论检测分类系统图;
[0028]图2为冷启动情况下垃圾评论检测分类系统技术流程图;
[0029]图3为生成对抗网络的网络结构。
具体实施方式
[0030]下面结合附图和具体实施例对本专利技术进行进一步的解释和说明。
[0031]实施例1
[0032]如图1所示,图1为本专利技术冷启动情况下垃圾评论检测分类系统结构示意图,包括:
[0033]易得信息生成模块,用于生成新用户与老用户的易得信息;
[0034]真实行为特征特征提取模块,用于从老用户的大量数据中提取老用户的真实行为特征;
[0035]生成对抗网络模块,用于利用老用户的真实行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
[0036]特征生成模块,用于利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征;
[0037]领域自适应模块,用于进行领域自适应,提取其他相关但不同领域的信息;
[0038]分类模块,用于将用户通过特征进行分类,判断是否是垃圾评论的生产者。
[0039]实施例2
[0040]如图2、图3所示,提供了一种冷启动情况下垃圾评论检测分类方法,具体包括以下步骤:
[0041]步骤s1:对于老用户,预处理易得信息;
[0042]步骤s2:对于老用户,通过长时间收集到的老用户评论本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种冷启动情况下的垃圾评论检测分类系统,其特征在于,包括易得信息生产模块,用于生成新用户与老用户的易得信息;真实行为特征提取模块,用于从老用户的大量数据中提取老用户的真实行为特征;生成对抗网络模块,利用老用户的真实行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;特征生成模块,利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征;领域自适应模块,用于进行领域自适应,提取其他相关但不同领域的信息;分类模块,用于将用户通过特征进行分类,判断是否是垃圾评论的生产者。2.一种冷启动情况下的垃圾评论检测分类方法,其特征在于,包括以下步骤:步骤s1:对于老用户,预处理易得信息;步骤s2:对于老用户,通过长时间收集到的老用户评论信息生成老用户的行为特征;步骤s3:对于老用户,利用老用户的行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;步骤s4:对于新用户,预处理易得信息;步骤s5:将新用户的易得信息都放入步骤s3在老用户数据上得到的生成器,生成新用户的行为特征;步骤s6:运用迁移学习的方法,对相关但不同领域的评论信息进行自适应操作,得到领域自适应后的新用户行为特征;步骤s7:将通过s4,s5,s6步骤后得到的新用户行为特征放入分类模型,进行分类,完成垃圾评论检测分类系统。3.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s1包括提取老用户的易得...

【专利技术属性】
技术研发人员:司成良展华益王欣骆敏蒋伟
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1