一种冷启动情况下的垃圾评论检测分类系统及方法技术方案

技术编号：27291735 阅读：29 留言：0更新日期：2021-02-06 12:01

本发明专利技术公开了一种冷启动情况下的垃圾评论检测分类系统及方法，其利用拥有大量数据的老用户上，运用老用户的行为特征和易得信息训练生成对抗网络。然后运用新用户的易得信息用训练好的生成器生成新用户的行为特征，最后将经过领域自适应的生成行为特征对用户进行分类。该方法支持垃圾评论分类，能够在可利用数据十分匮乏时，即冷启动情况下进行垃圾评论检测，并取得良好的效果。并取得良好的效果。并取得良好的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种冷启动情况下的垃圾评论检测分类系统及方法

[0001]本专利技术涉及数据分析
，具体涉及一种冷启动情况下的垃圾评论检测分类系统及方法。

技术介绍

[0002]随着人工智能的发展，运用人工智能技术进行数据分析成为了一个重要的应用方向。特别是近年来，随着移动互联网技术的迅速发展，在线点评网站拥有大量的评论，而这些评论有可能是垃圾评论，相关技术中，主流方法是基于语言特征和基于行为特征的垃圾评论检测。但是，基于语言学特征进行垃圾评论检测的准确度通常不高；而基于行为特征的垃圾评论检测需要长时间的观察与大量的数据支持，不适用于冷启动问题这样数据匮乏的情况。因此，相关技术中的文本语义理解方法的效果在冷启动情况下并不理想。因此，急需提供一种可以在冷启动情况下进行垃圾评论检测的方法。

技术实现思路

[0003]本专利技术的目的在于提供一种冷启动情况下的垃圾评论检测分类系统及方法，。该方法支持垃圾评论分类，能够在可利用数据十分匮乏时，即冷启动情况下进行垃圾评论检测，且准确度高，能够对垃圾评论进行精准筛查检测。
[0004]为了达到上述技术效果，本专利技术提供了如下技术方案：
[0005]一种冷启动情况下的垃圾评论检测分类系统，包括易得信息生产模块，用于生成新用户与老用户的易得信息；真实行为特征提取模块，用于从老用户的大量数据中提取老用户的真实行为特征；
[0006]生成对抗网络模块，用于利用老用户的真实行为特征作为生成对抗网络判别器的真实数据，通过老用户的易得信息作为生成器的限制条件，训...

【技术保护点】

【技术特征摘要】
1.一种冷启动情况下的垃圾评论检测分类系统，其特征在于，包括易得信息生产模块，用于生成新用户与老用户的易得信息；真实行为特征提取模块，用于从老用户的大量数据中提取老用户的真实行为特征；生成对抗网络模块，利用老用户的真实行为特征作为生成对抗网络判别器的真实数据，通过老用户的易得信息作为生成器的限制条件，训练生成对抗网络；特征生成模块，利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征；领域自适应模块，用于进行领域自适应，提取其他相关但不同领域的信息；分类模块，用于将用户通过特征进行分类，判断是否是垃圾评论的生产者。2.一种冷启动情况下的垃圾评论检测分类方法，其特征在于，包括以下步骤：步骤s1：对于老用户，预处理易得信息；步骤s2：对于老用户，通过长时间收集到的老用户评论信息生成老用户的行为特征；步骤s3：对于老用户，利用老用户的行为特征作为生成对抗网络判别器的真实数据，通过老用户的易得信息作为生成器的限制条件，训练生成对抗网络；步骤s4：对于新用户，预处理易得信息；步骤s5：将新用户的易得信息都放入步骤s3在老用户数据上得到的生成器，生成新用户的行为特征；步骤s6：运用迁移学习的方法，对相关但不同领域的评论信息进行自适应操作，得到领域自适应后的新用户行为特征；步骤s7：将通过s4，s5，s6步骤后得到的新用户行为特征放入分类模型，进行分类，完成垃圾评论检测分类系统。3.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法，其特征在于，所述步骤s1包括提取老用户的易得...

【专利技术属性】
技术研发人员：司成良，展华益，王欣，骆敏，蒋伟，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人