The present invention relates to a naval comment detection system based on clustering resampling, which includes: a clustering parameter calculation module for calculating the appropriate number of comment clusters and cluster center parameters; a clustering calculation module for clustering to generate comment clusters and resampling; and an integrated learning module for text feature extraction and ensemble learning. The present invention can better analyze comment categories and has strong universality, and adapts to unbalanced distribution of naval comment data sets.
【技术实现步骤摘要】
基于聚类重采样的水军评论检测系统及方法
本专利技术涉及情感分析和观点挖掘领域,具体涉及一种基于聚类重采样的水军评论检测系统及方法。
技术介绍
当前,有很多技术方法可用于水军评论检测。传统的检测方法采样方法时随机欠采样单纯从采样角度出发,很难确定获取完整的训练集信息。区别于传统的采样方法,如何训练集类多的样本信息,进行针对水军评论的检测,是水军评论检测的问题关键。传统的研究工作主要是基于欠采样与过采样的方法,使用支持向量机(SVM)分类器进行分类。这一类基于特征工程与浅层线性模型的方法虽然取得了一定的成效,但是对训练集样本利用不充分,耗时耗力,并且影响效性以及模型的学习能力,故而其性能还有待提升。当前,随着聚类采样技术的快速发展,基于聚类采样的方式在数据不平衡时能获取更多的训练集信息。许多研究者们也将这些方法用于水军评论的分类。这类方法首先利用无监督学习算法中的k-means聚类分析技术将数据集划分成不同的子集,然后对各个子集进行逐类聚类,分别选出各类中心邻域内的样本点,构成最终的训练集,最后利用支持向量机对所选择的最具代表样本点进行训练建模。可以大幅度降低支持向量机的学习代价,其分类精度比随机欠采样更优,而且可以达到采用完整数据集训练所得的结果。而近邻传播算法正好可以弥补K-Means的参数确定问题。当前,水军评论方法未充分利用非平衡训练集中数量大的类别信息,无法有效地挖掘出潜在的观点信息。近年来,得到了国内外许多学者和研究机构的高度重视。水军评论检测分类利用了在训练集中不同采样的策略,进行针对不同训练集制定重采样策略,能够站在数据端对模型性能进行提升,提 ...
【技术保护点】
1.一种基于聚类重采样的水军评论检测系统,其特征在于,包括:一聚类参数计算模块,用于计算出合适的评论簇个数以及簇中心点参数;一聚类计算模块,用于聚类生成评论簇并重采样;一集成学习模块,用于文本特征提取与集成学习,得到分类结果。
【技术特征摘要】
1.一种基于聚类重采样的水军评论检测系统,其特征在于,包括:一聚类参数计算模块,用于计算出合适的评论簇个数以及簇中心点参数;一聚类计算模块,用于聚类生成评论簇并重采样;一集成学习模块,用于文本特征提取与集成学习,得到分类结果。2.根据权利要求1所述的基于聚类重采样的水军评论检测系统,其特征在于:所述聚类参数计算模块采用近邻传播算法。3.根据权利要求2所述的基于聚类重采样的水军评论检测系统,其特征在于:所述聚类计算模块采用K-Means聚类算法。4.根据权利要求3所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于,包括以下步骤:步骤S1:采集待测用户行为特征,包括水军评论数据和非水军评论数据,并通过两次的PCA主成分分析算法降维获取低维度行为特征;步骤S2:将非水军评论数据的低维度行为特征输入聚类参数计算模块中,通过近邻传播算法,计算出合适的簇个数以及簇中心点参数,并输入聚类计算模块;步骤S3:将合适的簇个数以及簇中心点参数,作为K-Means聚类的输入参数,得到非水军评论中相似的评论簇;步骤S4:将水军评论数据的低维度行为特征和非水军评论中相似的评论簇作为训练集输入集成学习模块,得到最终分类结果。5.根据权利要求4所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于:所述步骤S3具体为:步骤S31:将欧式距离作为K-means算法的相似度测度,求对应某一初始聚类中心向量V最优分类,使得评价指标J最小;步骤S32:采用误差平方...
【专利技术属性】
技术研发人员:廖祥文,徐阳,陈志豪,陈国龙,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。