The present invention provides a clustering method, computer program products and server system for unsupervised learning of Chinese commentary, in which the clustering method includes: obtaining comment data, collating and obtaining corpus; preprocessing comment content information in corpus, and performing word segmentation and word vector training; extracting candidate tags; eliminating duplication of candidate tag library; eliminating duplication after eliminating duplication. Candidate tags are filtered by affective words; candidate tags after removal of invalid tags are tagged by clustering operation based on DBSCAN to get the magnitude of all candidate tags, and the clustering results are arranged in descending order according to the number; finally, each clustering magnitude is counted and TopN is output. The invention proposes a clustering method based on unsupervised learning, which overcomes the difficulty of objectively expressing the results of comments by previous tag clustering methods. The method can extract and learn independently and unsupervised according to the actual contents of comments and tags, and provide more objective and responsive clustering results of real comments.
【技术实现步骤摘要】
中文评论无监督学习的聚类方法、计算机程序产品以及服务器系统
本专利技术涉及数据挖掘与处理
,具体而言涉及一种中文评论无监督学习的聚类方法、计算机程序产品以及服务器系统。
技术介绍
目前电商平台或者论坛上对商品或者服务的评价中,往往通过技术手段进行标签的抽取和展示,以供潜在的用户直接获得产品或者服务的最直接的评价。现有生成这些标签的方式中主要有两种,其中一种是抽取,即基于统计原理抽取出现频率最高的词汇或者短语,形成标签,并按照频率的高低进行顺序排列,这一方式在标注时候会产生比较多的噪声,而且仅基于统计原理的抽取,往往得到千奇百怪的结果(标签),不能真实反映评论或者产品的特点;另一种是基于预先自定义的标签的生成,然后再评论信息中进行查找累加,如果出现一次则累加1,查询完所有的评论则会得到自定义标签的累加结果,取前N个进行排列得到最终标注结果,这一方式标注的时候往往需要比较的劳动,效率低,而且只能针对自定义的标签进行累加,针对新的评论或者关键词往往没有效果。结合上述两种方式,都是基于有监督方式的聚类,其特点是难以反应真实情况。
技术实现思路
本专利技术的目的旨在针对现 ...
【技术保护点】
1.一种中文评论无监督学习的聚类方法,其特征在于,包括以下步骤:步骤1、获取针对一产品或者服务的评论数据,整理得到语料库,所述语料库中包含按顺序存储的评论内容信息;步骤2、对语料库中的评论内容信息进行预处理,并进行分词和词向量训练,得到针对分词结果的对应词向量;步骤3、基于自然语言的标签提取规则提取候选标签,形成候选标签库;步骤4、对所述候选标签库进行消重处理,去除重复的候选标签;步骤5、对消重后的候选标签进行情感词过滤,去除无效标签;步骤6、对去除无效标签后的候选标进行签基于DBSCAN的聚类运算,得到所有候选标签的量级,对聚类结果按照数量进行降序排列;步骤7、统计每个聚 ...
【技术特征摘要】
1.一种中文评论无监督学习的聚类方法,其特征在于,包括以下步骤:步骤1、获取针对一产品或者服务的评论数据,整理得到语料库,所述语料库中包含按顺序存储的评论内容信息;步骤2、对语料库中的评论内容信息进行预处理,并进行分词和词向量训练,得到针对分词结果的对应词向量;步骤3、基于自然语言的标签提取规则提取候选标签,形成候选标签库;步骤4、对所述候选标签库进行消重处理,去除重复的候选标签;步骤5、对消重后的候选标签进行情感词过滤,去除无效标签;步骤6、对去除无效标签后的候选标进行签基于DBSCAN的聚类运算,得到所有候选标签的量级,对聚类结果按照数量进行降序排列;步骤7、统计每个聚类量级,输出TopN。2.根据权利要求1所述的中文评论无监督学习的聚类方法,其特征在于,所述步骤2中的预处理包括去除停用词。3.根据权利要求1所述的中文评论无监督学习的聚类方法,其特征在于,所述步骤2中,采用hanLP分词,并对分词结果基于word2vec训练词向量。4.根据权利要求1所述的中文评论无监督学习的聚类方法,其特征在于,所述步骤3中使用的标签抽签规则包含:名词主语+状语,名词主语+状语+状语,状语+状语,状语+形容词,状语5类抽取规则,获取候选标签。5.根据权利要求1所述的中文评论无监督学习的聚类方法,其特征在于,所述步骤4中,对候选标签库中的候选标签,基于simhash算法进行消重,去除内容实质上相同的标签。6.根据权利要求1所述的中文评论无监督学习的聚类方法,其特征在于,所述步骤5中进行情感词过滤具体包含:步骤5-1、设定组合的情感词库;步骤5-2、将情感词库加载到一集合中,从第一条候选标签开始,将候选标签通过jieba分词算法拆分成多个单词,将所有的拆分完的单词逐个与情感词库里面的情感词做等值匹配,如果匹配成功则该条候选标签标记含有情感词,否则标记不包含情感词;步骤5-3、判定如果本条候选标签包含情感词,则将拆分成的单词重新组合成候选标签,并且将本条候选标签的所有分词,通过步骤1的词向量库查询获取词向量,计算出词向量的平均值;如果不包含情感词,则直接过滤;步骤5-4、按照上述步骤5-2、5-3进行每一条候选标签的情感词过滤处理,处理完成后,生成过滤完的候选标签库,候选标签库数据结构包括候选标签字符串以及候选标签字符串向量。7.根据权利要求6所述的中文评论无监督学习的聚类方法,其特征在于,所述步骤6中的聚类运算包括以下步骤:步骤6-1、加载候选标签,获取步骤5-4的候选标签库;步骤6-2、依据候选标签输入到DBSCAN聚类算法进行聚类运...
【专利技术属性】
技术研发人员:杨帆,于巨明,尚应,
申请(专利权)人:南京甄视智能科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。