短文本的聚类方法和系统技术方案

技术编号:10147719 阅读:122 留言:0更新日期:2014-06-30 16:52
本发明专利技术公开了一种短文本的聚类方法和系统,所述方法包括:获取短文本集中各短文本间的相似度;从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合;判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合;判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。实施本发明专利技术的方法和系统,在提高聚类精度的同时,可降低数据信息的丢失率,可反映数据集中各短文本的真实数据信息。

【技术实现步骤摘要】
短文本的聚类方法和系统
本专利技术涉及计算机
,特别是涉及一种短文本的聚类方法和系统。
技术介绍
从短信、微博、论坛和新闻评论等应用中产生的短文本(ShortText),为长度在100个汉字内的文本。针对短文本的信息过滤系统解决文本聚类的问题。目前的聚类技术一般是将相似度高(文本距离小)的文本聚集到一个主题(划分为一类)。但是一个短文本中会包含多类的数据信息,仅根据相似度大小,将相似度高的文本划分为一类,会使短文本丢失包含的数据信息,无法反映真实数据的信息。
技术实现思路
基于此,有必要针对上述聚类技术会会使短文本丢失包含的数据信息的问题,提供一种短文本的聚类方法和系统。一种短文本的聚类方法,包括以下步骤:获取短文本集中各短文本间的相似度;从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本;判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。一种短文本的聚类系统,包括:获取模块,用于获取短文本集中各短文本间的相似度;第一查找模块,用于从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本;第二查找模块,用于判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;聚类模块,用于判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。上述短文本的聚类方法和系统,基于各短文本间的相似度,从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,并从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,通过比较所述查找到的短文本与再次查找到的短文中相同短文本的数目是否超过文本数阈值,在相同短文本的数目超过阈值时将所述待处理短文本与所述待标记短文本划分为同一类别,通过对比分别与两个短文本相似的短文本集合的重合度来聚类,在提高聚类精度的同时,可进而降低数据信息的丢失率,反映数据集中各短文本的真实数据信息。附图说明图1是本专利技术短文本的聚类方法第一实施方式的流程示意图;图2是本专利技术短文本的聚类方法第二实施方式的流程示意图;图3是本专利技术短文本的聚类系统第一实施方式的结构示意图;图4是本专利技术短文本的聚类系统第二实施方式的结构示意图。具体实施方式请参阅图1,图1是本专利技术短文本的聚类方法第一实施方式的流程示意图。本实施方式的所述短文本的聚类方法包括以下步骤:步骤101,获取短文本集中各短文本间的相似度。步骤102,从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本。步骤103,判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本。步骤104,判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。本实施方式所述的短文本的聚类方法,基于各短文本间的相似度,从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,并从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,通过比较所述查找到的短文本与再次查找到的短文中相同短文本的数目是否超过文本数阈值,在相同短文本的数目超过阈值时将所述待处理短文本与所述待标记短文本划分为同一类别,通过对比分别与两个短文本相似的短文本集合的重合度来聚类,在提高聚类精度的同时,可进而降低数据信息的丢失率,反映数据集中各短文本的真实数据信息。其中,对于步骤101,优选地,可通过短文本中各词语的词频权重计算各短文两两之间的相似度。还可以进一步将所述短文本集中各短文本间的相似度转换为所述短文本集的相似度矩阵。在一个实施例中,本专利技术所述的短文本的聚类方法,在所述获取短文本集中各短文本间的相似度的步骤之前,还包括以下步骤:根据停用词词典,去除各短文本中已停用的词语、数字及标点符号,对各短文本中剩余的词语进行同义词语替换。通过汉语词法分析系统ICTCLAS分词算法,对同义词语替换后的各短文本进行分词。对分词后的各短文本进行词频统计。其中,所述词频统计优选地为统计各个词语在短文本中出现的次数。在另一个实施例中,所述获取短文本集中各短文本间的相似度的步骤包括以下步骤:分别对所述短文本集的各短文本中的各词语进行词频统计,并根据各词语的词频统计值计算各词语在各短文本中的权重。根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度。其中,优选地,所述根据各词语的词频统计值计算各词语在各短文本中的权重的步骤包括以下步骤:通过以下所述公式计算各词语在各短文本中的权重:其中,Wi为第i个词语在一个短文本中的权重,N为词语总数,Pi为第i个词语的词频统计值。上述公式计算出的词语权重可精确反映出词语在短文本中的数据比重。进一步地,所述根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度的步骤包括以下步骤:通过以下所述公式计算所述短文本集中任意两个短文本的相似度:其中,Si,j为第i个短文本与第j个短文本之间的相似度,Wk为第k个词语在第i个短文本中的权重,Xi为所述短文本集中第i个短文本的归一化权重向量,Xk,i为第k个词语在第i个短文本中的权重值,为所述短文本集中所有词语的权重向量的转置,当第k个词语在第i个短文本中出现时Ik的值为1,当第k个词语在第i个短文本中未出现时Ik的值为0。通过上述公式可计算出精度较高的相似度。对于步骤102,可提前对所述短文本集中的各短文本进行编号区分,还可设定所述短文本集中作为所述待处理文本的次序,为各短文本分类。优选地,所述相似度阈值可根据计算量的大小以及最终期望达到的聚类精度进行设定。在一个实施例中,所述从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合的步骤包括以下步骤:分别从所述短文本集中查找与所述短文本集中各个短文本间的相似度大于所述相似度阈值的短文本,生成分别与所述各个短文本对应的第一集合。在其他实施方式中,还可在执行完步骤103或104后,回到步骤102,循环执行步骤102至104,直至将所述短文本集中所有短文本聚类。对于步骤103,优选地,当所述第一集合为空或其中短文本的数量为0时,可将所述待处理短文本划分为噪声数据,可通过为所述待处理短文本设置噪声标记来划分噪声数据类。优选地,可随机选取所述第一集合本文档来自技高网...
短文本的聚类方法和系统

【技术保护点】
一种短文本的聚类方法,其特征在于,包括以下步骤:获取短文本集中各短文本间的相似度;从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本;判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。

【技术特征摘要】
1.一种短文本的聚类方法,其特征在于,包括以下步骤:分别对短文本集的各短文本中的各词语进行词频统计,并根据各词语的词频统计值计算各词语在各短文本中的权重;根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度;从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本;判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别;其中,所述根据各词语的词频统计值计算各词语在各短文本中的权重的步骤包括以下步骤:通过以下所述公式计算各词语在各短文本中的权重:其中,Wi为第i个词语在一个短文本中的权重,N为词语总数,Pi为第i个词语的词频统计值。2.根据权利要求1所述的短文本的聚类方法,其特征在于,所述根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度的步骤包括以下步骤:通过以下所述公式计算所述短文本集中任意两个短文本的相似度:其中,Si,j为第i个短文本与第j个短文本之间的相似度,Wk为第k个词语在第i个短文本中的权重,Xi为所述短文本集中第i个短文本的归一化权重向量,Xk,i为第k个词语在第i个短文本中的权重值,为所述短文本集中所有词语的权重向量的转置,为所述短文本集中所有词语出现的向量标记,Ik为第k个词语在第i个短文本中出现的标记,当第k个词语在第i个短文本中出现时Ik的值为1,当第k个词语在第i个短文本中未出现时Ik的值为0。3.根据权利要求1所述的短文本的聚类方法,其特征在于,所述将所述待处理短文本与所述待...

【专利技术属性】
技术研发人员:高振华杨鹤鸣刘俊峰梁冠雄李炯城肖恒辉关晓明杨若冰
申请(专利权)人:广东省电信规划设计院有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1