短文本的聚类方法和系统技术方案

技术编号：10147719 阅读：122 留言：0更新日期：2014-06-30 16:52

本发明专利技术公开了一种短文本的聚类方法和系统，所述方法包括：获取短文本集中各短文本间的相似度；从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合；判断所述第一集合中短文本的数量是否大于0，若是，则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合；判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值，若超过，则将所述待处理短文本与所述待标记短文本划分为同一类别。实施本发明专利技术的方法和系统，在提高聚类精度的同时，可降低数据信息的丢失率，可反映数据集中各短文本的真实数据信息。

全部详细技术资料下载

【技术实现步骤摘要】
短文本的聚类方法和系统
本专利技术涉及计算机
，特别是涉及一种短文本的聚类方法和系统。
技术介绍
从短信、微博、论坛和新闻评论等应用中产生的短文本(ShortText)，为长度在100个汉字内的文本。针对短文本的信息过滤系统解决文本聚类的问题。目前的聚类技术一般是将相似度高(文本距离小)的文本聚集到一个主题（划分为一类）。但是一个短文本中会包含多类的数据信息，仅根据相似度大小，将相似度高的文本划分为一类，会使短文本丢失包含的数据信息，无法反映真实数据的信息。
技术实现思路
基于此，有必要针对上述聚类技术会会使短文本丢失包含的数据信息的问题，提供一种短文本的聚类方法和系统。一种短文本的聚类方法，包括以下步骤:获取短文本集中各短文本间的相似度；从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合，其中，所述待处理短文本为所述短文本集中任意一个短文本；判断所述第一集合中短文本的数量是否大于0，若是，则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合，其中，所述待标记短文本为所述第一集合中任意一个短文本；判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值，若超过，则将所述待处理短文本与所述待标记短文本划分为同一类别。一种短文本的聚类系统，包括:获取模块，用于获取短文本集中各短文本间的相似度；第一查找模块，用于从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合，其中，所述待处理短文本为所述短文本集中任意一个短文本；第二查找模块，用于判断所述第一集合中短...
短文本的聚类方法和系统

【技术保护点】
一种短文本的聚类方法，其特征在于，包括以下步骤:获取短文本集中各短文本间的相似度；从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合，其中，所述待处理短文本为所述短文本集中任意一个短文本；判断所述第一集合中短文本的数量是否大于0，若是，则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合，其中，所述待标记短文本为所述第一集合中任意一个短文本；判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值，若超过，则将所述待处理短文本与所述待标记短文本划分为同一类别。

【技术特征摘要】
1.一种短文本的聚类方法，其特征在于，包括以下步骤:分别对短文本集的各短文本中的各词语进行词频统计，并根据各词语的词频统计值计算各词语在各短文本中的权重；根据各词语在所述短文本集的任意两个短文本中的权重，计算所述任意两个短文本的相似度；从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合，其中，所述待处理短文本为所述短文本集中任意一个短文本；判断所述第一集合中短文本的数量是否大于0，若是，则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合，其中，所述待标记短文本为所述第一集合中任意一个短文本；判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值，若超过，则将所述待处理短文本与所述待标记短文本划分为同一类别；其中，所述根据各词语的词频统计值计算各词语在各短文本中的权重的步骤包括以下步骤：通过以下所述公式计算各词语在各短文本中的权重：其中，Wi为第i个词语在一个短文本中的权重，N为词语总数，Pi为第i个词语的词频统计值。2.根据权利要求1所述的短文本的聚类方法，其特征在于，所述根据各词语在所述短文本集的任意两个短文本中的权重，计算所述任意两个短文本的相似度的步骤包括以下步骤：通过以下所述公式计算所述短文本集中任意两个短文本的相似度：其中，Si,j为第i个短文本与第j个短文本之间的相似度，Wk为第k个词语在第i个短文本中的权重，Xi为所述短文本集中第i个短文本的归一化权重向量，Xk,i为第k个词语在第i个短文本中的权重值，为所述短文本集中所有词语的权重向量的转置，为所述短文本集中所有词语出现的向量标记，Ik为第k个词语在第i个短文本中出现的标记，当第k个词语在第i个短文本中出现时Ik的值为1，当第k个词语在第i个短文本中未出现时Ik的值为0。3.根据权利要求1所述的短文本的聚类方法，其特征在于，所述将所述待处理短文本与所述待...

【专利技术属性】
技术研发人员：高振华，杨鹤鸣，刘俊峰，梁冠雄，李炯城，肖恒辉，关晓明，杨若冰，
申请(专利权)人：广东省电信规划设计院有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人