一种基于杰卡德距离的实时文本聚类方法技术

技术编号：25270664 阅读：114 留言：0更新日期：2020-08-14 23:03

本发明专利技术涉及一种基于杰卡德距离的实时文本聚类方法，具体包括以下步骤：S1：文本相似度计算：从待聚类数据中选取两个文本，分别从两个文本中抽取关键词，再计算不同文本对应关键词之间的交集、并集，进一步得到杰卡德距离；S2：设定层次聚类阈值；S3：构建聚类模型，依次读取新加载数据，计算每条数据和每个类之间的平均距离，并与阈值比较，确定是否聚到该类还是单独划分一类，不断迭代更新；S4：将S3的聚类结果以更新聚类标识的形式写入Hbase和ES数据库，ES数据库中具有相同聚类标识的数据被聚为一类。本申请的文本聚类方法可以实现海量文本数据的实时分析，类似文本聚类，有效去重，提升用户体验，同时还能改善文本分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于杰卡德距离的实时文本聚类方法
本专利技术涉及自然语言处理与大数据
，特别是涉及一种基于杰卡德距离的实时文本聚类方法。
技术介绍
在现今信息爆炸的社会，每日都有海量的数据信息出现，对于每一个话题都会在不同的平台或者被多人同时提及，因此人类在读取信息的同时会遇到很多重复或者类似的数据，这对于我们进行高效的获取数据信息是一个很大的障碍，会浪费很多时间。因此，针对海量网络文本数据利用文本聚类方法进行去重处理，将相近的数据整合到一起，形成一类，可以进行分类阅读处理，从而极大的提高了工作效率，节约了时间。目前主要基于词袋模型、TF-IDF、以及WORD2VEC等表达方式计算的文本相似度距离作为文本聚类分析的基础。但是在海量文本数据实时聚类的时候存在准确性不高、处理速度较慢等问题。
技术实现思路
为了克服现有技术的上述不足，本专利技术提出了一种基于杰卡德距离的实时文本聚类方法，解决现有海量文本数据实时聚类准确性不高、处理速度慢的技术问题。本专利技术是通过以下技术方案实现的：一种基于杰卡德距离的实时文本聚类方法，具体包括以下步骤：S1：文本相似度计算：从待聚类数据中选取文本a和文本b，计算文本a、文本b的杰卡德距离；分别从文本a和文本b中抽取关键词Sa和Sb，关键词数量视数据长短而定，再计算两个文本对应关键词的杰卡德距离即为两个文本之间的距离；S2：根据经验验证再结合文本相似度，设定层次聚类阈值；S3：层次聚类：构建聚类模型，依次读取新加载数据，计算每...

【技术保护点】
1.一种基于杰卡德距离的实时文本聚类方法，其特征在于，具体包括以下步骤：/nS1：文本相似度计算：从待聚类数据中选取文本a和文本b，计算文本a、文本b的杰卡德距离；分别从文本a和文本b中抽取关键词Sa和Sb，再计算两个文本对应关键词的杰卡德距离即为两个文本之间的距离；/nS2：根据经验验证再结合文本相似度，设定层次聚类阈值；/nS3：层次聚类：构建聚类模型，依次读取新加载数据，计算每条数据和每个类之间的平均距离，并与阈值比较，确定是否聚到该类还是单独划分一类，不断迭代更新；/nS4：将S3的聚类结果以更新聚类标识的形式写入Hbase和ES数据库，ES数据库中具有相同聚类标识的数据被聚为一类。/n

【技术特征摘要】
1.一种基于杰卡德距离的实时文本聚类方法，其特征在于，具体包括以下步骤：
S1：文本相似度计算：从待聚类数据中选取文本a和文本b，计算文本a、文本b的杰卡德距离；分别从文本a和文本b中抽取关键词Sa和Sb，再计算两个文本对应关键词的杰卡德距离即为两个文本之间的距离；
S2：根据经验验证再结合文本相似度，设定层次聚类阈值；
S3：层次聚类：构建聚类模型，依次读取新加载数据，计算每条数据和每个类之间的平均距离，并与阈值比较，确定是否聚到该类还是单独划分一类，不断迭代更新；
S4：将S3的聚类结果以更新聚类标识的形式写入Hbase和ES数据库，ES数据库中具有相同聚类标识的数据被聚为一类。

2.根据权利要求1所述的一种基于杰卡德距离的实时文本聚类方法，其特征在于，S1中的杰卡德距离表示为：其中，0.01为平滑系数，|A|＝Sa∩Sb，并集|B|＝Sa∪Sb。

3.根据权利要求1所述的一种基于杰卡德距离的实时文本聚类方法，其特征在于，S3中聚类模型的具体构建步骤包括：抽取待聚类账号下面的24小时的数据内容，将初始时每条文本数据视为单独的类，计算每两个类之...

【专利技术属性】
技术研发人员：金勇，胡华，孙涛，
申请(专利权)人：武汉烽火普天信息技术有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人