一种基于局部敏感哈希的分布式快速文本分类方法技术

技术编号：12577221 阅读：119 留言：0更新日期：2015-12-23 16:57

本发明专利技术公开了一种基于局部敏感哈希的分布式快速文本分类方法。本发明专利技术针对现有文本分类方法耗时久，精度低，无法满足大数据环境要求等问题，首先采用局部敏感哈希方法压缩数量巨大的文本特征，以提炼有用特征，加快处理速度；其次匹配文本特征与已有类别特征，实现文本类别的快速计算；基于Spark框架对算法进行设计与实现，进一步加快了算法执行速度并提高了算法在大数据环境下的可扩展能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于局部敏感哈希的分布式快速文本分类方法
本专利技术涉及一种基于局部敏感哈希的分布式快速文本分类方法，用于实现对文本进行快速高效地自动分类，属于文本挖掘

技术介绍
近年来，随着信息技术的不断发展，互联网中数字文本大量涌现，如何有效管理这些文本显得尤为重要。文本分类是有效管理文本的重要方法，在网页搜索、垃圾邮件过滤、用户反馈及个性化推荐系统等方面应用广泛。文本分类方法主要有两个评价指标：精确度和速度。前者用来表征文本是否归类到合适的分类中，而后者用来说明算法的执行效率。从提高这两项指标出发，目前比较典型的文本分类方法主要有基于支持向量机(SVM)的方法、基于贝叶斯(Bayes)的方法、线性分类以及K-近邻等。其中，基于SVM的文本分类方法通过在高维或无穷维的空间中构建一个或一组超平面，使得总体的函数边界误差最小，从而克服冗余特征、过拟合等问题，取得较高的分类精度。此外，该方法还具有更好的泛化能力。然而，由于其模型复杂，通常需要消耗大量的时间与空间，并且在大规模数据集下常常难以快速收敛。其它方法如基于贝叶斯的方法、线性分类及k近邻等，它们具有较快的收敛速度，但总的来说模型相对简单。为了获得更好的算法性能，研究人员分别提出了相关的改进方法，这些改进方法或是结合已有方法(如结合PCA与LDA)，或是利用技术手段优化已有方法(如利用人工免疫系统理论优化Bayes方法)。然而，一般来说，这些方法在速度上优于SVM方法，而在分类准确度上则略显不足。此外，目前已有的文本分类方法主要针对文本数量不多的情景，而互联网已经进入了大数据时代，这些方法在互联网大数据背...
一种基于局部敏感哈希的分布式快速文本分类方法

【技术保护点】
一种基于局部敏感哈希的分布式快速文本分类方法，其特征在于：包括以下步骤：步骤1，对文本进行预处理；首先依次对文本进行分词、去停用词，以及存储为HDFS文件等操作，然后将所有文本加载到弹性分布式数据集；步骤2，计算每个词语的n比特哈希值，并根据词频，通过RDD的变换，计算词语的tfidf值，并存储在RDD(tfidf)之中；步骤3，根据训练数据集中每个类别下所有文本的词语tfidf值及n比特哈希值，计算每个类别的n比特类别向量及哈希值；步骤4，基于n比特哈希值，计算待分类文本与每个类别的匹配度，得到文本所属类别。

【技术特征摘要】
1.一种基于局部敏感哈希的分布式快速文本分类方法，其特征在于：包括以下步骤：步骤1，对文本进行预处理：首先依次对文本进行分词、去停用词，以及存储为HDFS文件的操作，然后将所有文本加载到弹性分布式数据集；步骤2，计算每个词语的n比特哈希值，并根据词频，通过RDD的变换，计算词语的tfidf值，并存储在RDD(tfidf)之中；其中，RDD为弹性分布式数据集，采用MD5哈希算法对文本中的每个词语特征进行哈希运算，每条词语特征对应一个n比特哈希值；步骤3，根据训练数据集中每个类别下所有文本的词语tfidf值及n比特哈希值，计算每个类别的n比特类别向量及哈希值：首先，对于RDD(tfidf)中的每一行x，遍历x中的每一个元素y，如果元素y的tfidf值大于0，计算元素y的n位哈希值hy；其次，遍历n位哈希值hy，如果hy的当前位为1，将元素y所属类别向量中与当前位所对应分量的数值加上y的tfidf值；否则，将元素y所属类别向量中与当前位所对应的数值减去y的tfidf值；最终得到该类别的n比特类别向量Vc；最后，遍历n比特类别向量Vc，如果Vc的当前分量大于0，则将该类别的n位哈希值hc的对应位设置为1，否则将hc的对应位设置为0，最终得到该类别的n比特哈希值hc；步骤4，计算待分类文本与每个类别的匹配度，得到文本所属类别：计算待分类文本的特征向量与所有类别的n比特类别向量的相关性或者待分类文本哈希值与类别哈希值之间的相关性，选择与待分类文本的特征向量相关性最高或者与待分类文本哈希值相关性最高的类别作为该待分类文本的类别；在预处理文本阶段，对每个文本进行分词操作，并在RDD中用每一行表征一个文本，即每一行x表示一个文本，每一个元素y表示文本中的一个词语。2.根据权利要求1所述的基于局部敏感哈希的分布式快速文本分类方法，其特征在于：在计算词语的哈希值时，可根据实际应用环境的性能需求：算法执行时间与分类准确度，选择不同的哈希比特位数。3.根据权利要求1所述的基于局部敏感哈希的分布式快速文本分类方法，其特征在于：在计算词语的tfidf值时，采用哈希映射的方法，将所有的文本特征分别映射到...

【专利技术属性】
技术研发人员：杨鹏，顾梁，董永强，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人