【技术实现步骤摘要】
一种基于E2LSH算法的文本数据流分类方法及装置
本专利技术涉及数据处理
,具体而言,涉及一种基于E2LSH算法的文本数据流分类方法及装置。
技术介绍
概念漂移是指数据流在不同时间段生成数据的分布发生了变化,对于发生漂移的数据流,需要分类器动态调整来减少分类准确率的损失,重现漂移是概念漂移的一种,指之前出现过概念可能会再次出现,但出现的时间不确定。比如垃圾邮件分类,某一用户在不同时间段对垃圾邮件的定义可能会反复变化。对于求职的用户,招聘时智联邮件被视为正常邮件,找到工作后就会试其为垃圾邮件,在失业后可能又会当成正常邮件。传统漂移算法中通过直接丢弃旧分类器,建立新的分类器适应新出现的概念,但重新训练新的分类器会导致对重现概念适应的迟滞,短期内分类准确率降低的问题。
技术实现思路
本专利技术的目的在于提供一种基于E2LSH算法的文本数据流分类方法及装置,用以改善现有技术中重新建立新的分类器导致对重现概念适应的迟滞,短期内分类准确率降低的问题。第一方面,本申请实施例提供一种基于E2LSH算 ...
【技术保护点】
1.一种基于E2LSH算法的文本数据流分类方法,其特征在于,包括以下步骤:/n获取数据集;/n将所述数据集中的数据进行文本向量化处理,得到每条数据的概念表征;/n获取并根据数据特征对所述数据集中的数据进行分类,得到多个不同类别的数据块;/n将各个数据块中每条数据的概念表征进行平均处理,以得到各个数据块的概念表征;/n采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将所述计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶;/n根据所述对应的概念表征桶对所述数据集中的数据进行分类,得到分类结果。/n
【技术特征摘要】
1.一种基于E2LSH算法的文本数据流分类方法,其特征在于,包括以下步骤:
获取数据集;
将所述数据集中的数据进行文本向量化处理,得到每条数据的概念表征;
获取并根据数据特征对所述数据集中的数据进行分类,得到多个不同类别的数据块;
将各个数据块中每条数据的概念表征进行平均处理,以得到各个数据块的概念表征;
采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将所述计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶;
根据所述对应的概念表征桶对所述数据集中的数据进行分类,得到分类结果。
2.根据权利要求1所述的基于E2LSH算法的文本数据流分类方法,其特征在于,所述采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将所述计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶的步骤包括以下步骤:
采用E2LSH算法对所述数据块的概念表征进行计算处理,得到所述数据块的概念表征的指纹值;
将所述概念表征的指纹值与预置的概念表征桶内的指纹值匹配,得到所述概念表征的指纹值所对应的概念表征桶。
3.根据权利要求1所述的基于E2LSH算法的文本数据流分类方法,其特征在于,所述将所述数据集中的数据进行文本向量化处理,得到每条数据的概念表征的步骤包括以下步骤:
将所述数据集进行文本预处理,得到预处理数据;
采用TF-IDF算法和LDA算法对所述预处理数据进行向量化处理,以得到每条数据的概念表征。
4.根据权利要求3所述的基于E2LSH算法的文本数据流分类方法,其特征在于,所述采用TF-IDF算法和LDA算法对所述预处理数据进行处理,以得到每条数据的概念表征的步骤包括:
采用TF-IDF算法对所述预处理数据进行向量化处理,得到文本向量数据;
采用LDA算法对所述文本向量数据进行计算处理,得到文本主题矩阵数据;
将所述文本主题矩阵数据中每条文本对应的主题向量作为该条数据的概念表征。
5.根据权利要求1所述的基于E2LSH算法的文本数据流分类方法,其特征在于,还包括以下步骤:
获取样...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。