一种用于商业文本分类的特征聚类降维方法技术

技术编号：37370796 阅读：12 留言：0更新日期：2023-04-27 07:15

本发明专利技术提供一种用于商业文本分类的特征聚类降维方法。一种用于商业文本分类的特征聚类降维方法，包括如下文本分类步骤：S1、文本获取和预处理，获取待分类的原始的商业文本，通过词法分析对所述原始的商业文本进行处理，得到预处理文本；S2、文本筛选；S3、文本表示；S4、特征降维；S5、文本分类，得到文本分类结果。本发明专利技术提出一种新的商业文本分类方法，基于BoW模型在n维向量空间中表示商业文本数据，利用词频

全部详细技术资料下载

【技术实现步骤摘要】
一种用于商业文本分类的特征聚类降维方法

[0001]本专利技术涉及文本分类
，特别地涉及一种用于商业文本分类的特征聚类降维方法。

技术介绍

[0002]高维是商业文本分类的挑战性问题之一，高维可能意味着数百、数千甚至数百万个输入特征。高维数据集可能比低维数据集复杂得多，而且这些复杂性更难辨别。处理高维数据在执行时间和数据存储方面非常昂贵。机器学习中遇到的许多问题涉及每个训练实例的数千甚至数百万个特征，并非所有的特征都对模型有很好的贡献，其中一些是不相关的特征。因此，需要通过降维技术去除不相关和冗余的特征以减少特征空间，这是商业文本分类中必不可少的步骤。可以使用有监督和无监督的分析方法进行降维。然而，降维技术的特性取决于所使用的算法类型，由于降维过程的复杂性，没有一种方法适合处理所有情况。

技术实现思路

[0003]本专利技术的目的在于提供一种用于商业文本分类的特征聚类降维方法，以克服现有技术中的不足。
[0004]为实现上述目的，本专利技术提供如下技术方案：
[0005]本专利技术公开了一种用于商业文本分类的特征聚类降维方法，包括如下文本分类步骤：
[0006]S1、文本获取和预处理，获取待分类的原始的商业文本，通过词法分析对所述原始的商业文本进行处理，得到预处理文本；
[0007]S2、文本筛选，筛除所述预处理文本中唯一词出现次数小于预设次数的术语，得到目标文本；
[0008]S3、文本表示，用BoW模型在n维向量空间中表示所述目标文本，得到第一特征，n...

【技术保护点】

【技术特征摘要】
1.一种用于商业文本分类的特征聚类降维方法，其特征在于，包括如下文本分类步骤：S1、文本获取和预处理，获取待分类的原始的商业文本，通过词法分析对所述原始的商业文本进行处理，得到预处理文本；S2、文本筛选，筛除所述预处理文本中唯一词出现次数小于预设次数的术语，得到目标文本；S3、文本表示，用BoW模型在n维向量空间中表示所述目标文本，得到第一特征，n表示所述目标文本中唯一词的数量，并用词频
‑
逆文档频率计算所述目标文本中n个唯一词的权重参数；S4、特征降维，根据所述步骤S3计算得到的所述n个唯一词的权重参数，从所述目标文本中按照预设比例筛选出候选特征，将所述候选特征输入到降维模型中，得到第二特征；S5、文本分类，将所述第二特征输入到分类器中，得到文本分类结果；所述降维模型包括GloVe模型、冗余特征去除单元，所述降维模型对所述候选特征的处理过程包括：所述候选特征作为语料库被输入到GloVe模型中，输出各个候选特征对应的特征向量，所述冗余特征去除单元计算所述特征向量之间的相似度，将大于预设相似阈值的特征向量对应的候选特征分组到同一个簇，输出第二特征。2.如权利要求1所述的一种用于商业文本分类的特征聚类降维方法，其特征在于，对于所述步骤S1：所述词法分析包括对所述原始的商业文本进行单词标记化、去除标点符号、特殊字符和符号、忽略大小写敏感；对于所述原始的商业文本，还包括进行去除停用词和词形还原处理，得到所述预处理文本。3.如权利要求1所述的一种用于商业文本分类的特征聚类降维方法，其特征在于，对于所述步骤S2，还包括：统计所述预处理文本中唯一词的种类和出现次数，筛除所述预处理文本中出现次数小于2次的唯一词对应的术语，得到目标文本。4.如权利要求1所述的一种用于商业文本分类的特征聚类降维方法，其特征在于，对于所述步骤S3，还包括：所...

【专利技术属性】
技术研发人员：张鹏，乔通，陈彧星，
申请(专利权)人：浙江中电远为科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人