一种用于商业文本分类的特征聚类降维方法技术

技术编号:37370796 阅读:12 留言:0更新日期:2023-04-27 07:15
本发明专利技术提供一种用于商业文本分类的特征聚类降维方法。一种用于商业文本分类的特征聚类降维方法,包括如下文本分类步骤:S1、文本获取和预处理,获取待分类的原始的商业文本,通过词法分析对所述原始的商业文本进行处理,得到预处理文本;S2、文本筛选;S3、文本表示;S4、特征降维;S5、文本分类,得到文本分类结果。本发明专利技术提出一种新的商业文本分类方法,基于BoW模型在n维向量空间中表示商业文本数据,利用词频

【技术实现步骤摘要】
一种用于商业文本分类的特征聚类降维方法


[0001]本专利技术涉及文本分类
,特别地涉及一种用于商业文本分类的特征聚类降维方法。

技术介绍

[0002]高维是商业文本分类的挑战性问题之一,高维可能意味着数百、数千甚至数百万个输入特征。高维数据集可能比低维数据集复杂得多,而且这些复杂性更难辨别。处理高维数据在执行时间和数据存储方面非常昂贵。机器学习中遇到的许多问题涉及每个训练实例的数千甚至数百万个特征,并非所有的特征都对模型有很好的贡献,其中一些是不相关的特征。因此,需要通过降维技术去除不相关和冗余的特征以减少特征空间,这是商业文本分类中必不可少的步骤。可以使用有监督和无监督的分析方法进行降维。然而,降维技术的特性取决于所使用的算法类型,由于降维过程的复杂性,没有一种方法适合处理所有情况。

技术实现思路

[0003]本专利技术的目的在于提供一种用于商业文本分类的特征聚类降维方法,以克服现有技术中的不足。
[0004]为实现上述目的,本专利技术提供如下技术方案:
[0005]本专利技术公开了一种用于商业文本分类的特征聚类降维方法,包括如下文本分类步骤:
[0006]S1、文本获取和预处理,获取待分类的原始的商业文本,通过词法分析对所述原始的商业文本进行处理,得到预处理文本;
[0007]S2、文本筛选,筛除所述预处理文本中唯一词出现次数小于预设次数的术语,得到目标文本;
[0008]S3、文本表示,用BoW模型在n维向量空间中表示所述目标文本,得到第一特征,n表示所述目标文本中唯一词的数量,并用词频

逆文档频率计算所述目标文本中n个唯一词的权重参数;
[0009]S4、特征降维,根据所述步骤S3计算得到的所述n个唯一词的权重参数,从所述目标文本中按照预设比例筛选出候选特征,将所述候选特征输入到降维模型中,得到第二特征;
[0010]S5、文本分类,将所述第二特征输入到分类器中,得到文本分类结果;
[0011]所述降维模型包括GloVe模型、冗余特征去除单元,所述降维模型对所述候选特征的处理过程包括:
[0012]所述候选特征作为语料库被输入到GloVe模型中,输出各个候选特征对应的特征向量,所述冗余特征去除单元计算所述特征向量之间的相似度,将大于预设相似阈值的特征向量对应的候选特征分组到同一个簇,输出第二特征。
[0013]进一步地,对于所述步骤S1:
[0014]所述词法分析包括对所述原始的商业文本进行单词标记化、去除标点符号、特殊字符和符号、忽略大小写敏感;
[0015]对于所述原始的商业文本,还包括进行去除停用词和词形还原处理,得到所述预处理文本。
[0016]进一步地,对于所述步骤S2,还包括:
[0017]统计所述预处理文本中唯一词的种类和出现次数,筛除所述预处理文本中出现次数小于2次的唯一词对应的术语,得到目标文本。
[0018]进一步地,对于所述步骤S3,还包括:
[0019]所述n个唯一词的权重参数按照以下公式计算:
[0020][0021]式中,tf

idf
t,d
表示词频

逆文档频率,f
t,d
表示文档D中唯一词t的出现次数,n
d
表示文档D中所有唯一词对应的术语的总数量,N表示文档数量,df
t
表示出现唯一词t的所有文档的数量;
[0022]将计算得到的词频

逆文档频率作为n个唯一词对应的权重参数。
[0023]进一步地,对于所述步骤S4,还包括:
[0024]根据所述步骤S3计算得到的所述n个唯一词的权重参数,以从大到小的顺序对所述目标文本中的术语进行排序,以从大到小的顺序从所述目标文本中的术语筛选出预设比例的术语,将筛选出的术语对应的唯一词作为所述候选特征。
[0025]进一步地,对于所述冗余特征去除单元,通过计算皮尔逊相关系数来表征所述相似度,计算公式如下:
[0026][0027]式中,r表示皮尔逊相关系数,i表示项数,x
i
、y
i
分别表示变量x、y在第i项对应的值是变量x的平均值,是变量y的平均值。
[0028]进一步地,对于所述步骤S5,还包括:
[0029]所述分类器为逻辑回归分类器,所述文本分类为,将所述第二特征输入到所述逻辑回归分类器中进行分类,输出文本分类结果。
[0030]进一步地,对于所述降维模型,还包括:
[0031]对于每一个簇,选择同一个簇中词频

逆文档频率值最高的候选特征表示该簇,剔除其余的候选特征。
[0032]本专利技术具有以下优点:
[0033]1、本专利技术提出一种新的商业文本分类方法,基于BoW模型在n维向量空间中表示商业文本数据,利用词频

逆文档频率筛选频率高权重大的特征,基于全局词频统计的词表征设计一种降维模型,对商业文本数据进行降维聚类,完成对商业文本的分类,适用性强,可以与大部分分类方法结合。
[0034]2、本专利技术通过对商业文本进行特征筛选,将具有代表性的特征作为GloVe模型训
练用的词汇表,降低GloVe模型的训练时间,通过选取一个簇内词频

逆文档频率值最高的项来代表簇,剔除其余项,有效地去除了冗余特征,降低特征维度。
附图说明
[0035]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0036]图1为本专利技术实施例中一种商业文本分类方法的流程示意图。
具体实施方式
[0037]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请部分实施例进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。然而,本领域的普通技术人员可以理解,在本申请的各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。
[0038]实施例1
[0039]参见图1,本专利技术实施例1提供一种用于商业文本分类的特征聚类降维方法,包括如下文本分类步骤:
[0040]S1、文本获取和预处理,获取待分类的原始的商业文本,通过词法分析对原始的商业文本进行处理,得到预处理文本;
[0041]文本预处理是对原始文本数据进行清理的过程,一个原始的商业文本存在停用词、标点符号、特殊字符等冗余词,在一种可选的实施方案中红,本专利技术实施例1中预处理的过程包括:
[0042]对原始的商业文本进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于商业文本分类的特征聚类降维方法,其特征在于,包括如下文本分类步骤:S1、文本获取和预处理,获取待分类的原始的商业文本,通过词法分析对所述原始的商业文本进行处理,得到预处理文本;S2、文本筛选,筛除所述预处理文本中唯一词出现次数小于预设次数的术语,得到目标文本;S3、文本表示,用BoW模型在n维向量空间中表示所述目标文本,得到第一特征,n表示所述目标文本中唯一词的数量,并用词频

逆文档频率计算所述目标文本中n个唯一词的权重参数;S4、特征降维,根据所述步骤S3计算得到的所述n个唯一词的权重参数,从所述目标文本中按照预设比例筛选出候选特征,将所述候选特征输入到降维模型中,得到第二特征;S5、文本分类,将所述第二特征输入到分类器中,得到文本分类结果;所述降维模型包括GloVe模型、冗余特征去除单元,所述降维模型对所述候选特征的处理过程包括:所述候选特征作为语料库被输入到GloVe模型中,输出各个候选特征对应的特征向量,所述冗余特征去除单元计算所述特征向量之间的相似度,将大于预设相似阈值的特征向量对应的候选特征分组到同一个簇,输出第二特征。2.如权利要求1所述的一种用于商业文本分类的特征聚类降维方法,其特征在于,对于所述步骤S1:所述词法分析包括对所述原始的商业文本进行单词标记化、去除标点符号、特殊字符和符号、忽略大小写敏感;对于所述原始的商业文本,还包括进行去除停用词和词形还原处理,得到所述预处理文本。3.如权利要求1所述的一种用于商业文本分类的特征聚类降维方法,其特征在于,对于所述步骤S2,还包括:统计所述预处理文本中唯一词的种类和出现次数,筛除所述预处理文本中出现次数小于2次的唯一词对应的术语,得到目标文本。4.如权利要求1所述的一种用于商业文本分类的特征聚类降维方法,其特征在于,对于所述步骤S3,还包括:所...

【专利技术属性】
技术研发人员:张鹏乔通陈彧星
申请(专利权)人:浙江中电远为科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1