一种基于特征向量稀疏性的文本分类方法技术

技术编号：41128905 阅读：3 留言：0更新日期：2024-04-30 17:57

本发明专利技术适用于数据分类技术领域，尤其涉及一种基于特征向量稀疏性的文本分类方法。与现有技术相比，本发明专利技术相比深度学习算法，对计算资源需求小，分类器模型简单，原理清晰，计算过程可解释；为提取已具备类别标签的文本数据集的类别典型特征而设计，相比现有的特征提取算法，在该场景下实现了更为准确的文本类别特征提取；相比现有的浅层学习文本算法，显著提升了文本分类准确度；将耗时较多基于大数据样本的文本类别特征提取一次性完成，大数据文本类别特征的计算只需一次的目的；通过计算待分类文本的向量稀疏度完成文本分类，算法逻辑简单，稀疏度计算仅仅通过加法即可完成，计算简单；显著减少了文本分类的计算时间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术适用于数据分类，尤其涉及一种基于特征向量稀疏性的文本分类方法。

技术介绍

1、文本分类早期是利用知识工程建立专家系统，其优点是原理清晰直观，但人工成本高，解决问题范围较为狭窄，准确率有限。1990年后随着统计方法及机器学习的兴起，以及互联网在线文本数量增长，解决大规模文本分类问题的经典做法是基于特征工程的浅层分类模型。自2010年代以来，文本分类逐渐从浅层学习模式向深度学习模式转变，其与基于浅层学习的方法的区别是通过学习一组直接将特征映射到输出的非线性转换，将特征工程集成到模型拟合过程中，提升了浅层学习模型对复杂函数的表示能力。目前文本分类所使用的深度学习模型包括循环神经网络、卷积神经网络、注意力机制等，在实践中取得了较好的效果的同时，也普遍存在着算力要求高、模型设计较复杂及可解释性较差的问题。

2、现有的浅层分类算法可以大体分为以下几类：基于统计思想的算法，这类算法已成为浅层分类的主流方法，该类算法中最典型是基于统计的分类模型就是近邻（k-nearestneighbor，knn）算法，分类系统在训练集中查找出与它距离最接近的篇相邻（相似或相同）标注文档，统计篇训练集文本的类别属性，将待分类文档类归为中最多的样本类别，由于knn算法原理清晰，效果好，众多学术研究将其作为比较研究算法，也是本文主要的比较研究对象；基于规则的算法，如cart算法等；基于概率的算法，主要思想是将与待分类文本条件概率最大的类别作为该文档的输出类别，其中朴素贝叶斯分类器（naive bayes）是应用最为广泛且最简单常用的一种概率分类

3、然而，以上算法，都采用了实时计算待分类样本的统计特征、概率特征或者几何特征，然后根据计算结果进行分类，可认为是一种“事中”或“事后”计算方法。而基于大数据样本的“事前”统计计算的优势并未得到有效体现，这也是造成knn等算法在内浅层学习算法时间及空间复杂度较高，计算资源消耗较大，耗时较长，准确率仍有待提升的主要原因。

技术实现思路

1、本专利技术提出了一种基于特征向量稀疏性的文本分类方法，旨在解决现有的文本分类方法计算资源消耗大、耗时较长以及准确率低的问题。

2、所述文本分类方法包括以下步骤：

3、s1、获取已知类别标签的文本数据集；

4、s2、对所述文本数据集进行预处理，得到词典数据集；其中，所述词典数据集包括多个词项；

5、s3、对所述词典数据集进行典型特征提取，得到类典型特征向量；

6、s4、将待分类文本中的所有词项与所述类典型特征向量进行匹配，得到对应的特征向量；

7、s5、对所述特征向量的向量稀疏度进行计算，计算得到所述待分类文本的文本类别。

8、优选地，步骤s2中，预处理包括分词处理和清洗处理。

9、优选地，步骤s3中，包括以下子步骤：

10、s31、计算出所述词典数据集中每一词项的平均词频值，所述平均词频值用于表征在词项层面中，所述词项对于所述文本数据集的文本类别特征表征能力；

11、s32、计算出所述词典数据集中每一词项的文档频率值，所述文档频率值用于表征在文档层面中，所述词项对于所述文本数据集的文本类别特征表征能力；

12、s33、根据所述平均词频值和所述文档频率值进行计算，得到每一所述词项对应的权重值，所述权重值用于表征所述词项对于所述文本数据集的文本类别特征表征能力值；

13、s34、将每一所述词项对应的权重值进行组合排列，得到类典型特征向量。

14、优选地，定义所述词典为，所述词典中第个词项为，则所述平均词频值的计算公式如下：

15、；

16、其中，表示所述平均词频值，下标表示第个词典，表示所述词典中的第个词项，为所述词典对应语料库集合中包括所述词项的文本数量，表示第个所述词项在所述词典对应语料库集合中文本的词频比重。

17、优选地，所述文档频率值的计算公式如下：

18、；

19、其中，分子表示所述词典对应语料库集合中包括第个所述词项的文本总数，分母表示所述词典对应语料库集合的文档总数。

20、优选地，定义所述权重值为，则所述权重值的计算公式如下；

21、。

22、与现有技术相比，本专利技术相比深度学习算法，对计算资源需求小，分类器模型简单，原理清晰，计算过程可解释；为提取已具备类别标签的文本数据集的类别典型特征而设计，相比现有的特征提取算法，在该场景下实现了更为准确的文本类别特征提取；相比现有的浅层学习文本算法，显著提升了文本分类准确度；将耗时较多基于大数据样本的文本类别特征提取一次性完成，大数据文本类别特征的计算只需一次的目的；通过计算待分类文本的向量稀疏度完成文本分类，算法逻辑简单，稀疏度计算仅仅通过加法即可完成，计算简单；相比现有的浅层学习文本算法，显著减少了文本分类的计算时间。

本文档来自技高网...

【技术保护点】

1.一种基于特征向量稀疏性的文本分类方法，其特征在于，所述文本分类方法包括以下步骤：

2.如权利要求1所述的基于特征向量稀疏性的文本分类方法，其特征在于，步骤S2中，预处理包括分词处理和清洗处理。

3.如权利要求1所述的基于特征向量稀疏性的文本分类方法，其特征在于，步骤S3中，包括以下子步骤：

4.如权利要求3所述的基于特征向量稀疏性的文本分类方法，其特征在于，定义所述词典为，所述词典中第个词项为，则所述平均词频值的计算公式如下：

5.如权利要求4所述的基于特征向量稀疏性的文本分类方法，其特征在于，所述文档频率值的计算公式如下：

6.如权利要求5所述的基于特征向量稀疏性的文本分类方法，其特征在于，定义所述权重值为，则所述权重值的计算公式如下；

【技术特征摘要】

1.一种基于特征向量稀疏性的文本分类方法，其特征在于，所述文本分类方法包括以下步骤：

2.如权利要求1所述的基于特征向量稀疏性的文本分类方法，其特征在于，步骤s2中，预处理包括分词处理和清洗处理。

3.如权利要求1所述的基于特征向量稀疏性的文本分类方法，其特征在于，步骤s3中，包括以下子步骤：

4.如权利要求3所述的基...

【专利技术属性】
技术研发人员：高明，李梦诗，季天瑤，吴青华，凌志，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人