基于数据样本典型特征的小波分析文本分类方法技术

技术编号:41438518 阅读:16 留言:0更新日期:2024-05-28 20:32
本发明专利技术涉及数据处理技术领域,尤其涉及一种基于数据样本典型特征的小波分析文本分类方法,该方法提出了基于数据样本典型特征的文本类别特征提取算法流程,再结合小波分析方法来完成文本分类计算。本发明专利技术根据已有标签的数据样本,对已知类别的文本典型特征进行充分提取,相较于现有的浅层学习算法,能够更加准确提取文本样本的典型类别特征,且充分发挥了小波分析工具在信号处理上的优势,显著提升了文本分类任务各项评价指标,同时保持了分类计算过程可解释、可理解的优点,不存在深度学习算法中的黑箱问题;另外,本发明专利技术所需要的训练样本数据明显减少,避免了数据稀缺问题。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种基于数据样本典型特征的小波分析文本分类方法


技术介绍

1、文本分类算法目前主要可分为浅层学习和深度学习两类,其中,浅层学习方法研究自1990年后引起了广泛关注,在数理统计算法、基于决策树的算法以及基于几何学方法的算法等方面取得了不断发展。

2、基于数理统计的算法主要包括:基于最近邻的模式(k-nearest neighbor,简称knn)分类方法,通过计算待分类文本与训练集中最相近的文本之间的距离或相似度来确定其所属类别;结合knn算法和tf-idf方法进行文本分类的方法;改进knn分类算法,运用向量的方差与小波域中的近似系数,推导出两个重要的不等式,有助于在寻找k-最近邻的过程中排除大量无法成为k-最近邻的向量。

3、基于决策树的算法主要包括:决策树平滑算法,可以提升决策树性能、稳定概率估计、转化为易解释规则集和适用于大规模数据集;结合贝叶斯分类器和决策树学习算法应用于文本分类任务的方法。

4、基于几何学方法的算法方主要包括:svm分类器,是一种有效的机器学习方法,在文本分类领域具本文档来自技高网...

【技术保护点】

1.一种基于数据样本典型特征的小波分析文本分类方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤S1中的所述第一预处理方法包括分词处理和数据清洗处理。

3.如权利要求1所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤S2具体为:

4.如权利要求3所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤S3具体为:

5.如权利要求4所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤S4具体为:

6.如权利要求5所述的基于数...

【技术特征摘要】

1.一种基于数据样本典型特征的小波分析文本分类方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤s1中的所述第一预处理方法包括分词处理和数据清洗处理。

3.如权利要求1所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤s2具体为:

4.如权利要求3所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤s3具体为:

5.如权利要求4所述的基于数据样本典型特征的小...

【专利技术属性】
技术研发人员:高明凌志袁玲王丽晓
申请(专利权)人:珠海近道能源科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1