【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种基于数据样本典型特征的小波分析文本分类方法。
技术介绍
1、文本分类算法目前主要可分为浅层学习和深度学习两类,其中,浅层学习方法研究自1990年后引起了广泛关注,在数理统计算法、基于决策树的算法以及基于几何学方法的算法等方面取得了不断发展。
2、基于数理统计的算法主要包括:基于最近邻的模式(k-nearest neighbor,简称knn)分类方法,通过计算待分类文本与训练集中最相近的文本之间的距离或相似度来确定其所属类别;结合knn算法和tf-idf方法进行文本分类的方法;改进knn分类算法,运用向量的方差与小波域中的近似系数,推导出两个重要的不等式,有助于在寻找k-最近邻的过程中排除大量无法成为k-最近邻的向量。
3、基于决策树的算法主要包括:决策树平滑算法,可以提升决策树性能、稳定概率估计、转化为易解释规则集和适用于大规模数据集;结合贝叶斯分类器和决策树学习算法应用于文本分类任务的方法。
4、基于几何学方法的算法方主要包括:svm分类器,是一种有效的机器学习方
...【技术保护点】
1.一种基于数据样本典型特征的小波分析文本分类方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤S1中的所述第一预处理方法包括分词处理和数据清洗处理。
3.如权利要求1所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤S2具体为:
4.如权利要求3所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤S3具体为:
5.如权利要求4所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤S4具体为:
6.如权
...【技术特征摘要】
1.一种基于数据样本典型特征的小波分析文本分类方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤s1中的所述第一预处理方法包括分词处理和数据清洗处理。
3.如权利要求1所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤s2具体为:
4.如权利要求3所述的基于数据样本典型特征的小波分析文本分类方法,其特征在于,步骤s3具体为:
5.如权利要求4所述的基于数据样本典型特征的小...
【专利技术属性】
技术研发人员:高明,凌志,袁玲,王丽晓,
申请(专利权)人:珠海近道能源科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。