【技术实现步骤摘要】
一种基于机器学习的数据分类方法及系统
[0001]本专利技术涉及机器学习
,具体的,涉及一种基于机器学习的数据分类方法及系统。
技术介绍
[0002]随着现代是互联网的普及和计算机技术的快速进步,使得人们的生活方式发生了翻天覆地的变化,目前伴随着互联网普及和计算机技术的快速发展,每时每刻都会产生成千上万的新闻数据,那么如何从海量的新闻中快速有效的选择出用户感兴趣的内容,成为了热点研究课题。当下互联网上的数据不知凡几,类型也各异繁杂,传统的线性分类方法很难对数据进行有效地分类。
技术实现思路
[0003]本专利技术提出一种基于机器学习的数据分类方法及系统,解决了相关技术中数据分类效果差的问题。
[0004]本专利技术的技术方案如下:
[0005]第一方面,一种基于机器学习的数据分类方法,用于文本数据分类,包括
[0006]获得一文本数据集,所述文本数据集包括多个文本;
[0007]对文本数据集进行预处理,得到样本集;
[0008]对样本集进行特征处理;所述特征处理包 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的数据分类方法,用于文本数据分类,其特征在于,包括获得一文本数据集,所述文本数据集包括多个文本;对文本数据集进行预处理,得到样本集;对样本集进行特征处理;所述特征处理包括特征提取和特征加权,所述特征提取包括:将预处理得到的样本集表示为特征集T1;计算特征集T1中每个特征词项的词频,并将这些特征词项的词频按照由大到小的顺序排列,生成一个新的特征集T2;从特征集T2中选择前K个特征词项生成最终的特征集T;所述特征加权包括采用TF
‑
IDF算法针对特征集T1中每一个特征词项对文本内容的重要程度来赋予不同的权重,并将赋予不同权重后的特征词项按照由大到小的顺序排列,得到训练集;TF
‑
IDF计算公式表示为:TF
‑
IDF=TF*IDF其中,TF为词频,IDF为逆文档频率;根据训练集建立数据分类模型,所述数据分类模型用于文本数据分类。2.根据权利要求1所述的一种基于机器学习的数据分类方法,其特征在于,所述对文本数据集进行预处理包括对文本数据集中的每个文本内容进行分词处理:将分词处理后的文本作为基本单元,以空格符来分隔基本单元。3.根据权利要求1所述的一种基于机器学习的数据分类方法,其特征在于,所述对文本数据集进行预处理还包括删除停用词:处理掉数据集中无意义的数据,保留有用数据,无意义的数据包括人称代词、语气助词、分隔句子的标点符号和特殊符号。4.根据权利要求1所述的一种基于机器学习的数据分类方法,其特征在于,所述特征加权表示为TF
‑
IDF,计算公式为:TF
‑
IDF=TF*IDF...
【专利技术属性】
技术研发人员:杜秀明,杜鹏飞,杜玛睿,张震,刘军池,郭红亮,胡丽莎,姚慧娟,王磊,万海龙,
申请(专利权)人:河北新龙科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。