基于指数协同度量的特征选择方法技术

技术编号:25757617 阅读:52 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开了一种基于指数协同度量的特征选择方法,具体按照以下步骤实施:步骤1、获取数据集并进行预处理;步骤2、设置最优特征子集的大小为C,并对获取的数据集进行降维处理;步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集,并对测试集进行分类;步骤4、使用Macro‑F1和Micro‑F1评价准则对分类器的分类结果进行评估。解决了实际应用中数据集类别大小不平衡的问题,更加强调术语t

【技术实现步骤摘要】
基于指数协同度量的特征选择方法
本专利技术应用于数据挖掘中文本分类
,涉及一种基于指数协同度量的特征选择方法。
技术介绍
随着移动网络和信息技术的不断普及,全球范围内产生的数据量正呈指数级速度增长。不同以往,现如今数据中非结构化类型数据的比重增大,其中以文本类型居多。对文本进行分类,可以大大提高计算机检索信息的速度。文本分类问题是自然语言领域的一个非常典型的问题,现已广泛应用到情感分析、舆情分析和邮件过滤等方面。文本分类指的是将待分类文档标记为一个或者多个预定义类别的任务,例如在邮件检测中,把邮件分类为垃圾邮件和非垃圾邮件;在社交媒体上,把用户发表的文本进行分类,分析用户的情感;在新闻平台,根据文本的内容,将文本划分到不同的新闻类别中。文本分类在其他方面也有应用,可以使运营商更好地服务用户,促进企业的发展。文本分类主要包括预处理、特征选择、构造分类模型、对待分类文档进行分类等过程。预处理是对训练集进行分词、去除停用词的操作。由于文本是由自然语言表示的,经过预处理,可以提取文本的特征,将其转换成计算机可以理解的方式。同时需要本文档来自技高网...

【技术保护点】
1.一种基于指数协同度量的特征选择方法,其特征在于,具体按照以下步骤实施:/n步骤1、获取数据集并进行预处理;/n步骤2、设置最优特征子集的大小为C,并对获取的数据集进行降维处理;/n步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集,并对测试集进行分类;/n步骤4、使用Macro-F1和Micro-F1评价准则对分类器的分类结果进行评估。/n

【技术特征摘要】
1.一种基于指数协同度量的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1、获取数据集并进行预处理;
步骤2、设置最优特征子集的大小为C,并对获取的数据集进行降维处理;
步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集,并对测试集进行分类;
步骤4、使用Macro-F1和Micro-F1评价准则对分类器的分类结果进行评估。


2.根据权利要求1所述的一种基于指数协同度量的特征选择方法,其特征在于,所述步骤1中数据集包括RE0、RE1、R52、R8、20News-groups。


3.根据权利要求1所述的一种基于指数协同度量的特征选择方法,其特征在于,所述步骤1中预处理具体为,删除在文档中出现次数小于等于3篇和超过总文档数25%比例的术语。


4.根据权利要求1所述的一种基于指数协同度量的特征选择方法,其特征在于,所述步骤2具体为:
步骤2.1:根据公式(1-2)计算每一个术语ti对应于类别ck的真阳性率tpr和假阳性率fpr;






其中,tp表示属于类别ck并且包含术语ti的文档数量,fn表示属于类别ck并且不包含术语ti的文档数量,fp表示不属于类别ck并且包含术语ti的文档数量,tn表示不属于类别ck并且不包含术语ti的文档数量;
步骤2.2:根据公式(3)计算术语ti对应于类别ck的最大最...

【专利技术属性】
技术研发人员:周红芳马一鸣李想
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1