【技术实现步骤摘要】
一种科技新闻的增量学习多层次二分类方法
本专利技术属于Web网页中文本分类领域,特别涉及一种科技新闻的增量学习多层次二分类方法,用于改善从Web网页中抽取新闻信息的使用价值,提高科技新闻的分类准确率。
技术介绍
掌握科技新闻对于企业的生存和发展有重要的作用和意义,随着互联网的不断普及,网络成为了科技新闻的主要来源,而网络内容的信息量大、复杂、重复率高和格式不统一是企业收集科技新闻的主要障碍,近年来,针对Web网页中科技新闻的收集得到了越来越高的重视。Web网页新闻是发布科技进步、科研成果最快的途径之一,研究科技新闻分类是属于文本分类问题。研究分类问题一般方法有朴素贝叶斯、决策数、K近邻、支持向量机、神经网络、基于TF-IDF的Rocchio方法等。2009年到2014年,朱全银等人给出了Web文本处理的办法(李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐.计算机科学与探索.2014.Vol.8(6):751-759;SuqunCao,QuanyinZhu,ZhiweiHou.CustomerSegmentationBasedonaNovelHierarchicalClusteringAlgorithm.2009,p:1-5(EI:20100412657161);QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82(EI:20095012543848);SuqunCao,ZhiweiHou,L ...
【技术保护点】
一种科技新闻的增量学习多层次二分类方法,其特征在于,利用新闻属性中的文章标题、文章内容、关键词,结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,使用余弦相似度计算新文本与科技新闻分类和非科技新闻分类间的相似度,以此依据判定新文本的分类,多层次判断方法和增量学习方法提高了对科技词汇的敏感度,二分类方法能够减少与科技新闻无关新闻的文本数量,进而提高文本多分类准确性;包括模型初始化训练流程步骤A和新文本处理流程步骤B:模型初始化训练流程步骤A从步骤A1到步骤A14:步骤A1、从Web网页上收集的新闻文本作为训练集,设训练集为,由title、keys、content三维组成,title表示新闻标题,keys表示新闻关键词,content表示新闻内容;步骤A2、设参与模型训练总文本数H、科技新闻文本数M、非科技新闻文本数N,其中H=M+N;人工对训练集中文本进行评价,将训练集分为科技新闻和非科技新闻两类,其中;并统计相似度阈值T,阈值T的统计方法是随机从科技新闻中抽取一定量的 ...
【技术特征摘要】
2015.06.29 CN 201510363486X1.一种科技新闻的增量学习多层次二分类方法,其特征在于,利用新闻属性中的文章标题、文章内容、关键词,结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,使用余弦相似度计算新文本与科技新闻分类和非科技新闻分类间的相似度,以此依据判定新文本的分类,多层次判断方法和增量学习方法提高了对科技词汇的敏感度,二分类方法能够减少与科技新闻无关新闻的文本数量,进而提高文本多分类准确性;包括模型初始化训练流程步骤A和新文本处理流程步骤B:模型初始化训练流程步骤A从步骤A1到步骤A14:步骤A1、从Web网站收集上新闻文本作为训练集,设训练集为,由title、keys、content三维组成,title表示新闻标题,keys表示新闻关键词,content表示新闻内容;步骤A2、设参与训练模型总文本数H、科技新闻文本数M、非科技新闻文本数N,其中H=M+N;人工对训练集中文本进行评价,将训练集分为科技新闻和非科技新闻两类,其中;并统计相似度阈值T,阈值T的统计方法是随机从科技新闻中抽取一定量的新闻,根据特征信息中特征词汇的占比确定,特征信息是指新闻标题和关键词的组合;步骤A3、设中文分词词典为、停用词表,停用词表由网上下载的停用词表和统计词项组成;设模型特征信息科技新闻词频集DFYT、模型特征信息非科技新闻词频集DFNT、模型特征信息词文档数集WCT;设模型全文文本词文档数集WCA、模型全文文本科技新闻词频集DFYA、模型全文文本非科技新闻词频集DFNA、模型全文文本非科技新闻局部系数SLNA和模型全文文本权重SLGNA、模型全文文本科技新闻局部系数SLYA和模型全文文本权重SLGYA、模型全文文本全局系数SGA;步骤A4、设循环变量i,取步骤A1的DSET中元素,其中i<=df;步骤A5、设步骤A4的DSETi的特征信息分词集、DSETi的全文文本分词集、DSETi的特征信息词出现文档数WCTS和DSETi的全文文本词出现文档数WCAS;利用分词软件对步骤A2的DSETi的特征信息和全文文本进行分词和停用词处理,软件所分词词典是步骤A3的分词词典Words、停用词表是步骤A3停用词表stopwords,特征信息是由DSETi中元素标题title和关键词keys组成的字符串,全文文本是在特征信息基础上加上内容content组成的字符串,得到DSETi的特征信息分词结果和DSETi的全文文本分词结果;步骤A6、对步骤A5中分词结果DSETi的特征信息分词集和DSETi的全文文本分词集分别进行词频统计和去重,得到步骤A5中DSETi的特征信息词频统计结果、DSETi的全文文本词频统计结果、DSETi的特征信息去重结果集和DSETi的全文文本去重结果集;步骤A7、根据步骤A6的DSETi特征信息去重集WCTS和DSETi的全文文本去重集WCAS统计步骤A3中训练集DSET的模型特征信息词出现文档数集WCT和训练集DSET的全文文本词出现文档数集WCA,具体做法为如果去重集中词项出现在词出现文档次数集中,则词项出现文档次数集中该词项值+1,否则,添加为新词项,值为1,得到训练集DSET的特征信息词出现文档数集和训练集DSET的全文文本词出现文档数集;步骤A8、如果步骤A4中文本DSETi在步骤A2人工评价中被分类为非科技新闻的类别,则将步骤A6的DSETi的特征信息词频集DFTS和DSETi的全文文本词频集DFAS合并到科技新闻分类词频集上,统计步骤A3中训练集DSET的模型科技新闻分类特征信息词频和训练集DSET的模型全文文本词频;否则,步骤A6的DSETi的特征信息词频集DFTS和DSETi的全文文本词频集DFAS合并到非科技新闻分类词频集上,统计步骤A3中训练集DSET的非科技新闻特征信息词频集和训练集DSET的全文文本词频;步骤A9、若步骤A4中循环变量i小于步骤A2中科技新闻数M和非科技新闻数N的和,满足i<=M+N,表示文本集DSET未遍历完,使循环变量i自增1,使i=i+1,跳转步骤A4,否则,执行步骤A10;步骤A10、遍历步骤A1的训练集DSET中每一个元素得到模型中间结果,得到步骤A3的模型非科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型特征信息词出现文档数和训练集DSET的模型全文文本词出现文档数;步骤A11、根据局部系数计算公式,其中i表示文档集中的单个文档的下标,ks表示单个文档中词汇的个数,和表示第i个文档中第k和第j个词汇出现的个数,和步骤A10中数据集DSET的模型全文文本非科技新闻集DFNT、训练集DSET的模型全文文本科技新闻集DFYA计算步骤A3中训练集DSET的模型全文文本非科技新闻局部系数集和训练集DSET的模型全文文本科技新闻局部系数集;步骤A12、根据全局系数计算公式,N表示文档集中文档的总数,表示文档集中包含词汇集中下标为i单词的文档的数量,和步骤A10中数据集DSET的模型全文文本词出现文档数WCA计算步骤A3中模型全文文本全局系数;步骤A13、根据步骤A11中数据集DSET的全文文本局部系数集SLNA和步骤A12数据集DSET的模型全文文本全局系数集SGA计算步骤A3的数据集DSET的模型全文文本非科技新闻权重SLGNA和数据集DSET的模型全文文本科技新闻权重SLGYA,对应特征词局部系数和全局系数的乘积为该特征词的权重,得到数据集DSET的模型全文文本科技新闻分类权重和数据集DSET的模型非科技新闻分类权重;步骤A14、存储训练模型生成的参数,存储A10中数据集DSET的模型非科技新闻特征信息词频集、数据集DSET的模型全文文本词频集,步骤A11中数据集DSET的模型非科技新闻全文文本局部系数,步骤A13中数据集DSET的模型非科技新闻全文文本权重;步骤A10数据集DSET的模型科技新闻特征信息词频集、数据集DSET的模型全文文本词频集,步骤A11数据集DSET的模型科技新闻全文文本局部系数,步骤A13中数据集DSET的模型科技新闻全文文本权重;步骤A10中数据集DSET的模型特征信息词出现文档数和全文文本词出现文档数;步骤A3中分词词典和停用词表;步骤A12中数据集DSET的模型全文文本全局系数;步骤A2中阈值T,科技新闻数M,非科技新闻数N,训练文本数H;新文本处理流程步骤B从步骤B1到步骤B25:步骤B1、从Web网站上收集一篇新闻文本,设新文本,包括三维:stitle是新闻标题,skeys是新闻关键词,scontent表示新闻内容;步骤B2、载入模型参数,载入步骤A14存储模型参数中的非科技新闻特征信息词频集DFNT、全文文本词频集DFNA、全文文本局部系数SLNA、全文文本全局系数SLGNA;载入步骤A14存储模型参数中的科技新闻特征信息词频集DFYT、模型全文文本词频集DFYA、模型全文文本局部系数SLYA、模型全文文本全局系数SLGYA;载入步骤A14存储模型参数中的模型特征信息词出现文档数集WCT、模型全文文本词出现文档数集WCA、分词词典Words、停用词词典stopwords、模型全文文本全局系数SGA、相似度阈值T、训练模型文本数H、库中科技新闻文本数M和非科技新闻文本数N;步骤B3、设步骤B1的新文本的特征信息分词结果集、新文本的全文文本分词结果集、新文本的特征信息词频集DRFT、新文本的全文文本词频集DRFA、新文本的特征信息局部系数DRLT、新文本的特征信息全局系数DRGT、新文本的特征信息权重DRLGT、新文本的特征信息局部系数DRLA、新文本的特征信息全局系数DRGA、新文本的特征信息权重DRLGA;设模型特征信息科技新闻局部系数SLYT和权重SLGYT、非科技新闻局部系数集SLNT和权重SLGNT、全局系数集SGT;设新文本模型科技新闻分类特征信息相似度SIMYT和科技新闻分类全文文本相似度SIMYA;新文本模型非科技新闻分类特征信息相似度SIMNT和科技新闻分类全文文本相似度SIMNA;设新文本全文文本去重结果集WCAH和特征信息去...
【专利技术属性】
技术研发人员:朱全银,潘禄,刘文儒,李翔,周泓,胡荣林,丁瑾,金鹰,邵武杰,唐海波,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。