当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种科技新闻的增量学习多层次二分类方法技术

技术编号:12621532 阅读:64 留言:0更新日期:2015-12-30 19:14
本发明专利技术公开了一种科技新闻的增量学习多层次二分类方法,本发明专利技术利用新闻属性中的文章标题、文章内容、关键词,结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,使用余弦相似度计算新文本与科技新闻分类和非科技新闻分类间的相似度,以此依据判定新文本的分类,多层次判断方法和增量学习方法提高了对科技词汇的敏感度,二分类方法能够减少与科技新闻无关新闻的文本数量,进而提高文本多分类准确性。本发明专利技术用于改善从Web网页中抽取新闻信息的使用价值,提高科技新闻的分类准确率。

【技术实现步骤摘要】
一种科技新闻的增量学习多层次二分类方法
本专利技术属于Web网页中文本分类领域,特别涉及一种科技新闻的增量学习多层次二分类方法,用于改善从Web网页中抽取新闻信息的使用价值,提高科技新闻的分类准确率。
技术介绍
掌握科技新闻对于企业的生存和发展有重要的作用和意义,随着互联网的不断普及,网络成为了科技新闻的主要来源,而网络内容的信息量大、复杂、重复率高和格式不统一是企业收集科技新闻的主要障碍,近年来,针对Web网页中科技新闻的收集得到了越来越高的重视。Web网页新闻是发布科技进步、科研成果最快的途径之一,研究科技新闻分类是属于文本分类问题。研究分类问题一般方法有朴素贝叶斯、决策数、K近邻、支持向量机、神经网络、基于TF-IDF的Rocchio方法等。2009年到2014年,朱全银等人给出了Web文本处理的办法(李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐.计算机科学与探索.2014.Vol.8(6):751-759;SuqunCao,QuanyinZhu,ZhiweiHou.CustomerSegmentationBasedonaNovelHierarchicalClusteringAlgorithm.2009,p:1-5(EI:20100412657161);QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82(EI:20095012543848);SuqunCao,ZhiweiHou,LiuyangWang,QuanyinZhu.KernelizedFuzzyFisherCriterionbasedClusteringAlgorithm.DCABES2010,p:87-91(EI:20104413349424);QuanyinZhu,YunyangYan,JinDing,JinQian.TheCaseStudyforPriceExtractingofMobilePhoneSellOnline.2011,p:282-285(EI:20113714318072);QuanyinZhu,SuqunCao,PeiZhou,YunyangYan,HongZhou.IntegratedPriceForecastbasedonDichotomyBackfillingandDisturbanceFactorAlgorithm.InternationalReviewonComputersandSoftware,2011,Vol.6(6):1089-1093.(EI:20121814977597);SuqunCao,GelanYang,QuanyinZhu,HaiheiZhai.Anovelfeatureextractionmethodformechanicalpartrecognition.AppliedMechanicsandMaterials,2011,p:116-121(EI:20113814354316);PeiZhou,QuanyinZhu.Multi-factorMatchingMethodforBasicInformationofScienceandTechnologyExpertsBasedonWebMining.2012,P:718-720(EI:20123915469307);JianpingDeng,FengwenCao,QuanyinZhu,YuZhang.TheWebDataExtractingandApplicationforShopOnlineBasedonCommoditiesClassified.CommunicationsinComputerandInformationScience,Vol.234(4):120-128(EI:20113814340383);HuiZong,QuanyinZhu,MingSun,YahongZhang.Thecasestudyforhumanresourcemanagementresearchbasedonwebminingandsemanticanalysis.AppliedMechanicsandMaterials,Vol.488,2014p:1336-1339(EI:20140517249044))。信息检索:信息检索是指按一定的方式组织信息,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是信息查寻。信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统。文本分类是信息检索领域非常活跃的研究方向。文本分类:文本是语言的实际运用形态,是根据一定的语言衔接和语义连贯规则组成的语句系统。文本分类是在给定的分类体系下,根据文本内容或属性将特定文本划分到一个或多个预先定义的类别中的方法。最早的词匹配法仅仅根据文档中是否出现了与类名相同的词来判断文档是否属于某个类别。这种简单方法无法取得良好的分类效果。后来的知识工程的方法则借助于专业人员的帮助,为每个类别定义大量的推理规则,一篇新文档满足这些推理规则,则判定属于该类别。由于在系统中加入了人为判断的因素,准确度比词匹配法大为提高。但这种方法的缺点仍然明显,例如分类的质量严重依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏。而知识工程最致命的弱点是完全不具备可推广性,一个针对金融领域构建的分类系统,如果要扩充到医疗或社会保险等相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的知识和资金浪费。经过大量的研究和实验,统计学习方法和机器学习逐渐成为分类方法的研究方向。文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为:(1)预处理:将原始语料格式化为同一格式,便于后续的统一处理;(2)索引:将文档分解为基本处理单元,同时降低后续处理的开销;(3)统计:词频统计,项(单词、概念)与分类的相关概率;(4)特征抽取:从文档中抽取出反映文档主题的特征;(5)分类器:分类器的训练;(6)评价:分类器的测试结果分析。文本预处理是对文本内容进行固定的格式分析,包含步骤有分词、词性标注、人名识别、地名识别、停用词处理等。经过长期的研究以及结合语言本身特点,目前英文文本预处理技术已经相当成熟,而汉语属于分析型语言,语义分析比句法分析要所占比重要大得多,因此在中文文本中基于语法的分析方法分析文本重要内容更加困难,分词也就成为了一大难题。目前比较成熟的分词算法有基于字典与词库匹配的机械分词、基于统计分析和语义理解的分词法。空间向量模型:向量空间模型VSM是把对文本内容的处理简化为向量空间中的向量运算,并本文档来自技高网...

【技术保护点】
一种科技新闻的增量学习多层次二分类方法,其特征在于,利用新闻属性中的文章标题、文章内容、关键词,结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,使用余弦相似度计算新文本与科技新闻分类和非科技新闻分类间的相似度,以此依据判定新文本的分类,多层次判断方法和增量学习方法提高了对科技词汇的敏感度,二分类方法能够减少与科技新闻无关新闻的文本数量,进而提高文本多分类准确性;包括模型初始化训练流程步骤A和新文本处理流程步骤B:模型初始化训练流程步骤A从步骤A1到步骤A14:步骤A1、从Web网页上收集的新闻文本作为训练集,设训练集为,由title、keys、content三维组成,title表示新闻标题,keys表示新闻关键词,content表示新闻内容;步骤A2、设参与模型训练总文本数H、科技新闻文本数M、非科技新闻文本数N,其中H=M+N;人工对训练集中文本进行评价,将训练集分为科技新闻和非科技新闻两类,其中;并统计相似度阈值T,阈值T的统计方法是随机从科技新闻中抽取一定量的新闻,根据特征信息中特征词汇的占比确定,特征信息是指新闻标题和关键词的组合;步骤A3、设中文分词词典为、停用词表,停用词表由网上下载的停用词表和新闻库统计词项共同组成;设模型特征信息科技新闻词频集DFYT、模型特征信息非科技新闻词频集DFNT、模型特征信息词文档数集WCT;设模型全文文本词文档数集WCA、模型全文文本科技新闻词频集DFYA、模型全文文本非科技新闻词频集DFNA、模型全文文本非科技新闻局部系数SLNA和模型全文文本权重SLGNA、模型全文文本科技新闻局部系数SLYA和模型全文文本权重SLGYA、模型全文文本全局系数SGA;步骤A4、设循环变量i,取步骤A1的DSET中元素,其中i<=df;步骤A5、设步骤A4的DSETi的特征信息分词集、DSETi的全文文本分词集、DSETi的特征信息词出现文档数WCTS和DSETi的全文文本词出现文档数WCAS;利用分词软件对步骤A2的DSETi的特征信息和全文文本进行分词和停用词处理,软件所用分词词典是步骤A3的分词词典Words、停用词表是步骤A3停用词表stopwords,特征信息是由DSETi中元素标题title和关键词keys组成的字符串,全文文本是在特征信息基础上加上内容content组成的字符串,得到DSETi的特征信息分词结果和DSETi的全文文本分词结果;步骤A6、对步骤A5中分词结果DSETi的特征信息分词集和DSETi的全文文本分词集分别进行词频统计和去重,得到步骤A5中DSETi的特征信息词频统计结果、DSETi的全文文本词频统计结果、DSETi的特征信息去重结果集和DSETi的全文文本去重结果集;步骤A7、根据步骤A6的DSETi特征信息去重集WCTS和DSETi的全文文本去重集WCAS统计步骤A3中训练集DSET的模型特征信息词出现文档数集WCT和训练集DSET的全文文本词出现文档数集WCA,具体做法为如果去重集中词项出现在词出现档次数集中,则词项出现文档次数集中该词项值+1,否则,添加为新词项,值为1,得到训练集DSET的特征信息词出现文档数集和训练集DSET的全文文本词出现文档数集;步骤A8、如果步骤A4中文本DSETi在步骤A2人工评价中被分类为非科技新闻的类别,则将步骤A6的DSETi的特征信息词频集DFTS和DSETi的全文文本词频集DFAS合并到科技新闻分类词频集上,统计步骤A3中训练集DSET的模型科技新闻分类特征信息词频和训练集DSET的模型全文文本词频;否则,步骤A6的DSETi的特征信息词频集DFTS和DSETi的全文文本词频集DFAS合并到非科技新闻分类词频集上,统计步骤A3中训练集DSET的非科技新闻特征信息词频集和训练集DSET的全文文本词频;步骤A9、若步骤A4中循环变量i小于步骤A2中科技新闻数M和非科技新闻数N的和,满足i<=M+N,表示文本集DSET未遍历完,使循环变量i自增1,使i=i+1,跳转步骤A4,否则,执行步骤A10;步骤A10、遍历步骤A1的训练集DSET中每一个元素得到模型中间结果,得到步骤A3的模型非科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型特征信息词出现文档数和训练集DSET的模型全文文本词出现文档数;步骤A11、根据局部系数计算公式和步骤A10中数据集DSET的模型全文文本非科技新闻集DFNT、训练集DSET的模型全文文本科技新闻集DFYA计算步骤A3中训练集DSET的模型全文文本非科技新...

【技术特征摘要】
2015.06.29 CN 201510363486X1.一种科技新闻的增量学习多层次二分类方法,其特征在于,利用新闻属性中的文章标题、文章内容、关键词,结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,使用余弦相似度计算新文本与科技新闻分类和非科技新闻分类间的相似度,以此依据判定新文本的分类,多层次判断方法和增量学习方法提高了对科技词汇的敏感度,二分类方法能够减少与科技新闻无关新闻的文本数量,进而提高文本多分类准确性;包括模型初始化训练流程步骤A和新文本处理流程步骤B:模型初始化训练流程步骤A从步骤A1到步骤A14:步骤A1、从Web网站收集上新闻文本作为训练集,设训练集为,由title、keys、content三维组成,title表示新闻标题,keys表示新闻关键词,content表示新闻内容;步骤A2、设参与训练模型总文本数H、科技新闻文本数M、非科技新闻文本数N,其中H=M+N;人工对训练集中文本进行评价,将训练集分为科技新闻和非科技新闻两类,其中;并统计相似度阈值T,阈值T的统计方法是随机从科技新闻中抽取一定量的新闻,根据特征信息中特征词汇的占比确定,特征信息是指新闻标题和关键词的组合;步骤A3、设中文分词词典为、停用词表,停用词表由网上下载的停用词表和统计词项组成;设模型特征信息科技新闻词频集DFYT、模型特征信息非科技新闻词频集DFNT、模型特征信息词文档数集WCT;设模型全文文本词文档数集WCA、模型全文文本科技新闻词频集DFYA、模型全文文本非科技新闻词频集DFNA、模型全文文本非科技新闻局部系数SLNA和模型全文文本权重SLGNA、模型全文文本科技新闻局部系数SLYA和模型全文文本权重SLGYA、模型全文文本全局系数SGA;步骤A4、设循环变量i,取步骤A1的DSET中元素,其中i&lt;=df;步骤A5、设步骤A4的DSETi的特征信息分词集、DSETi的全文文本分词集、DSETi的特征信息词出现文档数WCTS和DSETi的全文文本词出现文档数WCAS;利用分词软件对步骤A2的DSETi的特征信息和全文文本进行分词和停用词处理,软件所分词词典是步骤A3的分词词典Words、停用词表是步骤A3停用词表stopwords,特征信息是由DSETi中元素标题title和关键词keys组成的字符串,全文文本是在特征信息基础上加上内容content组成的字符串,得到DSETi的特征信息分词结果和DSETi的全文文本分词结果;步骤A6、对步骤A5中分词结果DSETi的特征信息分词集和DSETi的全文文本分词集分别进行词频统计和去重,得到步骤A5中DSETi的特征信息词频统计结果、DSETi的全文文本词频统计结果、DSETi的特征信息去重结果集和DSETi的全文文本去重结果集;步骤A7、根据步骤A6的DSETi特征信息去重集WCTS和DSETi的全文文本去重集WCAS统计步骤A3中训练集DSET的模型特征信息词出现文档数集WCT和训练集DSET的全文文本词出现文档数集WCA,具体做法为如果去重集中词项出现在词出现文档次数集中,则词项出现文档次数集中该词项值+1,否则,添加为新词项,值为1,得到训练集DSET的特征信息词出现文档数集和训练集DSET的全文文本词出现文档数集;步骤A8、如果步骤A4中文本DSETi在步骤A2人工评价中被分类为非科技新闻的类别,则将步骤A6的DSETi的特征信息词频集DFTS和DSETi的全文文本词频集DFAS合并到科技新闻分类词频集上,统计步骤A3中训练集DSET的模型科技新闻分类特征信息词频和训练集DSET的模型全文文本词频;否则,步骤A6的DSETi的特征信息词频集DFTS和DSETi的全文文本词频集DFAS合并到非科技新闻分类词频集上,统计步骤A3中训练集DSET的非科技新闻特征信息词频集和训练集DSET的全文文本词频;步骤A9、若步骤A4中循环变量i小于步骤A2中科技新闻数M和非科技新闻数N的和,满足i&lt;=M+N,表示文本集DSET未遍历完,使循环变量i自增1,使i=i+1,跳转步骤A4,否则,执行步骤A10;步骤A10、遍历步骤A1的训练集DSET中每一个元素得到模型中间结果,得到步骤A3的模型非科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型特征信息词出现文档数和训练集DSET的模型全文文本词出现文档数;步骤A11、根据局部系数计算公式,其中i表示文档集中的单个文档的下标,ks表示单个文档中词汇的个数,和表示第i个文档中第k和第j个词汇出现的个数,和步骤A10中数据集DSET的模型全文文本非科技新闻集DFNT、训练集DSET的模型全文文本科技新闻集DFYA计算步骤A3中训练集DSET的模型全文文本非科技新闻局部系数集和训练集DSET的模型全文文本科技新闻局部系数集;步骤A12、根据全局系数计算公式,N表示文档集中文档的总数,表示文档集中包含词汇集中下标为i单词的文档的数量,和步骤A10中数据集DSET的模型全文文本词出现文档数WCA计算步骤A3中模型全文文本全局系数;步骤A13、根据步骤A11中数据集DSET的全文文本局部系数集SLNA和步骤A12数据集DSET的模型全文文本全局系数集SGA计算步骤A3的数据集DSET的模型全文文本非科技新闻权重SLGNA和数据集DSET的模型全文文本科技新闻权重SLGYA,对应特征词局部系数和全局系数的乘积为该特征词的权重,得到数据集DSET的模型全文文本科技新闻分类权重和数据集DSET的模型非科技新闻分类权重;步骤A14、存储训练模型生成的参数,存储A10中数据集DSET的模型非科技新闻特征信息词频集、数据集DSET的模型全文文本词频集,步骤A11中数据集DSET的模型非科技新闻全文文本局部系数,步骤A13中数据集DSET的模型非科技新闻全文文本权重;步骤A10数据集DSET的模型科技新闻特征信息词频集、数据集DSET的模型全文文本词频集,步骤A11数据集DSET的模型科技新闻全文文本局部系数,步骤A13中数据集DSET的模型科技新闻全文文本权重;步骤A10中数据集DSET的模型特征信息词出现文档数和全文文本词出现文档数;步骤A3中分词词典和停用词表;步骤A12中数据集DSET的模型全文文本全局系数;步骤A2中阈值T,科技新闻数M,非科技新闻数N,训练文本数H;新文本处理流程步骤B从步骤B1到步骤B25:步骤B1、从Web网站上收集一篇新闻文本,设新文本,包括三维:stitle是新闻标题,skeys是新闻关键词,scontent表示新闻内容;步骤B2、载入模型参数,载入步骤A14存储模型参数中的非科技新闻特征信息词频集DFNT、全文文本词频集DFNA、全文文本局部系数SLNA、全文文本全局系数SLGNA;载入步骤A14存储模型参数中的科技新闻特征信息词频集DFYT、模型全文文本词频集DFYA、模型全文文本局部系数SLYA、模型全文文本全局系数SLGYA;载入步骤A14存储模型参数中的模型特征信息词出现文档数集WCT、模型全文文本词出现文档数集WCA、分词词典Words、停用词词典stopwords、模型全文文本全局系数SGA、相似度阈值T、训练模型文本数H、库中科技新闻文本数M和非科技新闻文本数N;步骤B3、设步骤B1的新文本的特征信息分词结果集、新文本的全文文本分词结果集、新文本的特征信息词频集DRFT、新文本的全文文本词频集DRFA、新文本的特征信息局部系数DRLT、新文本的特征信息全局系数DRGT、新文本的特征信息权重DRLGT、新文本的特征信息局部系数DRLA、新文本的特征信息全局系数DRGA、新文本的特征信息权重DRLGA;设模型特征信息科技新闻局部系数SLYT和权重SLGYT、非科技新闻局部系数集SLNT和权重SLGNT、全局系数集SGT;设新文本模型科技新闻分类特征信息相似度SIMYT和科技新闻分类全文文本相似度SIMYA;新文本模型非科技新闻分类特征信息相似度SIMNT和科技新闻分类全文文本相似度SIMNA;设新文本全文文本去重结果集WCAH和特征信息去...

【专利技术属性】
技术研发人员:朱全银潘禄刘文儒李翔周泓胡荣林丁瑾金鹰邵武杰唐海波
申请(专利权)人:淮阴工学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1