一种基于深度学习的集成式食品安全文本分类方法技术

技术编号:15194168 阅读:105 留言:0更新日期:2017-04-20 15:47
一种基于深度学习的集成式食品安全文本分类方法。本发明专利技术涉及中文食品安全文本分类方法,包括如下步骤:S1步骤:进行新闻语料采集,得三类文档:食品安全类、非食品安全类和无标签类文档;S2步骤:将所述语料进行处理,分成训练语料和测试语料;S3步骤:在训练阶段,首先将所述训练语料中负样本随机分成N组,每组的负样本和正样本组合成一个训练语料子集,其次,采用深度学习方法用所述子集训练生成一个基分类器,最后,N个基分类器组成基于深度学习的组合分类器;S4步骤:在测试阶段,用所述组合分类器对所述测试语料进行分类,得到N个分类标签;按照多数投票制对标签进行投票,得到最终分类标签。本发明专利技术能解决中文食品安全语料中的单类分类问题,准确地从网络新闻中筛选出食品安全相关报道。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别是涉及基于深度学习的集成式食品安全文本分类方法。
技术介绍
在人们物质生活水平提高以后,食品安全越来越成为大众所关注的焦点,据“2015中国综合小康指数”之“最受关注的十大焦点问题”调查显示,食品安全以44.8%的关注度位居首位。果蔬的农药残留超标、畜禽类的“速成”、食品的非法添加物等各类食品安全事件频频发生,使得食品安全问题愈发严峻,加剧了大众对食品安全的担忧。同时,由于互联网的便捷性和时效性,越来越多的食品安全事件选择在网络媒体上曝光。所以,监督网络食品安全新闻报道并进行食品安全分析,这已经成为食品安全问题研究的一种重要方法。但是,这种方法的首要步骤就是要从海量的互联网新闻中自动获取食品安全相关新闻(即中文食品安全文本分类),这却并非易事。目前大多数文本分类问题是多分类(或二分类)问题,为了达到较高的分类效果,目前的文本分类算法大多采用全监督式分类方法。但是,这种基于全监督式分类方法的分类效果高度依赖于人工标注语料的质量,并且分类模型的移植性不高。对于中文食品安全文本分类问题而言,目前人工标注的食品安全新闻语料只包括食品安全类文档,不包括非食品安全类文档。这种只包含一类实例的分类问题通常被称为单类分类问题,其相应的技术研究还较少。目前单类分类问题往往采用无监督分类技术,但是其分类方法效果不好。因此,需要开发针对中文食品安全的文本自动分类方法。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是提供一种中文食品安全文本分类方法,能够从网络中自动识别出食品安全相关新闻,解决目前人工标注的中文食品安全新闻语料是单类分类语料,并且针对单类分类问题的分类方法效果不好这两个问题。(二)技术方案为了解决上述技术问题,本专利技术提供了一种基于深度学习的集成式食品安全文本分类方法,所述方法包括以下步骤:步骤S1:从《中国食品安全事件集(2001-2011)》和一些食品新闻网站上获取中文新闻语料,进行预处理,得到食品安全类文档语料和无标签类文档语料;步骤S2:将所述食品安全类文档语料和无标签类文档语料进行组合,得到训练语料和测试语料;步骤S3:将所述训练语料划分训练子集,利用训练子集训练基分类器,根据集成学习方法训练组合分类器;步骤S4:根据所述组合分类器对所述测试语料进行分类,根据多数投票制得到训练实例的最终分类标签,从而得到食品安全类文档。进一步的,步骤S1具体包括:对《中国食品安全事件集(2001-2011)》中的新闻文档进行格式化处理,提取其中的标题、日期、来源、摘要、正文数据,采用统一的格式保存到数据库中,得到食品安全类文档语料;从一些食品新闻网站收集新闻,提取其中的标题、日期、来源、摘要、正文等信息,采用统一的格式保存到数据库中,得到无标签类文档语料;进一步的,步骤S2具体包括:将所述食品安全类文档语料分为训练正实例语料和测试正实例语料;将所述无标签类文档语料划分为训练无标签语料和测试无标签语料;将所述训练无标签类文档语料作为训练负实例语料;将所述训练无标签语料中的无标签实例作为负实例(即伪负实例),形成训练伪负实例语料;测试语料应包括正实例语料和负实例语料,但所述采集到的数据中没有负实例语料,故从所述测试无标签语料中随机挑选出一部分进行人工标注,得到测试负实例语料;将所述训练正实例语料和所述训练伪负实例语料作为训练语料,将所述测试正实例语料和所述测试负实例语料作为测试语料;进一步的,步骤S3具体包括:针对所述训练语料,提取每个文档中的标题和正文中的所有词作为所述文档的特征信息;因为所述正实例和伪负实例数量的不平衡性以及伪负实例中存在的严重噪声问题,因此根据所述特征信息,利用LSTM深度分类算法训练多个基分类器,将所述多个基分类器进行组合,构成所述基于深度学习的组合分类器,具体步骤为:所述伪负实例语料为所述正实例语料的N倍,所以将所述伪负实例语料分为N组,所述每组伪负实例语料和所述正实例语料为一个训练子集,得到N个训练子集;对于所述每个训练子集通过LSTM深度分类算法进行学习,得到N个基分类器;将所述N个基分类器组合得到组合分类器;进一步的,步骤S4具体包括:针对所述测试语料中的每个测试实例,利用一个所述的基分类器分类会得到一个标签,这样N个基分类器会得到N个分类标签,按照多数投票制(若票数1:1则标签为0)进行投票,投票结果作为该测试实例的最终分类标签,最终分类标签为“1”的测试实例为食品安全类文档,最终分类标签为“0”的测试实例为非食品安全类文档。附图说明图1为基于深度学习的集成式食品安全文本分类方法流程图;图2为基于集成学习方法的文档分类模型架构图。具体实施方式为使本专利技术的内容更加清楚,下面将结合附图对本专利技术实施方式进行详细的说明。本专利技术提供的基于深度学习的集成式食品安全文本分类方法,能够自动从网络新闻中识别食品安全报道,并且识别结果准确度相较于现有的文本分类模型有所提高。其工作流程图如图1所示。步骤S1:进行语料的采集,从《中国食品安全事件集(2001-2011)》以及食品伙伴网和一些相关网站收集数据,对收集的数据进行预处理,包括:对《中国食品安全事件集(2001-2011)》中的新闻文档进行格式化处理,提取其中的标题、日期、来源、摘要、正文数据,采用统一的格式保存到数据库中,得到食品安全类文档语料,共2398篇文档;从一些食品新闻网站收集新闻,提取其中的标题、日期、来源、摘要、正文等信息,采用统一的格式保存到数据库中,得到无标签类文档语料,共11388篇文档;步骤S2:实验数据分为训练语料和测试语料;具体步骤为:从所述无标签类文档语料中随机选取2708篇进行人工标注,直到得到500篇非食品安全类文档,作为测试负实例样本语料;从所述食品安全类文档中随机挑选500篇食品安全类文档,和所述500篇非食品安全类文档作为测试集(共1000篇文档数据);从所述食品安全类文档中剩余的1898篇食品安全类文档和所述无标签类文档中所剩的11388篇无标签类文档作为训练集(共13286篇文档数据);步骤S3:因为在训练语料中数据存在的不平衡性问题和噪声问题,采用集成学习的方法对组合分类模型进行训练,具体步骤为:负实例样本总数约是正实例样本总数的N(=6)倍,在训练阶段,负实例样本随机被分成N组;每组的负实例样本和正实例样本组合成一个训练语料子集,每个训练语料子集中的样本分布均衡,得到N个训练子集;利用所述的一个训练语料子集通过LSTM模型利用深度学习方法生成一个基分类器,进行N次后N个训练子集得到N个基分类器,将所述N个基分类器进行组合即得到组合分类器;步骤S4:根据所述分类器对所述测试语料进行分类,得到食品安全类文档;具体步骤为:利用所述N个基分类器对测试语料进行分类得到N个分类结果;按照多数投票制(若票数1:1则标签设为“0”)对所述N个分类结果进行投票,投票结果作为该测试文档的最终分类结果:如果是“1”,所述测试文档是一个食品安全类文档;如果是“0”,所述测试文档是一个非食品安全类文档。为了检测本专利技术公开的基于深度学习的集成式食品安全文本分类方法的有效性,本专利对基于LSTM的文本分类模型以及本专利技术中改进基于LSTM集成学习的中文食品安全文本分类模型做了测试,本文档来自技高网...
一种基于深度学习的集成式食品安全文本分类方法

【技术保护点】
一种基于深度学习的集成式食品安全文本分类方法,包括如下步骤:获取语料,并对中文新闻语料进行预处理,得到食品安全类文档语料和无标签类文档语料;将所述食品安全类文档语料作为正实例语料,将所述无标签类文档语料作为伪负实例语料,将所述正实例语料和伪实例语料进行组合,得到训练语料和测试语料;将所述训练语料中负实例语料随机分成N组,每组的负实例样本和正实例样本组合成一个训练语料子集。利用所述N个训练语料子集,训练一个基于深度学习的组合分类器;利用所述基于深度学习的组合分类器从所述测试语料中获取中文食品安全文档。

【技术特征摘要】
1.一种基于深度学习的集成式食品安全文本分类方法,包括如下步骤:获取语料,并对中文新闻语料进行预处理,得到食品安全类文档语料和无标签类文档语料;将所述食品安全类文档语料作为正实例语料,将所述无标签类文档语料作为伪负实例语料,将所述正实例语料和伪实例语料进行组合,得到训练语料和测试语料;将所述训练语料中负实例语料随机分成N组,每组的负实例样本和正实例样本组合成一个训练语料子集。利用所述N个训练语料子集,训练一个基于深度学习的组合分类器;利用所述基于深度学习的组合分类器从所述测试语料中获取中文食品安全文档。2.根据权利要求1所述的基于深度学习的集成式食品安全文本分类方法,其特征在于,获取语料,并对中文新闻语料进行预处理,得到食品安全类文档语料和无标签类文档语料,具体包括:对《中国食品安全事件集(2001-2011)》中的新闻文档进行格式化处理,提取其中的标题、日期、来源、摘要、正文数据,采用统一的格式保存到数据库中,得到食品安全类文档语料;从食品伙伴网等主要媒体网站上收集新闻,提取其中的标题、日期、来源、摘要、正文等信息,采用统一的格式保存到数据库中,得到无标签类文档语料。3.根据权利要求1所述的基于深度学习的集成式食品安全文本分类方法,其特征在于,将所述食品安全类文档语料和无标签类文档语料进行组合,得到训练语料和测试语料,具体包括:将所述食品安全类文档语料划分为训练正实例语料和测试正实例语料;将所述无标签类文档语料划分为训练无标签语料和测试无标签语料;将所述训练无标签语料中的无标签实例作为负实例(即伪负实例),形成训练伪负实例语料;选取所述测试无标签语料中的部分无标签实例进行人工标注...

【专利技术属性】
技术研发人员:陈瑛程碧霄程曦瑶
申请(专利权)人:中国农业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1