一种基于深度学习的集成式食品安全文本分类方法技术

技术编号：15194168 阅读：105 留言：0更新日期：2017-04-20 15:47

一种基于深度学习的集成式食品安全文本分类方法。本发明专利技术涉及中文食品安全文本分类方法，包括如下步骤：S1步骤：进行新闻语料采集，得三类文档：食品安全类、非食品安全类和无标签类文档；S2步骤：将所述语料进行处理，分成训练语料和测试语料；S3步骤：在训练阶段，首先将所述训练语料中负样本随机分成N组，每组的负样本和正样本组合成一个训练语料子集，其次，采用深度学习方法用所述子集训练生成一个基分类器，最后，N个基分类器组成基于深度学习的组合分类器；S4步骤：在测试阶段，用所述组合分类器对所述测试语料进行分类，得到N个分类标签；按照多数投票制对标签进行投票，得到最终分类标签。本发明专利技术能解决中文食品安全语料中的单类分类问题，准确地从网络新闻中筛选出食品安全相关报道。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，特别是涉及基于深度学习的集成式食品安全文本分类方法。
技术介绍
在人们物质生活水平提高以后，食品安全越来越成为大众所关注的焦点，据“2015中国综合小康指数”之“最受关注的十大焦点问题”调查显示，食品安全以44.8％的关注度位居首位。果蔬的农药残留超标、畜禽类的“速成”、食品的非法添加物等各类食品安全事件频频发生，使得食品安全问题愈发严峻，加剧了大众对食品安全的担忧。同时，由于互联网的便捷性和时效性，越来越多的食品安全事件选择在网络媒体上曝光。所以，监督网络食品安全新闻报道并进行食品安全分析，这已经成为食品安全问题研究的一种重要方法。但是，这种方法的首要步骤就是要从海量的互联网新闻中自动获取食品安全相关新闻(即中文食品安全文本分类)，这却并非易事。目前大多数文本分类问题是多分类(或二分类)问题，为了达到较高的分类效果，目前的文本分类算法大多采用全监督式分类方法。但是，这种基于全监督式分类方法的分类效果高度依赖于人工标注语料的质量，并且分类模型的移植性不高。对于中文食品安全文本分类问题而言，目前人工标注的食品安全新闻语料只包括食品安全类文档，不包括非食品安全类文档。这种只包含一类实例的分类问题通常被称为单类分类问题，其相应的技术研究还较少。目前单类分类问题往往采用无监督分类技术，但是其分类方法效果不好。因此，需要开发针对中文食品安全的文本自动分类方法。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是提供一种中文食品安全文本分类方法，能够从网络中自动识别出食品安全相关新闻，解决目前人工标注的中文食品安全新闻语料是...
一种基于深度学习的集成式食品安全文本分类方法

【技术保护点】
一种基于深度学习的集成式食品安全文本分类方法，包括如下步骤：获取语料，并对中文新闻语料进行预处理，得到食品安全类文档语料和无标签类文档语料；将所述食品安全类文档语料作为正实例语料，将所述无标签类文档语料作为伪负实例语料，将所述正实例语料和伪实例语料进行组合，得到训练语料和测试语料；将所述训练语料中负实例语料随机分成N组，每组的负实例样本和正实例样本组合成一个训练语料子集。利用所述N个训练语料子集，训练一个基于深度学习的组合分类器；利用所述基于深度学习的组合分类器从所述测试语料中获取中文食品安全文档。

【技术特征摘要】
1.一种基于深度学习的集成式食品安全文本分类方法，包括如下步骤：获取语料，并对中文新闻语料进行预处理，得到食品安全类文档语料和无标签类文档语料；将所述食品安全类文档语料作为正实例语料，将所述无标签类文档语料作为伪负实例语料，将所述正实例语料和伪实例语料进行组合，得到训练语料和测试语料；将所述训练语料中负实例语料随机分成N组，每组的负实例样本和正实例样本组合成一个训练语料子集。利用所述N个训练语料子集，训练一个基于深度学习的组合分类器；利用所述基于深度学习的组合分类器从所述测试语料中获取中文食品安全文档。2.根据权利要求1所述的基于深度学习的集成式食品安全文本分类方法，其特征在于，获取语料，并对中文新闻语料进行预处理，得到食品安全类文档语料和无标签类文档语料，具体包括：对《中国食品安全事件集(2001-2011)》中的新闻文档进行格式化处理，提取其中的标题、日期、来源、摘要、正文数据，采用统一的格式保存到数据库中，得到食品安全类文档语料；从食品伙伴网等主要媒体网站上收集新闻，提取其中的标题、日期、来源、摘要、正文等信息，采用统一的格式保存到数据库中，得到无标签类文档语料。3.根据权利要求1所述的基于深度学习的集成式食品安全文本分类方法，其特征在于，将所述食品安全类文档语料和无标签类文档语料进行组合，得到训练语料和测试语料，具体包括：将所述食品安全类文档语料划分为训练正实例语料和测试正实例语料；将所述无标签类文档语料划分为训练无标签语料和测试无标签语料；将所述训练无标签语料中的无标签实例作为负实例(即伪负实例)，形成训练伪负实例语料；选取所述测试无标签语料中的部分无标签实例进行人工标注...

【专利技术属性】
技术研发人员：陈瑛，程碧霄，程曦瑶，
申请(专利权)人：中国农业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人