面向大规模分类体系的短文本标签方法、系统、装置制造方法及图纸

技术编号:21714512 阅读:119 留言:0更新日期:2019-07-27 19:14
本发明专利技术属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明专利技术方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明专利技术在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。

Short Text Label Method, System and Device for Large Scale Classification System

【技术实现步骤摘要】
面向大规模分类体系的短文本标签方法、系统、装置
本专利技术属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置。
技术介绍
随着互联网官方媒体以及微信公众号自媒体、微博、贴吧等新型互联平台的广泛使用,针对这些平台上发布的短文本的自动化标签系统具有重要的意义。随着文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和
面临的一大挑战。短文本的自动化标签作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便准确地定位所需的信息和分流信息。作为信息过滤、信息检索、搜索引擎、文本数据库等领域的技术基础,短文本的自动化标签技术有着广泛的应用前景。面向大规模分类体系的短文本标签系统可以帮助有关部门有效掌握互联网内容的发展趋势,有助于互联网舆情监控等应用。通过将短文本标签化,可以大大压缩文本内容,实现将文本从非结构化数据转换为精简的结构化数据。此外,通过短文本自动化标签,可以实现对特定关注类型文本的监测与封堵,帮助舆情监控部门掌握社会主流话题的动向。近年来随着深度学习为主的机器学习技术不断发展,区别于传统机器学习方法,深度学习最大的优势就是避免了繁琐的特征提取过程,词语使用连续向量进行表示,可以使用预训练的word2vec进行初始化。通过多层的神经网络进行高维抽象特征提取,最后经过softmax进行多分类。主要代表如:TomasMikolov,IlyaSutskever,KaiChen,GregCorrado,andJeffreyDean.DistributedRepresentationsofWordsandPhrasesandtheirCompositionality.InProceedingsofNIPS,2013.和KimY.Convolutionalneuralnetworksforsentenceclassification[J].arXivpreprintarXiv:1408.5882,2014。然而有监督的神经网络方法需要标注数据以及大量的训练数据集,而且很有可能在训练数据集上过拟合,对于大规模分类体系容易出现数据不足的问题。而简单的基于规则的无监督方法性能又不稳定,很难保证完成相关的任务。因此在有限数据情况下保证面向大规模分类体系的短文本标签系统的稳定性是目前函待解决的问题。
技术实现思路
为了解决现有技术中的上述问题,即为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题,本专利技术的第一方面,提出了一种面向大规模分类体系的短文本自动化标签方法,该方法包括以下步骤:步骤M100,获取待分类的短文本信息集合,作为第一短文本信息集合;步骤M200,基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合;步骤M300,基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合;步骤M400,基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签;步骤M500,基于半监督学习的标签传播方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第三、四级分类标签。在一些优选实施方式中,步骤M200“基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理”,其方法为:对于所述短文本信息集合中每一个短文本,采用正向最大匹配分词将完整句子进行分割,进行词性标注处理,并过滤掉停用词,然后根据分词后的文本,构建词典和训练语料,继续通过word2vec词向量表示技术获取训练语料中每个词的词向量表示。在一些优选实施方式中,所述规则的分类方法为基于规则的双数组Trie树的关键词匹配算法;所述有监督的神经网络分类方法为基于多种神经网络结构的深度学习方法。在一些优选实施方式中,所述有监督的神经网络分类方法,其网络结构为卷积神经网络CNN,或循环神经网络RNN,或双向长短时记忆网络BiLSTM。在一些优选实施方式中,步骤M300“对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合”,其方法为:基于规则的分类方法、有监督的神经网络分类方法分别以所述第二短文本信息集合为输入,对所述第二短文本信息集合中各短文本信息,分别输出各自分类方法下的分类概率,通过取平均方法得到综合的分类概率,以最大概率作为对应短文本信息的分类,并基于此分类对对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合。在一些优选实施方式中,步骤M100“获取待分类的短文本信息集合”,其方法为:基于设定关键词,通过网络抓取技术从互联网上获取待分类的短文本信息集合。本专利技术的第二方面,提出了一种面向大规模分类体系的短文本自动化标签系统,该系统包括短文本获取单元、预处理单元、垃圾信息过滤单元、第一分类单元、第二分类单元;所述短文本获取单元,配置为获取待分类的短文本信息集合,作为第一短文本信息集合;所述预处理单元,配置为基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合;所述垃圾信息过滤单元,配置为基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合;所述第一分类单元,配置为基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签;所述第二分类单元,配置为基于半监督学习的标签传播方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第三、四级分类标签。在一些优选实施方式中,所述预处理单元中“基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理”,其方法为:对于所述短文本信息集合中每一个短文本,采用正向最大匹配分词将完整句子进行分割,进行词性标注处理,并过滤掉停用词,然后根据分词后的文本,构建词典和训练语料,继续通过word2vec词向量表示技术获取训练语料中每个词的词向量表示。本专利技术的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的面向大规模分类体系的短文本自动化标签方法。本专利技术的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的面向大规模分类体系的短文本自动化标签方法。本专利技术的有益效果:本专利技术实施对于输入的短文本,综合运用基于规则和基于神经网络的分类算法和半监督的标签传播算法,提出一种多级分类方案,实现面向大规模分类体系的短文本自动化标签系统。对于大规模分类体系,有监督的神经网络方法容易出现数据不足的问题。所采用的多级分类方案降低模型复杂度,可以避免在数据不足条件下直接进行大规模类别分类训练。而半监督的标签传播算法可以解决类别较多、样本从属多类、动态调整等问题。本文提本文档来自技高网
...

【技术保护点】
1.一种面向大规模分类体系的短文本标签方法,其特征在于,该方法包括以下步骤:步骤M100,获取待分类的短文本信息集合,作为第一短文本信息集合;步骤M200,基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合;步骤M300,基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合;步骤M400,基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签;步骤M500,基于半监督学习的标签传播方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第三、四级分类标签。

【技术特征摘要】
1.一种面向大规模分类体系的短文本标签方法,其特征在于,该方法包括以下步骤:步骤M100,获取待分类的短文本信息集合,作为第一短文本信息集合;步骤M200,基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合;步骤M300,基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合;步骤M400,基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签;步骤M500,基于半监督学习的标签传播方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第三、四级分类标签。2.根据权利要求1所述的面向大规模分类体系的短文本标签方法,其特征在于,步骤M200“基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理”,其方法为:对于所述短文本信息集合中每一个短文本,采用正向最大匹配分词将完整句子进行分割,进行词性标注处理,并过滤掉停用词,然后根据分词后的文本,构建词典和训练语料,继续通过word2vec词向量表示技术获取训练语料中每个词的词向量表示。3.根据权利要求1所述的面向大规模分类体系的短文本标签方法,其特征在于,所述规则的分类方法为基于规则的双数组Trie树的关键词匹配算法;所述有监督的神经网络分类方法为基于多种神经网络结构的深度学习方法。4.根据权利要求3所述的面向大规模分类体系的短文本标签方法,其特征在于,所述有监督的神经网络分类方法,其网络结构为卷积神经网络CNN,或循环神经网络RNN,或双向长短时记忆网络BiLSTM。5.根据权利要求1所述的面向大规模分类体系的短文本标签方法,其特征在于,步骤M300“对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合”,其方法为:基于规则的分类方法、有监督的神经网络分类方法分别以所述第二短文本信息集合为输入,对所述第二短文本信息集合中各短文本信息,分别输出各自分类方法下的分类概率,通过取平均方法得到综合的分类概率,以最大概率作为对应短文本信...

【专利技术属性】
技术研发人员:孔庆超王磊闫鹏张丽郎佳奇王帅潘进毛文吉王钲淇段运强
申请(专利权)人:中国科学院自动化研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1