面向大规模分类体系的短文本标签方法、系统、装置制造方法及图纸

技术编号：21714512 阅读：119 留言：0更新日期：2019-07-27 19:14

本发明专利技术属于文本分类领域，具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置，旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明专利技术方法包括：获取待分类的第一短文本信息集合，并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合；基于规则的分类方法、有监督的神经网络分类方法，对第二短文本信息集合进行二分类后进行短文本过滤，并基于同样的分类方法进行各短文本的第一、二级分类标签，基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明专利技术在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。

Short Text Label Method, System and Device for Large Scale Classification System

全部详细技术资料下载

【技术实现步骤摘要】
面向大规模分类体系的短文本标签方法、系统、装置
本专利技术属于文本分类领域，具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置。
技术介绍
随着互联网官方媒体以及微信公众号自媒体、微博、贴吧等新型互联平台的广泛使用，针对这些平台上发布的短文本的自动化标签系统具有重要的意义。随着文本信息迅速膨胀，如何有效地组织和管理这些信息，并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和
面临的一大挑战。短文本的自动化标签作为处理和组织大量文本数据的关键技术，可以在较大程度上解决信息杂乱现象的问题，方便准确地定位所需的信息和分流信息。作为信息过滤、信息检索、搜索引擎、文本数据库等领域的技术基础，短文本的自动化标签技术有着广泛的应用前景。面向大规模分类体系的短文本标签系统可以帮助有关部门有效掌握互联网内容的发展趋势，有助于互联网舆情监控等应用。通过将短文本标签化，可以大大压缩文本内容，实现将文本从非结构化数据转换为精简的结构化数据。此外，通过短文本自动化标签，可以实现对特定关注类型文本的监测与封堵，帮助舆情监控部门掌握社会主流话题的动向。近年来随着深度学习为主的机器学习技术不断发展，区别于传统机器学习方法，深度学习最大的优势就是避免了繁琐的特征提取过程，词语使用连续向量进行表示，可以使用预训练的word2vec进行初始化。通过多层的神经网络进行高维抽象特征提取，最后经过softmax进行多分类。主要代表如：TomasMikolov,IlyaSutskever,KaiChen,GregCorrado,andJeffreyDean.Distribute...

【技术保护点】
1.一种面向大规模分类体系的短文本标签方法，其特征在于，该方法包括以下步骤：步骤M100，获取待分类的短文本信息集合，作为第一短文本信息集合；步骤M200，基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理，得到第二短文本信息集合；步骤M300，基于规则的分类方法、有监督的神经网络分类方法，按照预设的二分类规则，对所述第二短文本信息集合进行分类和短文本过滤，得到第三短文本信息集合；步骤M400，基于规则的分类方法、有监督的神经网络分类方法，按照预设分级分类规则，获取第三短文本信息集合中的各短文本的第一、二级分类标签；步骤M500，基于半监督学习的标签传播方法，按照预设分级分类规则，获取第三短文本信息集合中的各短文本的第三、四级分类标签。

【技术特征摘要】
1.一种面向大规模分类体系的短文本标签方法，其特征在于，该方法包括以下步骤：步骤M100，获取待分类的短文本信息集合，作为第一短文本信息集合；步骤M200，基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理，得到第二短文本信息集合；步骤M300，基于规则的分类方法、有监督的神经网络分类方法，按照预设的二分类规则，对所述第二短文本信息集合进行分类和短文本过滤，得到第三短文本信息集合；步骤M400，基于规则的分类方法、有监督的神经网络分类方法，按照预设分级分类规则，获取第三短文本信息集合中的各短文本的第一、二级分类标签；步骤M500，基于半监督学习的标签传播方法，按照预设分级分类规则，获取第三短文本信息集合中的各短文本的第三、四级分类标签。2.根据权利要求1所述的面向大规模分类体系的短文本标签方法，其特征在于，步骤M200“基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理”，其方法为：对于所述短文本信息集合中每一个短文本，采用正向最大匹配分词将完整句子进行分割，进行词性标注处理，并过滤掉停用词，然后根据分词后的文本，构建词典和训练语料，继续通过word2vec词向量表示技术获取训练语料中每个词的词向量表示。3.根据权利要求1所述的面向大规模分类体系的短文本标签方法，其特征在于，所述规则的分类方法为基于规则的双数组Trie树的关键词匹配算法；所述有监督的神经网络分类方法为基于多种神经网络结构的深度学习方法。4.根据权利要求3所述的面向大规模分类体系的短文本标签方法，其特征在于，所述有监督的神经网络分类方法，其网络结构为卷积神经网络CNN，或循环神经网络RNN，或双向长短时记忆网络BiLSTM。5.根据权利要求1所述的面向大规模分类体系的短文本标签方法，其特征在于，步骤M300“对所述第二短文本信息集合进行分类和短文本过滤，得到第三短文本信息集合”，其方法为：基于规则的分类方法、有监督的神经网络分类方法分别以所述第二短文本信息集合为输入，对所述第二短文本信息集合中各短文本信息，分别输出各自分类方法下的分类概率，通过取平均方法得到综合的分类概率，以最大概率作为对应短文本信...

【专利技术属性】
技术研发人员：孔庆超，王磊，闫鹏，张丽，郎佳奇，王帅，潘进，毛文吉，王钲淇，段运强，
申请(专利权)人：中国科学院自动化研究所，国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人