一种短文本分类方法技术

技术编号:20176847 阅读:35 留言:0更新日期:2019-01-23 00:25
本发明专利技术提供了一种短文本分类方法和装置,通过获得第一文本信息,所述第一文本信息为需要分类的短文本数据信息;对所述第一文本信息进行标记,获得第二文本信息,所述第二文本信息包括训练集、开发集、测试集;通过单一粒度分词原则对所述第一文本信息进行分词处理,获得第一词语集;根据停用词表,删除所述第一词语集中的停用词,获得第二词语集,所述第二词语集中的词语为ID形式;将所述第二词语集中的词语ID映射为词语向量,获得特征矩阵;通过卷积神经网络和所述特征矩阵,对所述第一文本信息进行分类。解决了分类质量依赖于规则设定的好坏,复用性差的技术问题,达到考虑到同义词、一词多义和未登录词等情况,词语表达能力更强的技术效果。

A Short Text Classification Method

The present invention provides a short text classification method and device. By obtaining the first text information, the first text information is the short text data information that needs to be classified; by marking the first text information, the second text information, including training set, development set and test set, is obtained; and the first text information is obtained by single granularity word segmentation principle. The first word set is obtained by word segmentation; the second word set is obtained by deleting the stop words in the first word set according to the stop words list, and the words in the second word set are in the form of ID; the ID of the words in the second word set is mapped to the word vector, and the feature matrix is obtained; the first text information is segmented by convolutional neural network and the feature matrix. Class. It solves the technical problems that the quality of classification depends on the quality of rule setting and poor reusability, and achieves the technical effect that takes into account synonyms, polysemy and unknown words, and has a stronger ability to express words.

【技术实现步骤摘要】
一种短文本分类方法
本专利技术涉及文本分类
,尤其涉及一种短文本分类方法。
技术介绍
随着互联网技术的迅速发展与普及,在每天的互联网上都会产生浩如烟海的文本数据,而如何处理这些恒河沙数般的文本大数据,对它们进行有效的分类、组织和管理已经成为一个具有重要意义的研究课题。在这个课题中,对文本进行分类是最具有经济意义的应用之一,它是指在给定分类体系下,根据文本内容自动确定文本类别的过程。目前,针对短文本进行分类这一任务有数类解决方法,主要包括基于知识工程的方法和基于传统机器学习的方法。基于知识工程的方法需要领域知识作为分类的支撑,它要为每个类别定义大量的推理规则,若谋篇文本满足了这些规则,即认为该文本属于该类。基于传统机器学习的方法主要包括使用支持向量机和朴素贝叶斯对文本进行分类。但本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:现有技术中分类质量依赖于规则设定的好坏,并且需要大量的领域专家制定分类规则,不具备大规模应用,复用性差的技术问题。
技术实现思路
本专利技术实施例提供了一种短文本分类方法和装置,解决了现有技术中分类质量依赖于规则设本文档来自技高网...

【技术保护点】
1.一种短文本分类方法,其特征在于,所述方法包括:获得第一文本信息,所述第一文本信息为需要分类的短文本数据信息;对所述第一文本信息进行标记,获得第二文本信息,所述第二文本信息包括训练集、开发集、测试集;通过单一粒度分词原则对所述第一文本信息进行分词处理,获得第一词语集;根据停用词表,删除所述第一词语集中的停用词,获得第二词语集,所述第二词语集中的词语的存在形式为词语ID形式;将所述第二词语集中的词语ID映射为词语向量,获得特征矩阵;通过卷积神经网络和所述特征矩阵,对所述第一文本信息进行分类。

【技术特征摘要】
1.一种短文本分类方法,其特征在于,所述方法包括:获得第一文本信息,所述第一文本信息为需要分类的短文本数据信息;对所述第一文本信息进行标记,获得第二文本信息,所述第二文本信息包括训练集、开发集、测试集;通过单一粒度分词原则对所述第一文本信息进行分词处理,获得第一词语集;根据停用词表,删除所述第一词语集中的停用词,获得第二词语集,所述第二词语集中的词语的存在形式为词语ID形式;将所述第二词语集中的词语ID映射为词语向量,获得特征矩阵;通过卷积神经网络和所述特征矩阵,对所述第一文本信息进行分类。2.如权利要求1所述的方法,其特征在于,所述通过单一粒度分词原则对所述第一文本信息进行分词处理,获得第一词语集,具体包括:获得术语字典;根据所述术语字典,对所述第一文本信息进行分词处理,获得第一分词结果;根据分词模型对所述第一分词结果进行评分;将评分最高的分词结果作为最终分词结果;根据所述最终分词结果,获得第一词语集。3.如权利要求1所述的方法,其特征在于,所述将所述第二词语集中的词语ID映射为词语向量,获得特征矩阵,具体包括:获得第一词典,所述第一词典包括所有中文词语;根据所述第一词典和所述第一词语集,统计词频;根据所述词频获得所述第一词语集的霍夫曼树形结构,所述霍夫曼树形结构包含词语节点;根据所述词语节点,获得所述词语节点所在的二进制码;将所述词语节点初始化为词语向量;训练所述词语向量;根据所述词语向量、所述第一词语集,获得所述特征矩阵。4.如权利要求3所述的方法,其特征在于,所述词语向量包括中...

【专利技术属性】
技术研发人员:莫益军姚澜杨帆
申请(专利权)人:华中科技大学鄂州工业技术研究院华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1