一种基于主题词向量与卷积神经网络的短文本分类方法技术

技术编号：21891885 阅读：26 留言：0更新日期：2019-08-17 14:30

本发明专利技术公开了一种基于主题词向量与卷积神经网络的短文本分类方法，包括如下步骤：1)数据采集阶段：根据需求采集短文本数据，对其进行标签标注，作为训练集；2)数据预处理阶段：对文本进行分词，去停用词，无用文本过滤等；3)短文本特征表示，主题层面与词向量层面分别进行表征；4)主题词向量联合训练；5)卷积神经网络分类模型参数优化，迭代；6)新样本进行类别预测。本发明专利技术结合短文本数据特点，在特征表示阶段利用主题向量与词向量结合表示，对短文本自身数据特点进行语义特征扩展，在分类模型训练阶段利用卷积神经网络对局部敏感信息抽取能力进一步对文本语义信息进行挖掘，能够对短文本分类任务类别预测准确率等指标进行提高。

A Short Text Classification Method Based on Thesaurus Vector and Convolutional Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主题词向量与卷积神经网络的短文本分类方法
本专利技术涉及文本分类领域，尤其是一种基于主题词向量与卷积神经网络的短文本分类方法。
技术介绍
随着互联网的大规模文本信息的产生，对海量的文本信息进行有效的挖掘与利用需要投入更多的人力物力，文本分类任务已成为重要的处理文本数据的方法，是管理文本语料的重要手段。文本分类是自然语言处理(NLP)的主要研究领域之一。文本分类任务可以理解为通过分析文本的结构特征、语义信息，将文章映射提取到设定好的标签集合中的过程。随着在线通信、新闻快讯、电子商务、社交媒体、在线问答等实时的新型应用的流行以及爆炸式增长，其中这类应用中传播与使用的数据最主要的特点是文字长度短，文本语义信息不足。面对短文本的数据特点，传统的文本表示方法与分类模型算法在长文本中能够取得不错的效果，但直接应用于短文本却往往不能够达到理想的结果指标，其中主要的原因在于，一方面是因为短文本具有稀疏性的特点，长度短，造成了短文本所包含语义短信息不够丰富，无法提供足够的单词共现或上下文信息，很难识别语义信息的元素；另一方面原因在于相较于长文本，在有限的文本长度中，短文本的词语语义具有较强的上下文语境依赖性，提取其有效的语义信息存在难度。基于短文本的数据特点，分类任务的效果主要依赖于对文本的特征表示效果，以及分类模型对于特征向量的学习区别能力。
技术实现思路
专利技术目的：本专利技术主要解决的技术问题是，针对短文本文本长度短，语义信息不足，单词共现稀疏的数据特点，造成分类效果不佳的问题。本专利技术在文本的特征表示方面，基于主题模型与词向量模型对短文本进行语义表示；在分类...

【技术保护点】
1.一种基于主题词向量与卷积神经网络的短文本分类方法，其特征在于，包括如下步骤：步骤1，采集短文本，对每个短文本进行标签标注，将标注好的短文本作为训练样本；步骤2，对作为训练样本的短文本进行预处理，统一训练样本的格式，将预处理后的所有训练样本的集合作为语料库D；步骤3，对语料库D中的每个短文本进行特征表示，包括：步骤3a)对短文本进行主题级别的特征表示：步骤3a1)初始化词网络主题模型参数先验参数文档‑主题分布参数α与主题‑词分布参数β，以及主题数量K；步骤3a2)通过词网络主题模型挖掘短文本中的潜在词语簇，对于每一个潜在词语簇Z，从Z上的单词的多项式分布中抽取：Φz～Dir(β)；其中，Φz表示词语属于词语簇Z的概率分布，Dir(β)表示参数β的狄利克雷分布；步骤3a3)遍历短文本中的每一个词语wi，对于wi的相邻词语列表Li，在其潜在词语簇中抽取：θi～Dir(β)；其中，θi表示文档对应的主题分布；步骤3a4)对于Li中的每一个词语wj：选择潜在词语簇zj～Θi，选择相邻词语

【技术特征摘要】
1.一种基于主题词向量与卷积神经网络的短文本分类方法，其特征在于，包括如下步骤：步骤1，采集短文本，对每个短文本进行标签标注，将标注好的短文本作为训练样本；步骤2，对作为训练样本的短文本进行预处理，统一训练样本的格式，将预处理后的所有训练样本的集合作为语料库D；步骤3，对语料库D中的每个短文本进行特征表示，包括：步骤3a)对短文本进行主题级别的特征表示：步骤3a1)初始化词网络主题模型参数先验参数文档-主题分布参数α与主题-词分布参数β，以及主题数量K；步骤3a2)通过词网络主题模型挖掘短文本中的潜在词语簇，对于每一个潜在词语簇Z，从Z上的单词的多项式分布中抽取：Φz～Dir(β)；其中，Φz表示词语属于词语簇Z的概率分布，Dir(β)表示参数β的狄利克雷分布；步骤3a3)遍历短文本中的每一个词语wi，对于wi的相邻词语列表Li，在其潜在词语簇中抽取：θi～Dir(β)；其中，θi表示文档对应的主题分布；步骤3a4)对于Li中的每一个词语wj：选择潜在词语簇zj～Θi，选择相邻词语其中，Θi表示文档-主题分布参数矩阵，表示第j个潜在词语簇的概率分布值；步骤3a5)至此，得到文档形式表示的短文本，对短文本进行文档主题推断，将文档生成词语的主题分布的期望作为文档生成主题的分布，即：其中，P(z|d)表示文档生成词语的概率，Wd表示文档集，P(z|wi)表示词语生成主题的概率，P(wi|d)表示文档d中单词wi的经验分布；fd(wi)为文档d中词wi的词频，Len(d)是指文档d的长度；步骤3a6)进行文档-主题推断，得到文档-主题分布：其中，表示主题-词语参数矩阵，表示词网络主题模型得到的伪文档参数；步骤3a7)对主题模型参数矩阵进行Gibbs采样估计，得到文档语料库的主题-词分布；步骤3a8)根据步骤3a6)得到的每个文档的文档-主题分布构建文档-主题分布矩阵，根据步骤3a7)得到的主题-词分布数据构建主题-词分布矩阵；步骤3a9)由文档-主题分布矩阵与主题-词语分布矩阵得到词-主题分配映射关系；步骤3b)对短文本进行词语级别的特征表示：采用Skip-gram模型作为词向量训练模型，根据输入的每一个词向量及相应词的上下文词向量训练词向量训练模型，通过训练好的词向量训练模型可以提取得到短文本中的所有词向量；步骤4，对每一个词语wi，对wi最相关主题中的所有词向量求平均值，将求得的平均值作为wi的主题向量zi；以词对<wi，zi>为输入，以词对<wi，zi>的上下文词对为输出，训练Skip-gram模型；将wi和zi进行向量连接得到主题词向量wz；步骤...

【专利技术属性】
技术研发人员：张雷，李博，许磊，顾溢，谢俊元，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人