当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于主题词向量与卷积神经网络的短文本分类方法技术

技术编号:21891885 阅读:26 留言:0更新日期:2019-08-17 14:30
本发明专利技术公开了一种基于主题词向量与卷积神经网络的短文本分类方法,包括如下步骤:1)数据采集阶段:根据需求采集短文本数据,对其进行标签标注,作为训练集;2)数据预处理阶段:对文本进行分词,去停用词,无用文本过滤等;3)短文本特征表示,主题层面与词向量层面分别进行表征;4)主题词向量联合训练;5)卷积神经网络分类模型参数优化,迭代;6)新样本进行类别预测。本发明专利技术结合短文本数据特点,在特征表示阶段利用主题向量与词向量结合表示,对短文本自身数据特点进行语义特征扩展,在分类模型训练阶段利用卷积神经网络对局部敏感信息抽取能力进一步对文本语义信息进行挖掘,能够对短文本分类任务类别预测准确率等指标进行提高。

A Short Text Classification Method Based on Thesaurus Vector and Convolutional Neural Network

【技术实现步骤摘要】
一种基于主题词向量与卷积神经网络的短文本分类方法
本专利技术涉及文本分类领域,尤其是一种基于主题词向量与卷积神经网络的短文本分类方法。
技术介绍
随着互联网的大规模文本信息的产生,对海量的文本信息进行有效的挖掘与利用需要投入更多的人力物力,文本分类任务已成为重要的处理文本数据的方法,是管理文本语料的重要手段。文本分类是自然语言处理(NLP)的主要研究领域之一。文本分类任务可以理解为通过分析文本的结构特征、语义信息,将文章映射提取到设定好的标签集合中的过程。随着在线通信、新闻快讯、电子商务、社交媒体、在线问答等实时的新型应用的流行以及爆炸式增长,其中这类应用中传播与使用的数据最主要的特点是文字长度短,文本语义信息不足。面对短文本的数据特点,传统的文本表示方法与分类模型算法在长文本中能够取得不错的效果,但直接应用于短文本却往往不能够达到理想的结果指标,其中主要的原因在于,一方面是因为短文本具有稀疏性的特点,长度短,造成了短文本所包含语义短信息不够丰富,无法提供足够的单词共现或上下文信息,很难识别语义信息的元素;另一方面原因在于相较于长文本,在有限的文本长度中,短文本的词语语义具有较强的上下文语境依赖性,提取其有效的语义信息存在难度。基于短文本的数据特点,分类任务的效果主要依赖于对文本的特征表示效果,以及分类模型对于特征向量的学习区别能力。
技术实现思路
专利技术目的:本专利技术主要解决的技术问题是,针对短文本文本长度短,语义信息不足,单词共现稀疏的数据特点,造成分类效果不佳的问题。本专利技术在文本的特征表示方面,基于主题模型与词向量模型对短文本进行语义表示;在分类模型方面,本专利技术基于深度学习的卷积神经网络模型对短文本进行进一步特征抽取,并最后使用Softmax分类器进行分类。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于主题词向量与卷积神经网络的短文本分类方法,包括如下步骤:步骤1,采集短文本,对每个短文本进行标签标注,将标注好的短文本作为训练样本;步骤2,对作为训练样本的短文本进行预处理,统一训练样本的格式,将预处理后的所有训练样本的集合作为语料库D;步骤3,对语料库D中的每个短文本进行特征表示,包括:步骤3a)对短文本进行主题级别的特征表示:步骤3a1)初始化词网络主题模型参数先验参数文档-主题分布参数α与主题-词分布参数β,以及主题数量K;步骤3a2)通过词网络主题模型挖掘短文本中的潜在词语簇,对于每一个潜在词语簇Z,从Z上的单词的多项式分布中抽取:Φz~Dir(β);其中,Φz表示词语属于词语簇Z的概率分布,Dir(β)表示参数β的狄利克雷分布;步骤3a3)遍历短文本中的每一个词语wi,对于wi的相邻词语列表Li,在其潜在词语簇中抽取:θi~Dir(β);其中,θi表示文档对应的主题分布;步骤3a4)对于Li中的每一个词语wj:选择潜在词语簇zj~Θi,选择相邻词语其中,Θi表示文档-主题分布参数矩阵,表示第j个潜在词语簇的概率分布值;步骤3a5)至此,得到文档形式表示的短文本,对短文本进行文档主题推断,将文档生成词语的主题分布的期望作为文档生成主题的分布,即:其中,P(z|d)表示文档生成词语的概率,Wd表示文档集,P(z|wi)表示词语生成主题的概率,P(wi|d)表示文档d中单词wi的经验分布;fd(wi)为文档d中词wi的词频,Len(d)是指文档d的长度;步骤3a6)进行文档-主题推断,得到文档-主题分布:其中,表示主题-词语参数矩阵,表示词网络主题模型得到的伪文档参数;步骤3a7)对主题模型参数矩阵进行Gibbs采样估计,得到文档语料库的主题-词分布;步骤3a8)根据步骤3a6)得到的每个文档的文档-主题分布构建文档-主题分布矩阵,根据步骤3a7)得到的主题-词分布数据构建主题-词分布矩阵;步骤3a9)由文档-主题分布矩阵与主题-词语分布矩阵得到词-主题分配映射关系;步骤3b)对短文本进行词语级别的特征表示:采用Skip-gram模型作为词向量训练模型,根据输入的每一个词向量及相应词的上下文词向量训练词向量训练模型,通过训练好的词向量训练模型可以提取得到短文本中的所有词向量;步骤4,对每一个词语wi,对wi最相关主题中的所有词向量求平均值,将求得的平均值作为wi的主题向量zi;以词对<wi,zi>为输入,以词对<wi,zi>的上下文词对为输出,训练Skip-gram模型;将wi和zi进行向量连接得到主题词向量wz;步骤5,对语料库进行字级别预训练得到文本的字向量表示,以字粒度信息对文本进行表示;步骤6,将主题词向量wz、字向量送入卷积神经网络进行分类模型训练:步骤6a)将卷积神经网络的嵌入层设置为主题词向量层与字向量层两个卷积网络,将主题词向量与字向量作为对应卷积层的输入:步骤6b)卷积层中对连续h个词或字向量进行宽卷积操作,其中宽卷积核窗口宽度为向量维度d,高度为h,Xi:i+h-1表示卷积核窗口从第i个单元起,作用于文本中的h个词语或字,卷积层通过过滤器提取新的特征;步骤6c)卷积操作获取了词语的n-gram信息,池化层对卷积层的特征信息进行提取,其中引入注意力机制;输入为卷积层的特征向量,池化层中输入为卷积层特征向量[C1,C2,...,Cl],对于不同卷积核提取的特征向量进行权重attention机制自学习:将卷积特征Ci输入tanh层计算Ci的隐藏表示vi,并通过softmax函数确定卷积特征的注意力权重αi;最终通过计算基于注意力权重与卷积特征加权求和输出向量Cα:vi=tanh(WcCi+bc)αi=softmax(Wαvi)其中,Wc表示卷积核的参数矩阵,Wα表示隐藏单元参数,Rm表示向量维度为卷积核数目m;步骤6d)全连接层将词语级别的特征Cα与字级别的特征Cβ进行拼接得到短文本的语义表示S:步骤6e)分类层的输入是连接层对于文本向量的综合特征表示,分类层由线性变换层与softmax层组成,线性变换层将文本向量转换为与一个维度与类别相同的实数值向量,softmax函数将每一维度的实数值映射为类别的条件概率,其中类别为概率最大的维度,计算公式如下:P(y|T)=softmax(WsS+bs)其中,y表示文本标签类别,T表示类别属性,Ws为卷积网络隐藏单元参数矩阵;bs为偏置项;步骤6f)构建计算最小化真实类标与预测类标yj的交叉墒损失函数:以最小化损失函数Loss为目标训练神经网络;步骤7,获取待预测的新的短文本,对新的短文本依次进行预处理、特征表示,通过步骤4得到新的短文本中的主题词向量,将新的短文本的主题词向量和子向量送入训练好的神经网络进行预测,得到新的短文本的标签。进一步的,所述步骤3b)中词向量训练模型的目标函数为:其中,U表示输入的词语序列,U={w1,...,wM},词向量训练模型训练时以最大化目标函数为目的进行训练。进一步的,所述步骤4中训练Skip-gram模型的目标函数为:训练时以最大化目标函数为目的进行训练。有益效果:本专利技术相比现有技术,具有以下有益效果:本专利技术一种基于主题词向量与卷积神经网络的短文本分类方法,基于神经网络语言模型的词向量与短文本主题模型相结合的表示方法,利用主题模型的全局主题信息以及词向量的局部语义信本文档来自技高网...

【技术保护点】
1.一种基于主题词向量与卷积神经网络的短文本分类方法,其特征在于,包括如下步骤:步骤1,采集短文本,对每个短文本进行标签标注,将标注好的短文本作为训练样本;步骤2,对作为训练样本的短文本进行预处理,统一训练样本的格式,将预处理后的所有训练样本的集合作为语料库D;步骤3,对语料库D中的每个短文本进行特征表示,包括:步骤3a)对短文本进行主题级别的特征表示:步骤3a1)初始化词网络主题模型参数先验参数文档‑主题分布参数α与主题‑词分布参数β,以及主题数量K;步骤3a2)通过词网络主题模型挖掘短文本中的潜在词语簇,对于每一个潜在词语簇Z,从Z上的单词的多项式分布中抽取:Φz~Dir(β);其中,Φz表示词语属于词语簇Z的概率分布,Dir(β)表示参数β的狄利克雷分布;步骤3a3)遍历短文本中的每一个词语wi,对于wi的相邻词语列表Li,在其潜在词语簇中抽取:θi~Dir(β);其中,θi表示文档对应的主题分布;步骤3a4)对于Li中的每一个词语wj:选择潜在词语簇zj~Θi,选择相邻词语

【技术特征摘要】
1.一种基于主题词向量与卷积神经网络的短文本分类方法,其特征在于,包括如下步骤:步骤1,采集短文本,对每个短文本进行标签标注,将标注好的短文本作为训练样本;步骤2,对作为训练样本的短文本进行预处理,统一训练样本的格式,将预处理后的所有训练样本的集合作为语料库D;步骤3,对语料库D中的每个短文本进行特征表示,包括:步骤3a)对短文本进行主题级别的特征表示:步骤3a1)初始化词网络主题模型参数先验参数文档-主题分布参数α与主题-词分布参数β,以及主题数量K;步骤3a2)通过词网络主题模型挖掘短文本中的潜在词语簇,对于每一个潜在词语簇Z,从Z上的单词的多项式分布中抽取:Φz~Dir(β);其中,Φz表示词语属于词语簇Z的概率分布,Dir(β)表示参数β的狄利克雷分布;步骤3a3)遍历短文本中的每一个词语wi,对于wi的相邻词语列表Li,在其潜在词语簇中抽取:θi~Dir(β);其中,θi表示文档对应的主题分布;步骤3a4)对于Li中的每一个词语wj:选择潜在词语簇zj~Θi,选择相邻词语其中,Θi表示文档-主题分布参数矩阵,表示第j个潜在词语簇的概率分布值;步骤3a5)至此,得到文档形式表示的短文本,对短文本进行文档主题推断,将文档生成词语的主题分布的期望作为文档生成主题的分布,即:其中,P(z|d)表示文档生成词语的概率,Wd表示文档集,P(z|wi)表示词语生成主题的概率,P(wi|d)表示文档d中单词wi的经验分布;fd(wi)为文档d中词wi的词频,Len(d)是指文档d的长度;步骤3a6)进行文档-主题推断,得到文档-主题分布:其中,表示主题-词语参数矩阵,表示词网络主题模型得到的伪文档参数;步骤3a7)对主题模型参数矩阵进行Gibbs采样估计,得到文档语料库的主题-词分布;步骤3a8)根据步骤3a6)得到的每个文档的文档-主题分布构建文档-主题分布矩阵,根据步骤3a7)得到的主题-词分布数据构建主题-词分布矩阵;步骤3a9)由文档-主题分布矩阵与主题-词语分布矩阵得到词-主题分配映射关系;步骤3b)对短文本进行词语级别的特征表示:采用Skip-gram模型作为词向量训练模型,根据输入的每一个词向量及相应词的上下文词向量训练词向量训练模型,通过训练好的词向量训练模型可以提取得到短文本中的所有词向量;步骤4,对每一个词语wi,对wi最相关主题中的所有词向量求平均值,将求得的平均值作为wi的主题向量zi;以词对<wi,zi>为输入,以词对<wi,zi>的上下文词对为输出,训练Skip-gram模型;将wi和zi进行向量连接得到主题词向量wz;步骤...

【专利技术属性】
技术研发人员:张雷李博许磊顾溢谢俊元
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1