一种基于字符层级卷积变分自编码的推特文本表示方法技术

技术编号:20118042 阅读:32 留言:0更新日期:2019-01-16 12:06
本发明专利技术公开了一种基于字符层级卷积变分自编码的推特文本表示方法,依次包括如下步骤:对获得的推特源文本进行预处理;进行初始化编码并构建以词为单位的字符向量矩阵;在字符矩阵上进行卷积编码获得固定长度的词向量;在词矩阵上进行卷积编码获得文本向量;对文本向量进行变分推理并获得潜在编码;对潜在编码表示进行反卷积解码获得词向量表示并在词向量基础上再进行反卷积获得字符向量表示;计算编码前后字符向量与词向量之间的欧式距离及先验分布与后验分布之间的散度;利用损失进行模型参数更新。本发明专利技术所提出的方法利用基于字符层级卷积编码及变分推理方式有效地解决了推特文本中存在的非规范词与数据稀疏问题,可获得更加鲁棒的表示性能。

A Twitter Text Representation Method Based on Character Level Convolutional Variational Self-coding

The invention discloses a Twitter text representation method based on character level convolutional variational self-coding, which comprises the following steps in turn: preprocessing the acquired Twitter source text; initializing encoding and constructing a character vector matrix in terms of words; convolutional encoding on the character matrix to obtain a fixed length word vector; and convolutional encoding on the word matrix to obtain text. Vector; Variational reasoning of text vectors and potential coding; deconvolution of potential coding representation to get word vector representation and deconvolution to get character vector representation on the basis of word vector; calculation of Euclidean distance between character vector and word vector before and after encoding and divergence between prior and posterior distribution; updating model parameters with loss. The proposed method effectively solves the problem of irregular words and data sparseness in Twitter text by using character level convolutional coding and variational reasoning, and achieves more robust representation performance.

【技术实现步骤摘要】
一种基于字符层级卷积变分自编码的推特文本表示方法
本专利技术属于深度学习和社交媒体内容的语义分析与计算领域,尤其涉及一种基于字符层级卷积变分自编码的推特文本表示方法。
技术介绍
近年来随着社会媒体的快速发展,用户生成了大量的短文本内容,由于这些文本缺乏有效的上下文信息,且内容存在大量的未登录词等问题,传统的词袋模型很难实现对这类文本的表示,因此亟待探索更加有效的社会媒体文本内容表示方法。深度学习基于人工神经网络的研究,由多层神经网络的计算模型来学习数据的表示,其强大的数据拟合与特征抽象能力极大的促进了计算机视觉、自然语言处理以及海量数据分析与挖掘等领域的快速发展。深度学习的概念由Hinton等人于2006年提出,其核心思想即通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。目前深度学习中具有代表性的模型或方法包括卷积神经网络(CNN)、循环神经网络(RNN)、深度置信网络(DBN)以及生成对抗网络(GAN)等。卷积神经网络是由YannLeCun等人提出的第一个真正多层结构的学习算法,它利用空间相对关系减少参数数目以提高训练性能,可以通过增加卷积层数可以构建深度卷积神经网络,进而实现对图像数据、文本内容的抽象表示。循环神经网络是一类处理时序数据的模型,通过在每个时间ti输入数据xi,由先前生成的隐层输出hi-1和当前输入数据xi计算输出oi及隐层输出hi,通过不断循环此过程实现对整个数据的抽象分布式表示。深度置信网络则通过非监督贪心逐层训练算法,解决深层结构相关的优化难题,并构建多层自动编码器深层结构。生成对抗网络通过同步训练判别模型D和生成模型G来估计生成模型,前者判断给定样本的真假,而后者则生成让判别模型无法判断真假的样本,实现高性能的生成模型。深度学习就是从一个输入中产生一个输出,所涉及的计算可以通过一个流向图来表示,在这种图中每一个节点表示一个基本的计算以及一个计算的值,计算的结果被应用到这个节点的子节点的值。深度学习模拟了人类认知过程逐层进行,逐步抽象的过程,即首先学习简单的概念,然后再用这种方法去表示更抽象的思想和概念。这种方法已经成功应用于计算机视觉、语音识别等领域,尽管近年来深度学习方法应用于自然语言处理的应用受到了很大的关注,但大多基于模型的设计,并依赖于标注数据,其训练方法集中于有监督的学习或者半监督学习方式。因此探索能够充分利用大规模未标注数据进行模型训练的方法已成为近几年来深度学习的研究热点,其中变分自编码就是其中最具代表性的方法。在文本内容的表示学习方面,传统的表示学习方法大多基于词袋模型并采用独热等词表示方法,这将不可避免地造成词与词之间严重的“词汇鸿沟”现象,即语义相近的词在向量表示中也是相互正交的。虽然这些方法在表示传统的文本时比较有效,但应用于社交文本表示则会出现严重的数据稀疏问题。一是社交媒体用户生成内容大多是短文本,缺乏有效的上下文信息;二是这些文本中含有大量的未登录词和非规范词,很难获取其所表示的语义信息。而先前的方法通常采用手工特征进行社交媒体文本内容表示学习,但这种方法依赖于人工经验,对于一些专业领域的社交媒体数据则需要相应的专家构建知识库才能较好地实现这些数据文本的表示。现有技术中的各种数据文本分析方法,大多是针对常见或者部分特殊领域的社交媒体数据进行分析,而且这些方法大多只采用简单的词编码方式和传统的学习模型对数据进行简单的拟合,缺乏对这些数据分布的描述,因此生成的文本向量较难有效地描述其文本所蕴含的语义信息。对于一些具有长尾分布以及形态学分布的语言或数据,其采用词表示的方法也导致了大量的未登录词,因此需要探索一种新方法解决大量未登录词编码以及提高模型泛化能力来学习推特文本的表示,使得模型具有较强的鲁棒性、通用性和域适应性。
技术实现思路
针对现有推特文本等社交媒体用户生成内容表示方法的不足,本专利技术将深度学习与语义分析与计算相结合,提出了一种基于字符层级卷积变分自编码的推特文本表示方法,该方法通过对所要表示的推特文本内容进行基于字符的卷积特征抽取和分析,并根据获得的特征矩阵进行池化操作获得每个词的向量表示,再在词级表示的基础上进行卷积和池化获得文本级的向量表示,并对获得的文本向量进行变分推理和解码,通过计算编码前后的损失以及先验分布于后验分布的散度来更新模型参数,实现对数据以及分布的学习和拟合。本专利技术采用的技术方案具体如下:一种基于字符层级卷积变分自编码的推特文本表示方法,,包括以下步骤:S1、遍历推特源文本语料C,过滤非文本内容得到推特文本T,然后进行分词,得到字符集S;S2、对每一条推特文本分别统计词中的所含有的最大字符长Lc与最大词长Lw;S3、对字符集S内的每一个字符随机初始化,构建字符向量表Sl为字符数,Dc为向量维度;S4、以词为单位构建字符矩阵Mc,矩阵大小为Lc×Dc,即S5、对字符矩阵Mc进行卷积操作和池化操作,得到每个词基于字符卷积的固定维度向量即固定维度的词向量S6、由固定维度词向量及其向量维度Dw组合成用于表示推特文本T的词矩阵Mw,其矩阵大小为Lw×Dw,即S7、对词矩阵Mw进行卷积操作和池化操作,得到每条推特文本基于词卷积的固定维度向量即固定维度的推特向量S8、利用固定维度的推特向量生成用于变分推理的均值μ和方差δ,然后在标准正太分布中采样得到采样结果ε,由Z=μ+εδ生成变分编码表示向量Z,其向量维度为Dt;S9、对变分编码表示向量Z采用反卷积及采样池化操作,重构生成词向量矩阵M′w,对词矩阵M′w的每一词向量进行反卷积及采样操作,重构字符矩阵Mc′;S10、分别计算Mc′与Mc的欧式距离,以及M′w与Mw的欧式距离,且计算变分编码表示向量Z与标准正太分布之间的散度值,再基于计算的欧式距离及散度值更新模型参数,实现模型对待表示推特文本数据的拟合,获得字符层级卷积变分自编码模型的参数,再基于编码器参数则可用于推特文本表示。进一步的,所述过滤非文本内容包括过滤掉标签、表情符号以及超链接。进一步的,所述字符向量的向量取值范围为[-r,r],r的值可根据实际需要进行选择,默认设置为0.05,向量维度Dc=50。进一步的,步骤S4具体包括:若词中所包含的字符c∈S,则在Ct中查找该字符的向量,并按序填充字符矩阵Mc,若字符长度小于Lc,则在字符矩阵Mc两端进行内容为0的填充。进一步的,步骤S5具体包括:通过设置不同字符卷积过滤器窗口WFc的大小构建不同字符卷积过滤器,对于相同窗口大小的过滤器初始化为不同的值,从而形成多个卷积核,对每个卷积核进行字符卷积操作得到特征映射矩阵Mfc,在特征映射矩阵上进行k-max池化操作,并对获得的池化后特征进行全连接操作得到每个词基于字符卷积的固定维度向量进一步的,在词矩阵Mw中,若词的长度小于Lw,则通过在词矩阵Mw两端进行内容为0的填充。进一步的,步骤S7具体包括:通过设置不同词卷积过滤器窗口WFw的大小构建不同词卷积过滤器,对于相同窗口大小的过滤器初始化为不同的值,形成多个卷积核,每个卷积核进行词卷积操作得到特征映射矩阵Mfw,在特征映射矩阵上进行k-max池化操作,并进行全连接操作得到每条推特文本基于词卷积的固定维度向量进一步的,步骤S8具体包括:根据推特文本本文档来自技高网
...

【技术保护点】
1.一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,包括以下步骤:S1、遍历推特源文本语料C,过滤非文本内容得到推特文本T,然后进行分词,得到字符集S;S2、对每一条推特文本分别统计词中的所含有的最大字符长Lc与最大词长Lw;S3、对字符集S内的每一个字符随机初始化,构建字符向量表

【技术特征摘要】
1.一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,包括以下步骤:S1、遍历推特源文本语料C,过滤非文本内容得到推特文本T,然后进行分词,得到字符集S;S2、对每一条推特文本分别统计词中的所含有的最大字符长Lc与最大词长Lw;S3、对字符集S内的每一个字符随机初始化,构建字符向量表Sl为字符数,Dc为向量维度;S4、以词为单位构建字符矩阵Mc,矩阵大小为Lc×Dc,即S5、对字符矩阵Mc进行卷积操作和池化操作,得到每个词基于字符卷积的固定维度向量即固定维度的词向量S6、由固定维度词向量及其向量维度Dw组合成用于表示推特文本T的词矩阵Mw,其矩阵大小为Lw×Dw,即S7、对词矩阵Mw进行卷积操作和池化操作,得到每条推特文本基于词卷积的固定维度向量即固定维度的推特向量S8、利用固定维度的推特向量生成用于变分推理的均值μ和方差δ,然后在标准正太分布中采样得到采样结果ε,由Z=μ+εδ生成变分编码表示向量Z,其向量维度为Dt;S9、对变分编码表示向量Z采用反卷积及采样池化操作,重构生成词向量矩阵M′w,对词矩阵M′w的每一词向量进行反卷积及采样操作,重构字符矩阵M′c;S10、分别计算M′c与Mc的欧式距离,以及M′w与Mw的欧式距离,且计算变分编码表示向量Z与标准正太分布之间的散度值,再基于计算的欧式距离及散度值更新模型参数,实现模型对待表示推特文本数据的拟合,获得字符层级卷积变分自编码模型的参数,再基于编码器参数则可用于推特文本表示。2.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于:所述过滤非文本内容包括过滤掉标签、表情符号以及超链接。3.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,所述字符向量的向量取值范围为[-r,r],r的值可根据实际需要进行选择,默认设置为0.05,向量维度Dc=50。4.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S4具体包括:若词中所包含的字符c∈S,则在Ct中查找该字符的向量,并按序填充字符矩阵Mc,若字符长度小于Lc,则在字符矩阵Mc两端进行内容为0的填充。5.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特...

【专利技术属性】
技术研发人员:黄江平
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1