The invention discloses a Twitter text representation method based on character level convolutional variational self-coding, which comprises the following steps in turn: preprocessing the acquired Twitter source text; initializing encoding and constructing a character vector matrix in terms of words; convolutional encoding on the character matrix to obtain a fixed length word vector; and convolutional encoding on the word matrix to obtain text. Vector; Variational reasoning of text vectors and potential coding; deconvolution of potential coding representation to get word vector representation and deconvolution to get character vector representation on the basis of word vector; calculation of Euclidean distance between character vector and word vector before and after encoding and divergence between prior and posterior distribution; updating model parameters with loss. The proposed method effectively solves the problem of irregular words and data sparseness in Twitter text by using character level convolutional coding and variational reasoning, and achieves more robust representation performance.
【技术实现步骤摘要】
一种基于字符层级卷积变分自编码的推特文本表示方法
本专利技术属于深度学习和社交媒体内容的语义分析与计算领域,尤其涉及一种基于字符层级卷积变分自编码的推特文本表示方法。
技术介绍
近年来随着社会媒体的快速发展,用户生成了大量的短文本内容,由于这些文本缺乏有效的上下文信息,且内容存在大量的未登录词等问题,传统的词袋模型很难实现对这类文本的表示,因此亟待探索更加有效的社会媒体文本内容表示方法。深度学习基于人工神经网络的研究,由多层神经网络的计算模型来学习数据的表示,其强大的数据拟合与特征抽象能力极大的促进了计算机视觉、自然语言处理以及海量数据分析与挖掘等领域的快速发展。深度学习的概念由Hinton等人于2006年提出,其核心思想即通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。目前深度学习中具有代表性的模型或方法包括卷积神经网络(CNN)、循环神经网络(RNN)、深度置信网络(DBN)以及生成对抗网络(GAN)等。卷积神经网络是由YannLeCun等人提出的第一个真正多层结构的学习算法,它利用空间相对关系减少参数数目以提高训练性能,可以通过增加卷积层数可以构建深度卷积神经网络,进而实现对图像数据、文本内容的抽象表示。循环神经网络是一类处理时序数据的模型,通过在每个时间ti输入数据xi,由先前生成的隐层输出hi-1和当前输入数据xi计算输出oi及隐层输出hi,通过不断循环此过程实现对整个数据的抽象分布式表示。深度置信网络则通过非监督贪心逐层训练算法,解决深层结构相关的优化难题,并构建多层自动编码器深层结构。生成对抗网络通过同步训练 ...
【技术保护点】
1.一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,包括以下步骤:S1、遍历推特源文本语料C,过滤非文本内容得到推特文本T,然后进行分词,得到字符集S;S2、对每一条推特文本分别统计词中的所含有的最大字符长Lc与最大词长Lw;S3、对字符集S内的每一个字符随机初始化,构建字符向量表
【技术特征摘要】
1.一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,包括以下步骤:S1、遍历推特源文本语料C,过滤非文本内容得到推特文本T,然后进行分词,得到字符集S;S2、对每一条推特文本分别统计词中的所含有的最大字符长Lc与最大词长Lw;S3、对字符集S内的每一个字符随机初始化,构建字符向量表Sl为字符数,Dc为向量维度;S4、以词为单位构建字符矩阵Mc,矩阵大小为Lc×Dc,即S5、对字符矩阵Mc进行卷积操作和池化操作,得到每个词基于字符卷积的固定维度向量即固定维度的词向量S6、由固定维度词向量及其向量维度Dw组合成用于表示推特文本T的词矩阵Mw,其矩阵大小为Lw×Dw,即S7、对词矩阵Mw进行卷积操作和池化操作,得到每条推特文本基于词卷积的固定维度向量即固定维度的推特向量S8、利用固定维度的推特向量生成用于变分推理的均值μ和方差δ,然后在标准正太分布中采样得到采样结果ε,由Z=μ+εδ生成变分编码表示向量Z,其向量维度为Dt;S9、对变分编码表示向量Z采用反卷积及采样池化操作,重构生成词向量矩阵M′w,对词矩阵M′w的每一词向量进行反卷积及采样操作,重构字符矩阵M′c;S10、分别计算M′c与Mc的欧式距离,以及M′w与Mw的欧式距离,且计算变分编码表示向量Z与标准正太分布之间的散度值,再基于计算的欧式距离及散度值更新模型参数,实现模型对待表示推特文本数据的拟合,获得字符层级卷积变分自编码模型的参数,再基于编码器参数则可用于推特文本表示。2.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于:所述过滤非文本内容包括过滤掉标签、表情符号以及超链接。3.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,所述字符向量的向量取值范围为[-r,r],r的值可根据实际需要进行选择,默认设置为0.05,向量维度Dc=50。4.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S4具体包括:若词中所包含的字符c∈S,则在Ct中查找该字符的向量,并按序填充字符矩阵Mc,若字符长度小于Lc,则在字符矩阵Mc两端进行内容为0的填充。5.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。