一种结合动态词嵌入和词性标注的文本分类方法技术

技术编号:16456167 阅读:85 留言:0更新日期:2017-10-25 20:40
本发明专利技术公开了一种结合动态词嵌入和词性标注的文本分类方法,通过结合动态词嵌入和词性标注给出一种基于深层神经网络的文本分类方法,既能够充分利用大规模语料库可提供更准确的语法和语义信息的优点,又能够在模型训练过程中结合语料库的特点对词嵌入进行调整,从而更好地学习训练语料库的特点。同时,还可以结合句子中词的词性信息进一步提高分类的准确率。本方法还综合利用了LSTM在学习句子中词及词性的上下文信息方面的优势,以及CNN在学习文本局部特征方面的优势。本发明专利技术所提出的分类模型具有准确率高和通用性强等优点,在一些著名的公开语料库,包括IMDB语料库、Movie Review和TREC等,均取得很好的效果。

A text categorization method combining dynamic word embedding and part of speech tagging

The invention discloses a combination of embedded dynamic word and POS tagging text classification method by combining dynamic embedded word and POS tagging is a deep text classification method based on neural network, the advantages can make full use of the large-scale corpus can provide more accurate syntactic and semantic information, but also in the process of model training combination the characteristics of corpus to adjust the word embedding, so as to better learning characteristics of the training corpus. At the same time, the part of speech information can also be combined with sentences to further improve the classification accuracy. This method also makes use of LSTM in the context of learning information in a sentence and part of speech of the advantages and CNN in learning text local features. The classification model proposed by the invention has the advantages of high accuracy and versatility, in some famous public corpus, including IMDB, Movie Review and TREC corpus, good results are obtained.

【技术实现步骤摘要】
一种结合动态词嵌入和词性标注的文本分类方法
本专利技术涉及移动通信
具体涉及一种结合动态词嵌入和词性标注的文本分类方法。
技术介绍
基于机器学习的文本自动分类是指在给定分类体系的前提下,利用各种计算机算法对文本的内容进行分析并自动确定文本类别的过程。早期的研究主要是基于浅层机器学习和统计学,并采用one-hot(也称one-of-V,V为词典的大小)或分配式的方式(如结合词频、共现信息、TF-IDF或熵的词袋)来给出句子的数学表示。这种表示方法的主要缺点是无法表达句子中语言单元(如字、词或短语n-grams)本身的语义及它们间的关系(例如任意两个不同词的向量内积均为0),且容易出现高维稀疏问题。近几年来,随着深度学习和深层神经网络在图形图像、手写字体识、语音识别等领域所取得的成功,一些学者开始利用神经网络来训练词的分布式表示(也称词嵌入或词向量),并取代one-hot或分配式表示来给出文本和句子的数学表示。词嵌入的主要思想是将词映射成一个连续且带语义信息的d维实数向量(d一般为模型的超参数)。现有的研究已经证明词嵌入能够更好地刻画文本的语法和语义信息,而且能够与深度神经网络相结合并进一步提高模型分类的准确性。目前,许多相关研究都是在基于大规模语料训练所得的词嵌入的基础上,利用递归神经网络(以长短期记忆网络LSTM和GRU为主要代表)或卷积神经网络等模型来学习文本的特征并进行分类。但这些研究主要采用静态的词嵌入,即词嵌入中各个向量元素的值在模型训练的过程中均保持不变,这使得模型不能够更好地学习目标语料库中文本的特点。另一方面,这些研究往往在所提出的模型中忽略了句子中各个词的词性等信息,因此这在一定程度上无法充分利用句子的语法结构来提高文本分类的准确性。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种结合动态词嵌入和词性标注的文本分类方法。本专利技术的目的可以通过采取如下技术方案达到:一种结合动态词嵌入和词性标注的文本分类方法,所述文本分类方法包括下列步骤:S1、利用词向量给出句子中词及其词性的数学表示,以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,同时,对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量;S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵;S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息,,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。进一步地,所述步骤S1包括下列子步骤:S101、对句子进行预训练操作,所述预训练操作包括:标点符号过滤、缩写补齐、删除空格;S102、然后结合句子长度分布及均方差确定句子的长度阈值,并进行长度补齐;S103、利用预训练操作后的词向量表给出句子中各个词的实数向量表示;S104、利用NLTK给出句子中各个词的词性标注,并利用区间[-0.25,0.25]上的均匀分布对每一种词性进行随机初始为指定维度的词嵌入,给出句子的词性向量表示;S105、得到两个分别表示词及词性的向量矩阵。进一步地,所述步骤S2的过程如下:对于输入句子中的词或词性嵌入矩阵,每一个双向LSTM层利用一个正向和一个逆向的LSTM层来学习词或词性的上文和下文信息,并将每一步的学习结果进行输出,最终分别得到一个包含语义及上下文信息的向量和一个包含词性及上下文信息的向量,并合并成一个双通道的向量矩阵。进一步地,所述步骤S3包括下列子步骤:S301、通过使用多个不同词步长和权值的核矩阵分别对上一层输出的词向量矩阵进行二维卷积运算,提取局部卷积特征;S302、利用二维池化窗口对局部卷积特征矩阵进行下采样,从而得到多个降维后的局部特征矩阵;进一步地,在整个文本分类模型的训练过程中,同时结合后向传播对输入层中基于预训练词嵌入和基于初始随机化的词嵌入进行调整。本专利技术相对于现有技术具有如下的优点及效果:本专利技术通过结合动态词嵌入和词性标注的方法给出一种基于深层神经网络的文本分类方法,既能够充分利用大规模语料库可提供更准确的语法和语义信息的优点,又能够在模型训练过程中结合语料库的特点对词嵌入进行调整,从而更好地学习训练语料库的特点。同时,还可以结合句子中词的词性信息进一步提高分类的准确率。本方法还综合利用了LSTM在学习句子中词及词性的上下文信息方面的优势,以及CNN在学习文本局部特征方面的优势。本专利技术所提出的分类模型具有准确率高和通用性强等优点,在一些著名的公开语料库,包括20Newsgroup语料库、IMDB语料库、MovieReview、TREC和StanfordSentimentTreebank(SSTb)等,均取得很好的效果。附图说明图1是本专利技术公开的一种结合动态词嵌入和词性标注的文本分类方法的模型总体结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例本实施例公开了一种结合词性标注及动态词嵌入的多通道深度神经网络,并将其应用于文本的自动分类方法。主要思路是利用词向量给出句子中词及其词性的数学表示,一方面以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,另一方面对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量。接着,利用两个单独的双向LSTM层分别学习两个输入中的信息,从而分别得到词及词性的上下文关系,并将结果合并成一个双通道;在此基础上,将双通道传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;最后,再利用一个单向的LSTM层学习局部特征之间的上下文关系,然后合并最后的学习结果并通过一个多分类的输出层进行预测和输出。在模型的学习过程中结合训练语料的学习结果对两个通道中的词嵌入进行调整。具体来说,本专利技术是一种基于深层神经网络并结合动态词嵌入和词性标注信息的文本分类方法。模型共分五层:第一层为输入层,主要是对句子进行分词、非法字符过滤、长度补齐等预训练操作,然后分别利用预训练处理后的词嵌入表及基于均匀分布的随机初始化给出句子中各个词及其词性的数学表示,从而将每个句子转化成两个基于连续和稠密的实数向量矩阵;第二层为两个双向LSTM层,每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM的学习结果合并成一个双通道的向量矩阵;第三层为CNN层,采用多个不同词步长和不同本文档来自技高网
...
一种结合动态词嵌入和词性标注的文本分类方法

【技术保护点】
一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述文本分类方法包括下列步骤:S1、利用词向量给出句子中词及其词性的数学表示,以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,同时,对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量;S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵;S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息,,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。

【技术特征摘要】
1.一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述文本分类方法包括下列步骤:S1、利用词向量给出句子中词及其词性的数学表示,以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,同时,对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量;S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵;S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息,,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。2.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述步骤S1包括下列子步骤:S101、对句子进行预训练操作,所述预训练操作包括:标点符号过滤、缩写补齐、删除空格;S102、然后结合句子长度分布及均方差确定句子的长度阈值,并进行长度补齐;S10...

【专利技术属性】
技术研发人员:苏锦钿李鹏飞罗达
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1