一种结合动态词嵌入和词性标注的文本分类方法技术

技术编号：16456167 阅读：85 留言：0更新日期：2017-10-25 20:40

本发明专利技术公开了一种结合动态词嵌入和词性标注的文本分类方法，通过结合动态词嵌入和词性标注给出一种基于深层神经网络的文本分类方法，既能够充分利用大规模语料库可提供更准确的语法和语义信息的优点，又能够在模型训练过程中结合语料库的特点对词嵌入进行调整，从而更好地学习训练语料库的特点。同时，还可以结合句子中词的词性信息进一步提高分类的准确率。本方法还综合利用了LSTM在学习句子中词及词性的上下文信息方面的优势，以及CNN在学习文本局部特征方面的优势。本发明专利技术所提出的分类模型具有准确率高和通用性强等优点，在一些著名的公开语料库，包括IMDB语料库、Movie Review和TREC等，均取得很好的效果。

A text categorization method combining dynamic word embedding and part of speech tagging

The invention discloses a combination of embedded dynamic word and POS tagging text classification method by combining dynamic embedded word and POS tagging is a deep text classification method based on neural network, the advantages can make full use of the large-scale corpus can provide more accurate syntactic and semantic information, but also in the process of model training combination the characteristics of corpus to adjust the word embedding, so as to better learning characteristics of the training corpus. At the same time, the part of speech information can also be combined with sentences to further improve the classification accuracy. This method also makes use of LSTM in the context of learning information in a sentence and part of speech of the advantages and CNN in learning text local features. The classification model proposed by the invention has the advantages of high accuracy and versatility, in some famous public corpus, including IMDB, Movie Review and TREC corpus, good results are obtained.

全部详细技术资料下载

【技术实现步骤摘要】
一种结合动态词嵌入和词性标注的文本分类方法
本专利技术涉及移动通信
具体涉及一种结合动态词嵌入和词性标注的文本分类方法。
技术介绍
基于机器学习的文本自动分类是指在给定分类体系的前提下，利用各种计算机算法对文本的内容进行分析并自动确定文本类别的过程。早期的研究主要是基于浅层机器学习和统计学，并采用one-hot(也称one-of-V，V为词典的大小)或分配式的方式(如结合词频、共现信息、TF-IDF或熵的词袋)来给出句子的数学表示。这种表示方法的主要缺点是无法表达句子中语言单元(如字、词或短语n-grams)本身的语义及它们间的关系(例如任意两个不同词的向量内积均为0)，且容易出现高维稀疏问题。近几年来，随着深度学习和深层神经网络在图形图像、手写字体识、语音识别等领域所取得的成功，一些学者开始利用神经网络来训练词的分布式表示(也称词嵌入或词向量)，并取代one-hot或分配式表示来给出文本和句子的数学表示。词嵌入的主要思想是将词映射成一个连续且带语义信息的d维实数向量(d一般为模型的超参数)。现有的研究已经证明词嵌入能够更好地刻画文本的语法和语义信息，而且能够与深度神经网络相结合并进一步提高模型分类的准确性。目前，许多相关研究都是在基于大规模语料训练所得的词嵌入的基础上，利用递归神经网络(以长短期记忆网络LSTM和GRU为主要代表)或卷积神经网络等模型来学习文本的特征并进行分类。但这些研究主要采用静态的词嵌入，即词嵌入中各个向量元素的值在模型训练的过程中均保持不变，这使得模型不能够更好地学习目标语料库中文本的特点。另一方面，这些研究往往在所提出的模...
一种结合动态词嵌入和词性标注的文本分类方法

【技术保护点】
一种结合动态词嵌入和词性标注的文本分类方法，其特征在于，所述文本分类方法包括下列步骤：S1、利用词向量给出句子中词及其词性的数学表示，以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示，同时，对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量；S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息，并将每一步的学习结果进行输出，最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵；S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层，然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维；S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息，，接着输出最后一个语言单元的学习结果，并将所有的学习结果进行串联合并；S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。

【技术特征摘要】
1.一种结合动态词嵌入和词性标注的文本分类方法，其特征在于，所述文本分类方法包括下列步骤：S1、利用词向量给出句子中词及其词性的数学表示，以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示，同时，对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量；S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息，并将每一步的学习结果进行输出，最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵；S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层，然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维；S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息，，接着输出最后一个语言单元的学习结果，并将所有的学习结果进行串联合并；S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。2.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法，其特征在于，所述步骤S1包括下列子步骤：S101、对句子进行预训练操作，所述预训练操作包括：标点符号过滤、缩写补齐、删除空格；S102、然后结合句子长度分布及均方差确定句子的长度阈值，并进行长度补齐；S10...

【专利技术属性】
技术研发人员：苏锦钿，李鹏飞，罗达，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人