The invention discloses a combination of embedded dynamic word and POS tagging text classification method by combining dynamic embedded word and POS tagging is a deep text classification method based on neural network, the advantages can make full use of the large-scale corpus can provide more accurate syntactic and semantic information, but also in the process of model training combination the characteristics of corpus to adjust the word embedding, so as to better learning characteristics of the training corpus. At the same time, the part of speech information can also be combined with sentences to further improve the classification accuracy. This method also makes use of LSTM in the context of learning information in a sentence and part of speech of the advantages and CNN in learning text local features. The classification model proposed by the invention has the advantages of high accuracy and versatility, in some famous public corpus, including IMDB, Movie Review and TREC corpus, good results are obtained.
【技术实现步骤摘要】
一种结合动态词嵌入和词性标注的文本分类方法
本专利技术涉及移动通信
具体涉及一种结合动态词嵌入和词性标注的文本分类方法。
技术介绍
基于机器学习的文本自动分类是指在给定分类体系的前提下,利用各种计算机算法对文本的内容进行分析并自动确定文本类别的过程。早期的研究主要是基于浅层机器学习和统计学,并采用one-hot(也称one-of-V,V为词典的大小)或分配式的方式(如结合词频、共现信息、TF-IDF或熵的词袋)来给出句子的数学表示。这种表示方法的主要缺点是无法表达句子中语言单元(如字、词或短语n-grams)本身的语义及它们间的关系(例如任意两个不同词的向量内积均为0),且容易出现高维稀疏问题。近几年来,随着深度学习和深层神经网络在图形图像、手写字体识、语音识别等领域所取得的成功,一些学者开始利用神经网络来训练词的分布式表示(也称词嵌入或词向量),并取代one-hot或分配式表示来给出文本和句子的数学表示。词嵌入的主要思想是将词映射成一个连续且带语义信息的d维实数向量(d一般为模型的超参数)。现有的研究已经证明词嵌入能够更好地刻画文本的语法和语义信息,而且能够与深度神经网络相结合并进一步提高模型分类的准确性。目前,许多相关研究都是在基于大规模语料训练所得的词嵌入的基础上,利用递归神经网络(以长短期记忆网络LSTM和GRU为主要代表)或卷积神经网络等模型来学习文本的特征并进行分类。但这些研究主要采用静态的词嵌入,即词嵌入中各个向量元素的值在模型训练的过程中均保持不变,这使得模型不能够更好地学习目标语料库中文本的特点。另一方面,这些研究往往在所提出的模 ...
【技术保护点】
一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述文本分类方法包括下列步骤:S1、利用词向量给出句子中词及其词性的数学表示,以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,同时,对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量;S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵;S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息,,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。
【技术特征摘要】
1.一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述文本分类方法包括下列步骤:S1、利用词向量给出句子中词及其词性的数学表示,以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,同时,对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量;S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵;S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息,,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。2.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述步骤S1包括下列子步骤:S101、对句子进行预训练操作,所述预训练操作包括:标点符号过滤、缩写补齐、删除空格;S102、然后结合句子长度分布及均方差确定句子的长度阈值,并进行长度补齐;S10...
【专利技术属性】
技术研发人员:苏锦钿,李鹏飞,罗达,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。