【技术实现步骤摘要】
一种将深度学习与数学分析相结合的句子分类改进方法
本专利技术属于短文本分类领域,涉及一种将深度学习与数学分析相结合的句子分类改进方法。
技术介绍
对句子分类是自然语言领域最基础的任务之一。对句子分类最大的难点在于句子特征的提取。现有特征提取的方法大概分为三种。第一,传统的句子分类方法,主要先人工提取句子的特征,再用机器学习方法比如支持向量机,朴素贝叶斯等算法进行监督训练然后得到分类器;第二,将句子的每个词用词向量表示,再对句子中的每个词向量的每个维度上进行求和平均建模成句子向量的表示方法,再用一层简单的softmax层进行分类;三是利用深度学习方法通过神经网络自动学习特征将句子建模成句子特征向量再加入softmax层进行分类。第一种人工提取特征会耗费大量的时间和精力,并且提取的特征不一定有用;第二种直接将词向量进行求和平均计算成句子向量的方法使得在与语义无关的方向上具有巨大的分量,并且有些特征会随着求和平均变得不怎么明显,而且忽略了句子的词序问题,从而使得分类效果不佳;第三种方法就忽略了一个句子中所有词在文本的数值特征问题(比如在大语料库上出现的频率,将词向量组成 ...
【技术保护点】
1.一种将深度学习与数学分析相结合的句子分类改进方法,其特征在于,包括以下步骤:步骤一、获取句子分类数据集,划分训练集和测试集;步骤二、将维基百科语料库和整个数据集结合在一起进行词向量训练,形成原始词向量表;统计整个维基百科语料库和句子分类数据集中每个词的词频,利用词频生成AWF权重表,以改进词向量表,改进后的词向量表称为AWF词向量表;步骤三、构建句子分类模型。分类模型包含AWF词向量表示层、LSTM网络层、句子特征表示层和softmax层。一个待分类句子,根据句子中的每个词查询AWF词向量表得到改进后的词向量,该模型会将这些词向量输入LSTM网络中,然后利用AWF权重表 ...
【技术特征摘要】
1.一种将深度学习与数学分析相结合的句子分类改进方法,其特征在于,包括以下步骤:步骤一、获取句子分类数据集,划分训练集和测试集;步骤二、将维基百科语料库和整个数据集结合在一起进行词向量训练,形成原始词向量表;统计整个维基百科语料库和句子分类数据集中每个词的词频,利用词频生成AWF权重表,以改进词向量表,改进后的词向量表称为AWF词向量表;步骤三、构建句子分类模型。分类模型包含AWF词向量表示层、LSTM网络层、句子特征表示层和softmax层。一个待分类句子,根据句子中的每个词查询AWF词向量表得到改进后的词向量,该模型会将这些词向量输入LSTM网络中,然后利用AWF权重表中的权重和数学分析方法将LSTM网络层的输出进行分析和改进,得到改进后的句子特征表示,然后将句子特征表示输入到softmax层进行分类,得到分类结果;步骤四、将训练数据集输入句子分类模型进行训练,得到分类结果,根据预测分类的概率分布和实际分类的概率分布得到损失函数交叉熵,使用梯度下降法最小化损失函数,利用反向传播算法优化整个模型,继续训练;步骤五:设置迭代次数,经过多次训练迭代,得到最终的分类模型;步骤六:将预进行分类的句子数据集输入最终分类模型,得到分类结果。2.如权利要求1所述的将深度学习与数学分析相结合的句子分类改进方法,其特征在于,所述步骤一中的测试集用于检测最终分类模型的分类效果。3.如权利要求1所述的将深度学习与数学分析相结合的句子分类改进方法,其特征在于,所述步骤一包括如下步骤:1.1对于获取的句子分类数据集,人工做好分类标签,或者直接下载有标签的公用数据集;1.2采取均匀分布的方式随机选取数据集的70%作为训练集,30%作为测试集。4.如权利要求1所述的将深度学习与数学分析相结合的句子分类改进方法,其特征在于,所述步骤二包括如下步骤:2.1使用word2vec方法或GloVe方法对整个维基百科语料库和句子分类数据集进行词向量训练,将维基百科语料库和句子分类数据集中的每个词映射到300维语义向量空间,生成词向量维度为300维的原始词向量表;2.2对整个维基百科语料库和句子分类数据集中的每个词进行词频统计,每个词对应一个词频p(w),利用公式(1)将每个词频表示成一个0-1之间的权重,称之为AWF权重,将所有AWF权重存放在AWF权重表中;其中p(w)是表示词频,a为超参数,据经验可得,设置范围为[10-3,10-5];AWFWeight表示AWF权重;在超参数a一定的情况下,p(w)越大,即词出现的次数越多,AWF权重越小;p(w)越小,即词出现的次数越少,AWF权重越大;2.3将原始词向量与对应词的AWF权重相乘,得到利用词频信息改进后的词向量表,称之为AWF词向量表,即改进后的词向量表。5.如权利要求1所述的将深度学习与数学分析相结合的句子分类改进方法,其特征在于,所述步骤三包括如下步骤:3.1查询AWF词向量表,将句子中的每个词用改进后的AWF词向量表示,形成该模型的AWF词向量表示层;3.2将一个句子中的每个词对应的AWF词向量作为该句子的原始特征并作为LSTM层的输入;LSTM层包括多个前后相连的LSTM神经网络单元,上一个LSTM单元的输出信息会影响下一个LSTM单元,当词向量Xt进入LSTM神经网络单元后,经过“门”来控制丢弃或增加信息;LSTM单元的关键是单元状态Ct,将信息从上一个LSTM单元传递到下一个LSTM单元:3.2.1遗忘门ft:通过训练学习上一LSTM单元状态即t-1时刻的单元状态Ct-1,遗忘门ft为Ct-1的每一项产生一个在[0,1]的值,来控制Ct-1被遗忘的程度,具体实现公式如公式(2)中的ft,其中t表是t时刻,Xt是t时刻输入的AWF词向量,ht-1是上一个LSTM单元的输出,σ表示sigmoid操作,输出在[0,1]区间,1代表完全记得,0代表完全遗忘,Wf和bf是要学习...
【专利技术属性】
技术研发人员:全哲,王静,刘彦,林轩,李传莹,
申请(专利权)人:湖南大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。