融合迁移多套词向量及人工特征的短文本分类方法技术

技术编号:37870528 阅读:10 留言:0更新日期:2023-06-15 20:59
本发明专利技术涉及融合迁移多套词向量及人工特征的短文本分类方法,该方法属于双分支网络,首先用多套词向量分别初始化多个嵌入层参数,一分支先预处理短文本样本后广播到多个嵌入层,再规约拼接加语义特征学习,得到第一输出结果,另一分支先人工提取短文本样本的特征后再做特征变换对齐所述第一输出结果,合并这两个分支输出。在模型训练的时候,微调多个嵌入层参数和人工特征变换层来同时迁移学习多套词向量和人工特征代表的知识,降低模型过拟合的风险。的风险。的风险。

【技术实现步骤摘要】
融合迁移多套词向量及人工特征的短文本分类方法


[0001]本专利技术涉及数据处理领域。具体为融合迁移多套词向量及人工特征的短文本分类方法。

技术介绍

[0002]短文本分类主要有两大实现方式。一类方式是先人工提取特征,再接逻辑回归、支持向量机或贝叶斯分类之类的浅层分类器。这类方法训练得到的模型分类精度依赖人工提取特征,对于较复杂的像短信内容分类等任务有分类精度提升瓶颈。另一类方法基于监督深度学习范式,能从训练样本集中自动学习提取分类特征,可以获得明显的分类精度提升。然而,基于监督深度学习范式训练短文本分类模型通常需要海量的带标签训练样本。收集和标记短文本数据可能需要大量的时间和金钱。尽管目前的数据收集成本已大幅降低,但这一成本仍不能忽视。业内主要通过迁移学习和主动学习来减少训练短文本分类模型所需的带标签训练样本量。
[0003]主动学习通过过滤冗余标注来降低训练文本分类模型所需的带标签训练样本量。迁移学习通过源域数据和目标域数据之间的相关性来降低训练短文本分类模型所需的带标签训练样本量。本专利技术降低训练分类模型所需样本量的方法属于迁移学习范畴。和本专利技术最相似的实现方案是基于词向量的迁移学习方法。基于词向量的迁移学习方法首先使用大的语料库(也叫源域数据)训练词向量,或着直接从第三方(比如通过网络下载)获得预训练好的词向量;该方法认为预训练好的词向量代表源域知识,通过用这预训练好的词向量初始化分类模型的嵌入层参数来迁移源域数据知识,用新的目标数据训练分类模型并只微调嵌入层参数。
[0004]现有基于词向量的迁移学习方法一般只选择一套词向量。但是,业内已经存在多套词向量,这些词向量是用不同的深度学习算法(比如word2vec和bert)在不同的语料库上训练得到,代表着并不完全重叠的知识;同时,人工提的特征代表着开发人员对短文本分类问题的先验知识,先验知识和词向量代表的知识也不可能完全重合。本专利技术通过同时迁移学习多套词向量和人工特征代表的知识来进一步降低训练短文本分类模型所需的带标签训练样本量,减少模型过拟合的风险。

技术实现思路

[0005]本专利技术为了解决
技术介绍
中存在的问题,目的在于提供了基于融合迁移多套词向量及人工特征的短文本分类方法,通过同时迁移学习多套词向量和人工特征代表的知识来进一步降低训练短文本分类模型所需的带标签训练样本量,只用少量的带标注的训练样本,训练一个高精度的短文本分类模型。
[0006]用于解决问题的方案
[0007]融合迁移多套词向量及人工特征的短文本分类方法,基于深度学习网络模型,所述方法包括:
[0008]将N个预处理后的短文本样本广播到深度学习网络模型中的多个词嵌入层后,进行规约拼接及语义特征处理,得到第一输出结果;
[0009]人工提取N个短文本样本的特征后,进行特征变换对齐所述第一输出结果,得到第二输出结果;并合第一输出结果和第二输出结果,得到合并后张量(N,c);
[0010]把合并后张量(N,c)输入到深度学习网络模型的softmax层中,得到预测结果张量(N,c).
[0011]计算预测结果张量(N,c)与短文本样本标签间的损失函数,使用BP算法反向计算每一层神经网络的参数梯度,通过为多个嵌入层参数和人工特征变换层参数设置较小的学习率来更新网络参数权重,多轮迭代完成模型训练,得到更新后的深度学习网络模型。
[0012]进一步,所述方法还包括:首先,获取N个短文本样本和短文本样本标签。
[0013]进一步,将N个短文本样本长度固定为s个字符,样本长度如果大于s,尾部多余的字符截断;句子长度如果小于s,句尾添加特殊符号,得到N个预处理后的短文本样本。
[0014]进一步,在所述将N个预处理后的短文本样本广播到深度学习网络模型中的多个词嵌入层之前,所述方法还包括:利用多套词向量分别初始化多个嵌入层参数。
[0015]进一步,所述进行规约拼接及语义特征处理,具体包括:
[0016]将N个预处理后的短文本样本广播到深度学习网络模型中的多个词嵌入层,得到N个大小为(N,s,l
i
)的张量;
[0017]把多个张量(N,s,l
i
)规约到深度学习网络模型中的拼接层做拼接处理,得到大小为(N,s,l)的张量;
[0018]将张量(N,s,l)输入到深度学习网络模型中的双向lstm层中进行短文本语义提取处理,得到大小为(N,f)的张量;
[0019]将张量(N,f)输入到深度学习网络模型中的密集连接层中进行非线性变换处理,得到大小为(N,c)的语义张量即第一输出结果,其中c表示模型输出类别数。
[0020]进一步,将N个短文本样本输入到深度学习网络模型中的人工特征层进行逐个样本特征提取处理,得到大小为(N,h)的张量;
[0021]把人工特征层提取的输出张量(N,h)输入到特征变换层中进行非线性变换处理,得到人工张量(N,c)即第二输出结果。
[0022]进一步,把语义张量(N,c)和人工张量(N,c)输入到深度学习网络模型中的合并层中进行合并处理,得到合并后张量(N,c)即预测结果张量。
[0023]进一步,计算预测结果张量(N,c)与短文本样本标签间的损失函数,使用BP算法反向计算每一层神经网络的参数梯度,为多个嵌入层参数和人工特征变换层参数设置较小的学习率,更新网络参数权重,多轮迭代完成模型训练。
[0024]进一步,所述进行拼接处理,具体包括:
[0025]把多个短文本张量(N,s,l
i
)规约输入到拼接层中,依据张量的最后一维度进行拼接处理,得到大小为(N,s,l)的张量,这里m表示深度学习模型中词嵌入层的个数。
[0026]有益效果:
[0027]上述技术方案的有益效果在于:该方法首先用多套词向量分别初始化多个嵌入层参数,一分支先预处理短文本样本后广播到多个嵌入层,再规约拼接加语义特征学习,得到
第一输出结果,另一分支先人工提取短文本样本的特征后再做特征变换对齐所述第一输出结果,合并这两个分支输出。在训练模型的时候,微调多个嵌入层参数和人工特征变换层来同时迁移学习多套词向量和人工特征代表的知识,降低模型过拟合的风险,只需要少量的带标注的训练样本,就可训练一个高精度的短文本分类模型。
附图说明
[0028]图1是本专利技术主体流程图。
具体实施方式
[0029]下面结合实施例描述本专利技术具体实施方式:
[0030]需要说明的是,本说明书所示意的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
能涵盖的范围内。
[0031]同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合迁移多套词向量及人工特征的短文本分类方法,其特征在于,基于深度学习网络模型,所述方法包括:将N个预处理后的短文本样本广播到深度学习网络模型中的多个词嵌入层后,进行规约拼接及语义特征处理,得到第一输出结果;把N个短文本样本人工提取特征后,进行特征变换对齐所述第一输出结果,得到第二输出结果;并合第一输出结果和第二输出结果,得到合并后张量(N,c);把合并后张量(N,c)输入到深度学习网络模型的softmax层中,得到预测结果张量(N,c);计算预测结果张量(N,c)与短文本样本标签间的损失函数,使用BP算法反向计算每一层神经网络的参数梯度,通过为多个嵌入层参数和人工特征变换层参数设置较小的学习率来更新网络参数权重,多轮迭代完成模型训练,得到更新后的深度学习网络模型。2.根据权利要求1所述的融合迁移多套词向量及人工特征的短文本分类方法,其特征在于,所述方法还包括:首先,获取N个短文本样本和短文本样本标签。3.根据权利要求2所述的融合迁移多套词向量及人工特征的短文本分类方法,其特征在于,将N个短文本样本长度固定为s个字符,样本长度如果大于s,尾部多余的字符截断;句子长度如果小于s,句尾添加特殊符号,得到N个预处理后的短文本样本。4.根据权利要求1所述的融合迁移多套词向量及人工特征的短文本分类方法,其特征在于,在所述将N个预处理后的短文本样本广播到深度学习网络模型中的多个词嵌入层之前,所述方法还包括:利用多套词向量分别初始化多个嵌入层参数。5.根据权利要求1所述的融合迁移多套词向量及人工特征的短文本分类方法,其特征在于,所述进行规约拼接及语义特征处理,具体包括:将N个预处理后的短文本样本广播到深度学习网络模型中的多个词嵌入层,得到N个大小为(N,s,l
i

【专利技术属性】
技术研发人员:曹坚
申请(专利权)人:北京烽火万家科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1