【技术实现步骤摘要】
一种基于模型融合的深度学习文本分类方法及系统
[0001]本专利技术属于自然语言处理领域,尤其涉及一种基于模型融合的深度学习文本分类方法及系统。
技术介绍
[0002]文本分类是自然语言处理(NLP)中的一个基本问题,在现实生活中有着许多实际的应用场景,例如新闻过滤,垃圾邮件检测等。
[0003]文本分类的主要流程包括:获取训练集,文本预处理,文本特征的表示,训练分类器,预测结果并分析,传统的机器学习文本分类方法主要聚焦于文本特征的表示和分类模型,常见的机器学习分类方法有支持向量机(SVM)、朴素贝叶斯、决策树、K最近邻(KNN)等,这些方法通常采用例如TF
‑
IDF、Bow等文本特征表示方法,这些文本特征表示方法其特征表达能力弱,在处理海量语料库时会有更多的资源消耗,并且无法涵盖词语间的关联关系,同时也忽略了词序。
[0004]随着深度学习技术的发展,从大量文本语料中以无监督方式学习语义知识的模型,被广泛地应用于自然语言处理中,例如word2vec、glove等语言模型。然后使用神经网络进 ...
【技术保护点】
【技术特征摘要】
1.一种基于模型融合的深度学习文本分类方法,其特征在于,包括以下步骤:S1、获取训练文本集,构建以单词节点为基础的文本训练集的图结构;S2、利用S1中获取的文本训练集的图结构,将训练文本集中的文本生成文本的图结构;S3、构建图神经网络模型,将S2中获取的文本的图结构输入图神经网络得到图神经网络输出;S4、构建基于循环神经网络的文本分类模型,将S3得到的图神经网络输出输入到所述文本分类模型进行分类预测,获得文本分类结果。2.根据权利要求1所述的一种基于模型融合的深度学习文本分类方法,其特征在于,所述S1中文本训练集的图结构包括文本训练集的图结构的节点集和文本训练集的图结构的边集,该文本训练集的图结构的生成过程为:S11、将所述训练文本集中出现次数大于阈值k的词加入集合V_ALL,将所述训练文本集中出现次数小于阈值k的词统一映射为集合V_ALL中特定节点UNK,V_ALL即为文本训练集的图结构的节点集;节点集合V_ALL中的节点嵌入表示v通过预训练模型获得;S12、将所述训练文本集中,语句中词间距小于p的邻居节点之间的关系权重设置为随机权重e,利用节点间关系权重构建矩阵E_ALL,E_ALL即为文本训练集的图结构的边集;其中,E在训练过程中更新。3.根据权利要求1所述的一种基于模型融合的深度学习文本分类方法,其特征在于,所述S2中文本的图结构包括文本的图结构的节点集和文本的图结构的边集,该文本的图结构的生成过程为:N={r
i
|i∈[1,l]},E={e
ij
|i∈[1,l];j∈[i
‑
p,i+p]}其中,N和E是文本图的节点集和边集,而N中的单词表示r
i
取自文本训练集的图结构的节点集V_ALL,E中的边权重e
ij
取自文本训练集的图结构的边集E_ALL,l表示一条文本单词的个数,p为超参数,表示词间距。4.根据权利要求2或3任一项所述的一种基于模型融合的深度学习文本分类方法,其特征在于,所述的文本的图结构的节点集为所述文本训练集的图结构的节点集的子集,所述文本的图结构的边集为所述文本训练集的图结构的边集的子...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。