一种融合迁移学习与主题模型的文本分类方法及系统技术方案

技术编号:24331265 阅读:67 留言:0更新日期:2020-05-29 19:41
本发明专利技术公开了一种融合迁移学习与主题模型的文本分类方法及系统,包括:建立共享主题知识的迁移主题模型Tr‑SLDA;模型训练过程中在源域与目标域数据各自类别标签的约束下,将其采样到同一主题空间中,有效的缓解由于目标域与源域数据不满足同分布而导致的“负迁移”现象;在训练模型Tr‑SLDA完成后,测试文档的潜在主题空间是目标领域的文档集D

A text classification method and system integrating transfer learning and topic model

【技术实现步骤摘要】
一种融合迁移学习与主题模型的文本分类方法及系统
本专利技术属于文本数据
,尤其涉及一种融合迁移学习与主题模型的文本分类方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。文本分类研究的核心内容主要包括分类算法和文本表示两个部分,文本表示是文本分类问题的研究重点与难点,目前最广泛的文本表示方法是词袋法,和向量空间模型(VectorSpaceModel,VSM)。其假设每个词均为独立无序特征,忽略了词序和句法信息,这会带来“维数灾难”、“稀疏性”、“语义丢失”等诸多问题。主题模型(topicmodel)是可用于解决“维度灾难”、“稀疏性”的一种方法,并且从全文角度抽取词的语义信息。Blei等人提出的LDA(LatentDirichletAllocation)主题模型,用词的概率分布来表示主题,通过隐含主题来建立语义相近词之间的关联,将文本从高维的词表示变换到低维的主题表示。LDA主题模型用于文本分类任务时,将文本表示从高维的词空间变换到低维的主题空间,然后采用KNN、NaiveBayesian、SVM等算法直接分类,其效果并不好。原因在于LDA主题模型是无监督学习,不考虑文本的类别,并没有利用训练文本已标注的类别这一重要信息。SLDA(SupervisedLDA,SLDA)在LDA的基础上引入了用以表示主题-类别的新参数,提出新的采样方法,建立主题与类别间的精准映射,进而提出SLDA-TC分类方法提高了主题模型在文本分类任务上的分类性能。专利技术人在研究中发现,在传统的有监督文本分类方法中,为了得到较好的分类器,都有两个基本假设:(1)训练样本与测试样本独立同分布;(2)拥有足够可利用的已标注训练样本。但在实际应用中往往无法获取大量的已标注数据用于模型的训练,但相关不同的领域可能存在大量可用的标注文本。所以在文本分类任务中目标领域标注数据较少,相关辅助领域存在大量标注数据,二者标注数据关联的类别空间不同,但共享部分类别标签的实际应用问题中,虽然SLDA在类别的约束下有效的提升了主题模型在文本分类任务的分类性能,但其是有监督学习方法,无法利用相关但不同源领域的数据进行辅助模型的训练。LDA主题模型为无监督主题模型,在模型训练的过程中可以迁移源域数据知识进行辅助建模,但在建模过程中会因目标域与源域数据不满足同分布而产生严重的主题偏移,从而导致“负迁移”现象,最终使得模型分类性能下降。
技术实现思路
为克服上述现有技术的不足,本专利技术提供了一种融合迁移学习与主题模型的文本分类方法,能够解决解决上述现有技术无法在标注数据不足下训练性能较好分类模型以及由于源域与目标域不满足同分布而带来的“负迁移”问题。为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:一种融合迁移学习与主题模型的文本分类方法,包括:建立共享主题知识的迁移主题模型Tr-SLDA;模型训练过程中在源域与目标域数据各自类别标签的约束下,将其采样到同一主题空间中,有效的缓解由于目标域与源域数据不满足同分布而导致的“负迁移”现象;在训练模型Tr-SLDA完成后,测试文档的潜在主题空间是目标领域的文档集Dt和训练文档集Ds共享的主题空间T,对测试文档的每个词的隐含主题进行采样;将待测文本输入到训练完成的Tr-SLDA模型,将待测文本输入到训练完成的Tr-SLDA模型,基于Tr-SLDA迁移主题模型利用Tr-SLDA-TC文本分类方法来预测待测文本类别。本申请推断出待测文本的主题,进而预测文本类别。进一步的技术方案,Tr-SLDA中待估计的参数有文档-主题概率分布、主题-词概率分布、源域的类别-主题概率分布和目标域的类别-主题概率分布。进一步的技术方案,Tr-SLDA迁移主题参数估计时,采用Tr-SLDA-Gibbs算法。进一步的技术方案,在初始化词的主题时加入文档类别的先验知识,将文档的类别标号作为词的初始化主题,采样过程中对来自不同域文档的词采用不同的采样策略,在确定了每个词的隐含主题后,θ,δ和μ,通过统计频次计算得到;Tr-SLDA主题模型的参数为θ,δ和μ,其中θ表示文档-主题分布,表示主题-词分布,δ表示主题-Λt类之间的隐含语义分布,μ表示主题-Λs类之间的隐含语义分布,θ,δ和μ服从Dirichlet分布。进一步的技术方案,Tr-SLDA-Gibbs算法对来自源域特有类别、目标域特有类别和源域与目标域交叉类别分别采取不同的采样策略,将源域与目标域在类别标签的约束下采样到同一主题空间。进一步的技术方案,将源域与目标域在类别标签的约束下采样到同一主题空间,计算时:其中,z-i表示剔除向量z的第i项,y-m表示剔除向量y的第m项,表示剔除z的第i项(即第i个词wi=t)主题k分配给词t的次数,βt表示词t的Dirichlet先验,表示剔除z的第i项,主题k分配给文档m中单词的次数,αk表示主题k的Dirichlet先验。进一步的技术方案,对来自不同域的文档采用不同的采样方式,将源域与目标域在其各自的类别标签的约束下采样到同一主题空间,有效利用与目标任务不同但相关的辅助源域数据进行辅助建模。以上一个或多个技术方案存在以下有益效果:本公开提出基于Tr-SLDA迁移主题模型的Tr-SLDA-TC文本分类方法,针对目标领域仅有较少标注数据,相关辅助领域存在大量标注数据,二者标注数据关联的类别空间不同,但共享部分类别标签的应用场景,本专利技术在SLDA有监督主题模型的基础上,结合迁移学习技术提出一种共享主题知识的迁移主题模型,模型训练过程中在源域与目标域数据各自类别标签的约束下,将其采样到同一主题空间中,可有效的缓解由于目标域与源域数据不满足同分布而导致的“负迁移”现象。进而提高模型在目标领域仅有较少标注数据的实际应用场景下的分类性能。附图说明构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。图1为本专利技术实施例公开的一种融合迁移学习与主题模型的文本分类方法流程图。图2为LDA主题模型。图3为SLDA主题模型。图4为Tr-SLDA迁移主题模型。图5(a)为本专利技术实施例在sci-talk数据集上当目标域训练文档数Tn=5时与各分类器分类结果的Macro-Precision随源域数据变化对比图;图5(b)为本专利技术实施例在sci-talk数据集上当目标域训练文档数Tn=5时与各分类器分类结果的Macro-Recall随源域数据变化对比图;图5(c)为本专利技术实施例在sci-talk数据集上当目标域训练文档数Tn=5时与各分类器分类结果的Macro-F1随源域数据变化对比图;图6(a)为本专利技术实施例在rec-talk数据集上当目标域训练文档数Tn=5时与各分类器分类结果的Macro-Precision随源域数本文档来自技高网
...

【技术保护点】
1.一种融合迁移学习与主题模型的文本分类方法,其特征是,包括:/n建立共享主题知识的迁移主题模型Tr-SLDA;/n模型训练过程中在源域与目标域数据各自类别标签的约束下,将其采样到同一主题空间中,有效的缓解由于目标域与源域数据不满足同分布而导致的“负迁移”现象;/n在训练模型Tr-SLDA完成后,测试文档的潜在主题空间是目标领域的文档集D

【技术特征摘要】
1.一种融合迁移学习与主题模型的文本分类方法,其特征是,包括:
建立共享主题知识的迁移主题模型Tr-SLDA;
模型训练过程中在源域与目标域数据各自类别标签的约束下,将其采样到同一主题空间中,有效的缓解由于目标域与源域数据不满足同分布而导致的“负迁移”现象;
在训练模型Tr-SLDA完成后,测试文档的潜在主题空间是目标领域的文档集Dt和训练文档集Ds共享的主题空间T,对测试文档的每个词的隐含主题进行采样;
将待测文本输入到训练完成的Tr-SLDA模型,基于Tr-SLDA迁移主题模型利用Tr-SLDA-TC文本分类方法来预测待测文本类别。


2.如权利要求1所述的一种融合迁移学习与主题模型的文本分类方法,其特征是,Tr-SLDA中待估计的参数有文档-主题概率分布、主题-词概率分布、源域的类别-主题概率分布和目标域的类别-主题概率分布。


3.如权利要求1所述的一种融合迁移学习与主题模型的文本分类方法,其特征是,Tr-SLDA迁移主题参数估计时,采用Tr-SLDA-Gibbs算法。


4.如权利要求1所述的一种融合迁移学习与主题模型的文本分类方法,其特征是,在初始化词的主题时加入文档类别的先验知识,将文档的类别标号作为词的初始化主题,采样过程中对来自不同域文档的词采用不同的采样策略,在确定了每个词的隐含主题后,θ,δ和μ,通过统计频次计算得到;
Tr-SLDA主题模型的参数为θ,δ和μ,其中θ表示文档-主题分布,表示主题-词分布,δ表示主题-Λt类之间的隐含语义分布,μ表示主题-Λs类之间的隐含语义分布,θ,δ和μ服从Dirichlet分布。


5.如权利要求1所述的一种融合迁移学习与主题模型的文本分类方法,其特征是,Tr-SLDA-Gibbs算法对来自源域特有类别、目标域特有类别和源域与目标域交叉类别分别采取不同的采样策略,将源域与目标域在类别标签的约束下采样到同一主题空间。


6.如权利要求1所述的一种融合迁移学习与主题模型的文本分类方法,其特征是,将源域与目标域在类别标签的约束下采样到同一主题空间,计算时:



其中,z-i表示剔除向量z的第i项,y-m表示剔除向量y的第m项,表示剔除z的第i项(即第i个词wi=t)主题k分配给词t的次数,βt表示词t的Dirichlet先验,表示剔除z的第i项,主题k分配给文档m中单词的次数,αk表示主题k的Dirichlet先验。


7.如权利要求1所述的一种融...

【专利技术属性】
技术研发人员:唐焕玲郑涵窦全胜宋英杰于立萍鲁明羽
申请(专利权)人:山东工商学院
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1