【技术实现步骤摘要】
一种融合迁移学习与主题模型的文本分类方法及系统
本专利技术属于文本数据
,尤其涉及一种融合迁移学习与主题模型的文本分类方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。文本分类研究的核心内容主要包括分类算法和文本表示两个部分,文本表示是文本分类问题的研究重点与难点,目前最广泛的文本表示方法是词袋法,和向量空间模型(VectorSpaceModel,VSM)。其假设每个词均为独立无序特征,忽略了词序和句法信息,这会带来“维数灾难”、“稀疏性”、“语义丢失”等诸多问题。主题模型(topicmodel)是可用于解决“维度灾难”、“稀疏性”的一种方法,并且从全文角度抽取词的语义信息。Blei等人提出的LDA(LatentDirichletAllocation)主题模型,用词的概率分布来表示主题,通过隐含主题来建立语义相近词之间的关联,将文本从高维的词表示变换到低维的主题表示。LDA主题模型用于文本分类任务时,将文本表示从高维的词空间变换到低维的主题空间,然后采用KNN、NaiveBayesian、SVM等算法直接分类,其效果并不好。原因在于LDA主题模型是无监督学习,不考虑文本的类别,并没有利用训练文本已标注的类别这一重要信息。SLDA(SupervisedLDA,SLDA)在LDA的基础上引入了用以表示主题-类别的新参数,提出新的采样方法,建立主题与类别间的精准映射,进而提出SLDA-TC分类方法提高了主题模型在文本分类任务上的分类性能。专 ...
【技术保护点】
1.一种融合迁移学习与主题模型的文本分类方法,其特征是,包括:/n建立共享主题知识的迁移主题模型Tr-SLDA;/n模型训练过程中在源域与目标域数据各自类别标签的约束下,将其采样到同一主题空间中,有效的缓解由于目标域与源域数据不满足同分布而导致的“负迁移”现象;/n在训练模型Tr-SLDA完成后,测试文档的潜在主题空间是目标领域的文档集D
【技术特征摘要】
1.一种融合迁移学习与主题模型的文本分类方法,其特征是,包括:
建立共享主题知识的迁移主题模型Tr-SLDA;
模型训练过程中在源域与目标域数据各自类别标签的约束下,将其采样到同一主题空间中,有效的缓解由于目标域与源域数据不满足同分布而导致的“负迁移”现象;
在训练模型Tr-SLDA完成后,测试文档的潜在主题空间是目标领域的文档集Dt和训练文档集Ds共享的主题空间T,对测试文档的每个词的隐含主题进行采样;
将待测文本输入到训练完成的Tr-SLDA模型,基于Tr-SLDA迁移主题模型利用Tr-SLDA-TC文本分类方法来预测待测文本类别。
2.如权利要求1所述的一种融合迁移学习与主题模型的文本分类方法,其特征是,Tr-SLDA中待估计的参数有文档-主题概率分布、主题-词概率分布、源域的类别-主题概率分布和目标域的类别-主题概率分布。
3.如权利要求1所述的一种融合迁移学习与主题模型的文本分类方法,其特征是,Tr-SLDA迁移主题参数估计时,采用Tr-SLDA-Gibbs算法。
4.如权利要求1所述的一种融合迁移学习与主题模型的文本分类方法,其特征是,在初始化词的主题时加入文档类别的先验知识,将文档的类别标号作为词的初始化主题,采样过程中对来自不同域文档的词采用不同的采样策略,在确定了每个词的隐含主题后,θ,δ和μ,通过统计频次计算得到;
Tr-SLDA主题模型的参数为θ,δ和μ,其中θ表示文档-主题分布,表示主题-词分布,δ表示主题-Λt类之间的隐含语义分布,μ表示主题-Λs类之间的隐含语义分布,θ,δ和μ服从Dirichlet分布。
5.如权利要求1所述的一种融合迁移学习与主题模型的文本分类方法,其特征是,Tr-SLDA-Gibbs算法对来自源域特有类别、目标域特有类别和源域与目标域交叉类别分别采取不同的采样策略,将源域与目标域在类别标签的约束下采样到同一主题空间。
6.如权利要求1所述的一种融合迁移学习与主题模型的文本分类方法,其特征是,将源域与目标域在类别标签的约束下采样到同一主题空间,计算时:
其中,z-i表示剔除向量z的第i项,y-m表示剔除向量y的第m项,表示剔除z的第i项(即第i个词wi=t)主题k分配给词t的次数,βt表示词t的Dirichlet先验,表示剔除z的第i项,主题k分配给文档m中单词的次数,αk表示主题k的Dirichlet先验。
7.如权利要求1所述的一种融...
【专利技术属性】
技术研发人员:唐焕玲,郑涵,窦全胜,宋英杰,于立萍,鲁明羽,
申请(专利权)人:山东工商学院,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。