用于神经主题建模中的多视图和多源迁移的方法和系统技术方案

技术编号:32353433 阅读:13 留言:0更新日期:2022-02-20 03:05
本发明专利技术涉及神经主题建模(NTM)的计算机实现方法、相应的计算机程序、计算机可读介质和数据处理系统。在NTM的方法中利用具有或不具有多源迁移(MST)的全局视图迁移(GVT)或多视图迁移(MTV),多视图迁移(MTV)即联合应用的GVT和局部视图迁移(LVT)。针对GVT,准备隐主题特征的预训练的主题知识库(KB),并且通过GVT经由在主题KB的相关隐主题特征的指导下学习有意义的隐主题特征来将知识迁移到目标。这是通过扩展损失函数并且最小化经扩展的损失函数来实现的。此外,针对MVT,附加地准备单词嵌入的预训练的单词嵌入KB,并且通过LVT经由在单词嵌入KB的相关单词嵌入的指导下学习有意义的单词嵌入来将知识迁移到目标。这是通过扩展用于计算预激活的项来实现的。展用于计算预激活的项来实现的。展用于计算预激活的项来实现的。

【技术实现步骤摘要】
【国外来华专利技术】用于神经主题建模中的多视图和多源迁移的方法和系统
[0001]本专利技术涉及一种神经主题建模(NTM)的计算机实现方法、以及相应计算机程序、相应计算机可读介质和相应数据处理系统。特别地,在NTM的方法中利用具有或不具有多源迁移(MST)的全局视图迁移(GVT)或多视图迁移(MTV),在多视图迁移(MTV)中,联合地应用GVT和局部视图迁移(LVT)。
[0002]概率主题模型,诸如LDA(Blei et al.,2003,Latent dirichlet allocation. Journal of Machine Learning Research,3:993

1022)、复制的Softmax(RSM)(Salakhutdinov and Hinton,2009,Replicated softmax:an undirected topic model. In Advances in Neural Information Processing Systems 22:23rd Annual Conference on Neural Information Processing Systems,pages 1607

1614. Curran Associates,Inc.)和文档神经自回归分布估计器(DocNADE)(Larochelle and Lauly,2012,A neural autoregressive topic model. In Advances in Neural Information Processing Systems 25:26th Annual Conference on Neural Information Processing Systems,pages 2717

2725)经常用于从文本集合中提取主题,并且学习隐文档表示来执行自然语言处理任务,诸如信息检索(IR)。尽管它们已经在对大型文本语料库进行建模方面被示出是强大的,但是主题建模(TM)仍然是具有挑战性的,尤其是在数据稀疏的设置中(例如,在短文本或少量文档的语料库上)。
[0003]单词嵌入(Pennington et al.,2014,Glove:Global vectors for word representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP),pages 1532

1543. Association for Computational Linguistics)在如下意义上具有局部情境(视图):即,它们是基于文本语料库中的局部搭配模式(collocation pattern)被学习的,其中每个单词的表示取决于局部情境窗口(Mikolov et al.,2013,Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems 26:27th Annual Conference on Neural Information Processing Systems,pages 3111

3119)或者是其(一个或多个)句子的函数(Peters et al.,2018,Deep contextualized word representations. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Volume 1 (Long Papers),pages 2227

2237. Association for Computational Linguistics.)。因此,单词出现是以细粒度来建模的。可以在(神经)主题建模中使用单词嵌入,以解决上述数据稀疏性问题。
[0004]另一方面,主题(Blei等人,2003)具有全局单词情境(视图):主题建模TM推断语料库中跨文档的主题分布,并且向每个单词出现指派主题,其中该指派同等地依赖于出现在相同文档中的所有其他单词。因此,它从跨文档的单词出现中进行学习,并且对粗粒度描述进行编码。与单词嵌入不同,主题可以捕获基础语料库中的主位结构(主题语义)。
[0005]尽管单词嵌入和主题在它们如何表示意义上是互补的,但是在它们如何从文本语料库中观察到的单词出现中进行学习方面,它们是有区别的。
[0006]为了缓解数据稀疏性问题,最近的工作(Das et al.,(2015),Gaussian Ida for topic models with word embeddings. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1:Long Papers),pages 795

804. Association for Computational Linguistics;Nguyen et al.,2015,Improving topic models with latent feature word representations. TACL,3:299
‑ꢀ
313;以及Gupta et al.,2019,Document informed neural auto regressive topic models with distributional prior. In Proceedings of the Thirty

Third AAAI Conference on Artificial Intelligence)已经示出:可以通过引入外部知识来改进TM,其中它们仅利用预训练的单词嵌入(即,局部视图)。然而,单词嵌入忽略了主题情境化结构(即,文档级语义),并且不能够处理歧义。
[0007]此外,当领域(domain)被转移并且没有被正确地处理时,经由单词嵌入的知识迁移容易在目标领域上受到负迁移(negative transfer)(Cao et al.,2010,Adaptive transfer learning. In Proceedings of the本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在给定单词v
i
(i = l...D)的文档v的情况下、针对目标T的概率或神经自回归主题模型使用全局视图迁移GVT的自回归神经网络NN中的神经主题建模NTM的计算机实现方法,包括以下步骤:
‑ꢀ
准备(3)隐主题特征的预训练的主题知识库KB,其中k指示隐主题特征的源S
k
(k≥1)的数量,H指示隐主题的维度,并且K指示词汇大小;
‑ꢀ
通过GVT经由在主题KB的相关隐主题特征Z
k
的指导下学习有意义的隐主题特征来将知识迁移(4)到目标T,包括如下子步骤:
‑ꢀ
利用包括经加权的相关隐主题特征Z
k
的正则化项来扩展(4a)目标T的文档v的概率或神经自回归主题模型的损失函数,以形成经扩展的损失函数,该损失函数是自回归NN中的每个单词v
i
的联合概率的负对数似然,每个单词v
i
的该概率基于前面的单词v
<i
;以及
‑ꢀ
最小化(5)经扩展的损失函数以确定最小总体损失。2.根据权利要求1所述的计算机实现方法,其中所述概率或神经自回归主题模型是DocNADE架构。3.根据权利要求1或2所述的计...

【专利技术属性】
技术研发人员:P
申请(专利权)人:西门子股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1