用于神经主题建模中的多视图和多源迁移的方法和系统技术方案

技术编号：32353433 阅读：13 留言：0更新日期：2022-02-20 03:05

本发明专利技术涉及神经主题建模（NTM）的计算机实现方法、相应的计算机程序、计算机可读介质和数据处理系统。在NTM的方法中利用具有或不具有多源迁移（MST）的全局视图迁移（GVT）或多视图迁移（MTV），多视图迁移（MTV）即联合应用的GVT和局部视图迁移（LVT）。针对GVT，准备隐主题特征的预训练的主题知识库（KB），并且通过GVT经由在主题KB的相关隐主题特征的指导下学习有意义的隐主题特征来将知识迁移到目标。这是通过扩展损失函数并且最小化经扩展的损失函数来实现的。此外，针对MVT，附加地准备单词嵌入的预训练的单词嵌入KB，并且通过LVT经由在单词嵌入KB的相关单词嵌入的指导下学习有意义的单词嵌入来将知识迁移到目标。这是通过扩展用于计算预激活的项来实现的。展用于计算预激活的项来实现的。展用于计算预激活的项来实现的。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于神经主题建模中的多视图和多源迁移的方法和系统
[0001]本专利技术涉及一种神经主题建模（NTM）的计算机实现方法、以及相应计算机程序、相应计算机可读介质和相应数据处理系统。特别地，在NTM的方法中利用具有或不具有多源迁移（MST）的全局视图迁移（GVT）或多视图迁移（MTV），在多视图迁移（MTV）中，联合地应用GVT和局部视图迁移（LVT）。
[0002]概率主题模型，诸如LDA（Blei et al.，2003，Latent dirichlet allocation. Journal of Machine Learning Research，3：993
‑
1022）、复制的Softmax（RSM）（Salakhutdinov and Hinton，2009，Replicated softmax：an undirected topic model. In Advances in Neural Information Processing Systems 22：23rd Annual Conference on Neural Information Processing Systems，pages 1607
‑
1614. Curran Associates，Inc.）和文档神经自回归分布估计器（DocNADE）（Larochelle and Lauly，2012，A neural autoregressive topic model. In Advances in Neural Information...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在给定单词v
i
（i = l...D）的文档v的情况下、针对目标T的概率或神经自回归主题模型使用全局视图迁移GVT的自回归神经网络NN中的神经主题建模NTM的计算机实现方法，包括以下步骤：
‑ꢀ
准备（3）隐主题特征的预训练的主题知识库KB，其中k指示隐主题特征的源S
k
（k≥1）的数量，H指示隐主题的维度，并且K指示词汇大小；
‑ꢀ
通过GVT经由在主题KB的相关隐主题特征Z
k
的指导下学习有意义的隐主题特征来将知识迁移（4）到目标T，包括如下子步骤：
‑ꢀ
利用包括经加权的相关隐主题特征Z
k
的正则化项来扩展（4a）目标T的文档v的概率或神经自回归主题模型的损失函数，以形成经扩展的损失函数，该损失函数是自回归NN中的每个单词v
i
的联合概率的负对数似然，每个单词v
i
的该概率基于前面的单词v
<i
；以及
‑ꢀ
最小化（5）经扩展的损失函数以确定最小总体损失。2.根据权利要求1所述的计算机实现方法，其中所述概率或神经自回归主题模型是DocNADE架构。3.根据权利要求1或2所述的计...

【专利技术属性】
技术研发人员：P，
申请(专利权)人：西门子股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人