隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法技术

技术编号：14817468 阅读：44 留言：0更新日期：2017-03-15 11:39

本发明专利技术提供隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法包括：将数据集中每个单词和对应文档逐一呈现给预设结构神经网络，表示当前单词及表示当前文档的可见层神经元以实时频率根据泊松过程发放电脉冲并沿突触连结传递至隐层；各隐层神经元根据改变的膜内电压计算其实时放电频率并以泊松过程发放电脉冲；根据隐层发放电脉冲方式更新注入隐层神经元的反馈周边抑制信号；从一可见层神经元到一隐层神经元的突触连结强度根据它们发放电脉冲的相对时间差及该突触当前连结强度更新；处理完数据集所有文本为一次迭代，迭代次数达到预设值时从神经网络的参数中提取隐式狄利克雷模型的参数。本方法空间复杂度低、原则上能用于类脑芯片上做低能耗计算。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习及类脑计算
，尤其涉及一种隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法。
技术介绍
隐式主题模型，能够从复杂文本集合中抽取其中隐藏的语义结构。目前使用最广泛的隐式主题模型是隐式狄利克雷模型(LDA-LatentDirichletAllocation)。这个模型常用的训练算法是坍缩吉布斯采样(CGS-CollapsedGibbsSampling)。隐式狄利克雷模型已经广泛运用于文本分析、数据可视化、推荐系统、信息检索和网络分析。近年来，随着网络中文本数据量的大规模增加，已有工作显示大规模隐式狄利克雷模型可以提升广告和推荐系统的功能。但目前，大规模隐式狄利克雷模型一般在大集群下做训练和推理，运行的能耗很大，所以难以推广到能源稀缺的设备上，比如手机应用。类脑计算通过模仿生物神经网络研发低能耗的计算方法，其中一个重要研究方向是制造通用的低能耗处理器。现有技术提供了一款称为TrueNorth的可运行类脑芯片，其在实时任务上估计出消耗的能量仅为传统中央处理器的十万分之一。但这种类脑芯片不适合直接运行经典计算机算法的操作，而适合运行脉冲神经网络动力学。所以目前已有的经典计算机算法需要针对其原理重新用脉冲神经网络动力学来实现，才能在类脑芯片上使用，并充分发挥芯片低能耗的特性。目前，脉冲神经网络动力学已经能实现一些经典的机器学习算法。如现有技术提供了一种神经采样方法，在理论上能对概率图做吉布斯采样推理。虽然通过结合坍缩吉布斯采样的原理，该神经采样方法能保证用脉冲神经网络动力学正确地训练隐式狄利克雷模型，但网络结构中使用的神经元连结数目与文本中...
隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法

【技术保护点】
一种隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法，其特征在于，包括：S1、构建预设结构的神经网络，所述预设结构的神经网络，包括：两个可见层和一个隐层；所述两个可见层按照一热表示方式分别对单词和文档进行编码，所述隐层按照一热表示方式对主题进行编码，突触从可见层中的每个神经元连结到隐层中的每个神经元；S2、串行地将数据集中的每个单词和每个单词对应的文档逐一呈现给所述神经网络，根据步骤S1中可见层进行编码的方法，表示当前单词的可见层中的神经元和表示当前文档的可见层中的神经元以其实时频率根据泊松过程发放电脉冲，该电脉冲沿着突触连结从可见层传递至隐层；S3、根据步骤S2中可见层传递电脉冲至隐层的方式，隐层在接收到电脉冲后膜内电压被改变，每个隐层中的神经元根据改变后的膜内电压计算其实时放电频率，并根据该实时放电频率以泊松过程发放电脉冲，如果在某个单词呈现的时候，隐层中的表示某个具体主题的神经元发放电脉冲，则表示这个具体主题新分配给了这个单词；S4、根据步骤S3中隐层发放电脉冲的方式，更新注入到这些隐层中的神经元的反馈周边抑制信号；S5、根据步骤S2中可见层发放电脉冲的方式及步骤S3中隐层发放电脉...

【技术特征摘要】
1.一种隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法，其特征在于，包括：S1、构建预设结构的神经网络，所述预设结构的神经网络，包括：两个可见层和一个隐层；所述两个可见层按照一热表示方式分别对单词和文档进行编码，所述隐层按照一热表示方式对主题进行编码，突触从可见层中的每个神经元连结到隐层中的每个神经元；S2、串行地将数据集中的每个单词和每个单词对应的文档逐一呈现给所述神经网络，根据步骤S1中可见层进行编码的方法，表示当前单词的可见层中的神经元和表示当前文档的可见层中的神经元以其实时频率根据泊松过程发放电脉冲，该电脉冲沿着突触连结从可见层传递至隐层；S3、根据步骤S2中可见层传递电脉冲至隐层的方式，隐层在接收到电脉冲后膜内电压被改变，每个隐层中的神经元根据改变后的膜内电压计算其实时放电频率，并根据该实时放电频率以泊松过程发放电脉冲，如果在某个单词呈现的时候，隐层中的表示某个具体主题的神经元发放电脉冲，则表示这个具体主题新分配给了这个单词；S4、根据步骤S3中隐层发放电脉冲的方式，更新注入到这些隐层中的神经元的反馈周边抑制信号；S5、根据步骤S2中可见层发放电脉冲的方式及步骤S3中隐层发放电脉冲的方式，从一个可见层中的神经元到一个隐层中的神经元的突触的连结强度根据这两个神经元发放电脉冲的相对时间差以及该突触当前的连结强度进行更新；S6、S3至S5是并行执行的，执行上述步骤S2至S5处理完数据集中所有文本为一次迭代，重复上述步骤S2至S5，直至迭代次数达到预设值时，停止迭代并从神经网络的参数中提取隐式狄利克雷模型的参数。2.根据权利要求1所述的方法，其特征在于，从对单词进行编码的可见层连结到隐层的权重维护三个矩阵，分别为从对单词进行编码的可见层到隐层的突触的连结强度矩阵、经验一阶矩矩阵和经验二阶矩矩阵；从对文档进行编码的可见层连结到隐层的权重也维护这样三个矩阵，分别为从对文档进行编码的可见层到隐层的突触的连结强度矩阵、经验一阶矩矩阵和经验二阶矩矩阵。3.根据权利要求1所述的方法，其特征在于，所述一热表示方式，包括：在对单词进行编码的可见层中，每个神经元表示一个具体单词，该可见层的神经元数目为词典中的单词数；在对文档进行编码的可见层中，每个神经元表示一个具体文档，该可见层的神经元数目为文档集合中的文档数；在隐层中，每个神经元表示一个具体主题，所述隐层的神经元数目为隐式狄利克雷模型预设的主题数。4.根据权利要求1所述的方法，其特征在于，神经网络中从可见层中的每个神经元到隐层中的每个神经元的突触的连结强度设计，包括：从同一个可见层...

【专利技术属性】
技术研发人员：朱军，萧子豪，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人