基于狄式过程的卡尔曼滤波词向量学习方法技术

技术编号：18763801 阅读：110 留言：0更新日期：2018-08-25 10:29

一种基于狄式过程的卡尔曼滤波词向量学习方法，所述方法包括：对语料进行训练和预处理，生成LDS语言模型系统，对系统参数进行初始化，假设过程噪声满足正态分布，定义聚类θt＝(μt,∑t)，μt为语料库中词t出现的频率，计算θt的狄利克雷先验分布，通过卡尔曼滤波推导和Gibbs抽样估计计算后验分布，利用MCMC抽样算法抽取备选聚类，计算备选聚类的选择概率，并选择所述概率值最高的备选聚类作为θt，计算所述聚类的最小均方误差估计值，将计算结果代入LDS语言模型，通过EM算法训练模型，使模型参数达到稳定，将预处理好的语料输入训练好的LDS语言模型，通过卡尔曼滤波器一步更新公式进行计算隐含向量表示。

全部详细技术资料下载

【技术实现步骤摘要】
基于狄式过程的卡尔曼滤波词向量学习方法
本专利技术涉及自然语言处理领域，具体而言，涉及基于狄式过程的卡尔曼滤波词向量学习方法。
技术介绍
自然语言处理(NLP)相关任务中，要将自然语言交给机器学习中的算法来处理，通常需要首先将语言数学化，因为机器只认数学符号。向量是人把自然界的东西抽象出来交给机器处理的东西，词向量就是用来将语言中的词进行数学化的一种方式。一种最简单的词向量表示方式是One-hotRepresentation，就是用一个很长的向量来表示一个词，向量的长度为词典的大小，向量的分量只有一个1，其他全为0，1的位置对应该词在词典中的位置。但这种词词向量表示有两个缺点：(1)容易受维数灾难的困扰，尤其是将其用于DeepLearning的一些算法时；(2)不能很好地刻画词与词之间的相似性。另一种词向量表示方式是DistributedRepresentation，它最早是Hinton于1986年提出的，可以克服One-hotRepresentation的缺点。其基本原理是：通过训练将某种语言中的每一个词映射成一个固定长度的短向量(这里的“短”是相对于One-hotRepresentation的“长”而言的)，将所有这些向量放在一起形成一个词向量空间，而每一向量则为该空间中的一个点，在这个空间上引入“距离”，则可以根据词之间的距离来判断它们之间(词法、语义上)的相似性。由于文本数据自身的很多特点，例如近义词和多义词现象，因此表示文本数据的特征向量的维度往往较高，但这些高维特征向量未必都对分类有益，反而会导致特征稀疏，带来算法效率的降低甚至分类效果的下降。...

【技术保护点】
1.一种基于狄式过程的卡尔曼滤波词向量学习方法，所述方法包括：对语料进行训练和预处理，生成LDS语言模型系统，对系统参数进行初始化，假设过程噪声满足正态分布，定义聚类θt＝(μt,∑t)，μt为语料库中词t出现的频率，计算θt的狄利克雷先验分布，通过卡尔曼滤波推导和Gibbs抽样估计计算后验分布，利用MCMC抽样算法抽取备选聚类，计算备选聚类的选择概率，并选择所述概率值最高的备选聚类作为θt，计算所述聚类的最小均方误差估计值，将计算结果代入LDS语言模型，通过EM算法训练模型，使模型参数达到稳定，将预处理好的语料输入训练好的LDS语言模型，通过卡尔曼滤波器一步更新公式进行计算隐含向量表示。

【技术特征摘要】
1.一种基于狄式过程的卡尔曼滤波词向量学习方法，所述方法包括：对语料进行训练和预处理，生成LDS语言模型系统，对系统参数进行初始化，假设过程噪声满足正态分布，定义聚类θt＝(μt,∑t)，μt为语料库中词t出现的频率，计算θt的狄利克雷先验分布，通过卡尔曼滤波推导和Gibbs抽样估计计算后验分布，利用MCMC抽样算法抽取备选聚类，计算备选聚类的选择概率，并选择所述概率值最高的备选聚类作为θt，计算所述聚类的最小均方误差估计值，将计算结果代入LDS语言模型，通过EM算法训练模型，使模型参数达到稳定，将预处理好的语料输入训练好的LDS语言模型，通过卡尔曼滤波器一步更新公式进行计算隐含向量表示。2.根据权利要求1所述的方法，其中，LDS语言模型如下：xt＝Axt-1+ηtwt＝Cxt+ξt其中xt表示要学习的词的隐含向量表示，wt表示观测值，ηt和ξt表示系统的过程噪声和测量噪声，A和C表示状态转移矩阵和观测矩阵。3.根据权利要求2所述的方法，其中，θt满足狄利克雷过程先验分布假设，计算θt～G；G～DP(α,G0)，其中符号～代表服从后面的分布，参数G、D、P为狄利克雷分布的表示符号，α为尺度因子，G0表示基础分布，G0＝NIW(μ0,κ0,ν0,Λ0)，μ0,κ0,ν0,Λ0为超参数。4.根据权利要求3所述的方法，其中，所述后验分布的计算公式如下：p(x0:T,θ1:T|w1:T)＝p(x0:T|θ1:T,w1:T)p(θ1:T|w1:T)p(x0:T|θ1:T,w1:T)可以通过卡尔曼滤波推导，p(θ1:T|w1:T)可以通过...

【专利技术属性】
技术研发人员：王磊，翟荣安，刘晶晶，王毓，王飞，于振中，李文兴，
申请(专利权)人：哈工大机器人合肥国际创新研究院，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人