基于词嵌入的流形主题模型的建模方法技术

技术编号:21658704 阅读:28 留言:0更新日期:2019-07-20 05:39
本发明专利技术涉及自然语言数据处理领域,提出一种基于词嵌入的流形主题模型的建模方法,包括以下步骤:输入文档集D,将文档集D中的词训练成词嵌入xdn,将所有词嵌入xdn进行归一化处理,并初始化先验参数m,σ

Modeling Method of Manifold Topic Model Based on Word Embedding

【技术实现步骤摘要】
基于词嵌入的流形主题模型的建模方法
本专利技术涉及自然语言数据处理领域,更具体地,涉及一种基于词嵌入的流形主题模型的建模方法。
技术介绍
主题模型是文本聚类技术中的一种,一般用于自动提取文本的特征以及发掘文本中潜在的语义。主题模型将文本语料的词分配到有限多个主题-词分布,并且求得每个文本的文档-主题概率分布,使文本具有更好的解释性。如LDA模型能够很好的处理传统方法无法解决的多义词和同义词等问题,有很好的解释性。但是由于LDA模型分布使用的是多项式分布,因此无法处理未录入词,且LDA模型还存在主题连贯性表现不能够满足文本聚类的要求等问题。现有技术中,一般引入对词嵌入的分析,通过神经网络训练,将每个是离散变量的词训练成连续变量,即每个词都由一个向量表示,由于词嵌入的每个维度都刻画了词本身的特征属性,于是词嵌入能够很好地表达词语的语义。如Gaussian主题模型通过将原本在离散空间的主题-词的多项式分布,变为连续空间的多元高斯分布,能够处理未录入词,并在主题连贯性上表现良好。然而,Gaussian主题模型将词嵌入表示为欧几里得空间中的向量,在实际应用中会很大程度地丢失了数据的结构信息,如取三个区别较大的词,通过后两个词分别与第一个词计算余弦距离,有可能出现余弦距离完全相等的情况,因此在实际应用中不适合将词嵌入视为欧几里得向量。
技术实现思路
本专利技术为克服上述现有技术所述的无法处理未录入词、主题连贯性表现差、数据结构信息丢失的缺陷,提供一种基于词嵌入的流形主题模型的建模方法,能够在流形空间中更好地发现词嵌入的结构信息。为解决上述技术问题,本专利技术的技术方案如下:基于词嵌入的流形主题模型建模方法,包括以下步骤:S1:输入文档集D,将文档集D中的词训练成词嵌入xdn,将所有词嵌入xdn进行归一化处理,并初始化先验参数m,σ2,μ0,C0,α;其中xdn表示第d∈{1,...,D}个文档中的第n∈{1,...,Nd}个词嵌入,Nd为第d个文档的词嵌入数量;m,σ2为对数正态分布的参数,m为均值,σ2为方差;μ0,C0为vMF分布的参数,μ0为有方向单位均值向量,C0为常数密集度;α为狄利克雷分布的超参数;S2:根据当前的先验参数计算文本中每个词嵌入xdn通过对数正态分布生成主题-词分布的密集度κ,通过vMF分布生成主题-词分布的均值向量μ,以及通过狄利克雷分布生成文档-主题分布πd,然后求出文本中每个词嵌入xdn的主题zdn;S3:执行EM算法的E步,更新变分近似分布q的变分参数λd,ψ,γ,ρ;其中λd为近似文档-主题分布的参数;ψ,γ为vMF分布的参数,ψ为有方向单位均值向量,γ为密集度;ρ为近似狄利克雷分布超参数;S4:执行EM算法的M步,通过变分参数更新先验参数,并根据完成更新的先验参数更新文本中每个词嵌入xdn的主题zdn;S5:计算变分下界vLB,判断vLB是否达到最大值,若是,则输出所有词嵌入xdn的主题zdn;若否,则跳转至步骤S2。本技术方案中,通过采用vMF分布来描述作为有向向量的词嵌入在流形空间中的分布情况,使模型在流形空间中更好地捕捉词嵌入的结构信息。在模型建立的核心过程中,通过引入近似分布使其与原始分布最相似,再通过EM算法来保证两种分布能够越来越相似,其中首先在E步的计算过程中使用近似于原始参数的先验参数去寻找变分参数的最优解,然后在M步的计算过程中将已获得的变分参数去极大估计先验参数,从而进一步最大化模型的vLB下界,最后通过判断vLB是否达到最大值来衡量变分分布是否最接近于原始分布,从而大幅度地减少模型对参数求解的计算复杂度,最终使模型能够在流形空间的大量数据中,提高文本聚类的效率,以及提高自然语言的处理效率。优选地,步骤S1的具体步骤如下:S1.1:输入文档集D,对文档集D进行分词并训练成词嵌入xdn,然后对每个词嵌入xdn分配主题编号k,其中k为正整数;S1.2:将所有词嵌入xdn进行归一化处理;S1.3:初始化先验参数m,σ2,μ0,C0,α。优选地,步骤S1.1中,通过word2vec将文档集D中的词训练成词嵌入xdn。优选地,步骤S2中的主题zdn的计算公式如下:其中,zdn表示第d个文档中的第n个词嵌入的主题,μk表示第k个主题编号的词嵌入通过vMF分布生成主题-词分布的均值向量,κk表示第k个主题编号的词嵌入通过对数正态分布生成主题-词分布的密集度,pvMF(·)为vMF分布的分布密度函数,p(zdn|πd)表示文档-主题的多项式分布概率函数。优选地,vMF分布的分布密度的计算公式如下:其中,x为一个d维的随机单位向量,且有x∈Sd-1,S表示流形空间,||x||=1,d≥2,||μ||=1,κ≥0;cd(κ)为归一化常数,Ir(.)表示Bessel函数。优选地,步骤S3的具体步骤包括:S3.1:执行EM算法的E步,将已知先验参数代入由变分推断的变分参数更新公式,更新变分近似分布q的变分参数λdk,ψk,γk:其中,λdk表示第d个文档中主题编号为k的概率分量,Eq(.)表示变分近似分布q;Rk为未归一化的后验均值向量,用于更新主题编号为k的变分参数ψk和γk;S3.2:计算变分近似分布q的主题编号为k的变分参数其中I(zdn=k)用于判断词嵌入xdn对应的主题zdn是否为主题k,若是则为1,若否则为0,αdk为第d个文档中维度为k的狄利克雷分布Dir(α)的超参数。优选地,步骤S4中,执行EM算法的M步,求得最大似然函数,并将变分参数λd,ψk,γk,ρ对应赋值给先验参数πd,μ0,C0,α,即完成先验参数的更新。优选地,步骤S5中计算变分下界vLB的公式如下:vLB=Eq(logP(X,Z,π,u,κ|m,σ2,πd,μ0,C0,α))-Eq(logq(Z,π,μ|λd,ψk,γk,ρ))其中,X表示词嵌入xdn的集合,Z表示主题zdn的集合。与现有技术相比,本专利技术技术方案的有益效果是:能够在流形空间中更好地捕捉词嵌入的结构信息,很大程度上降低了参数求解的计算复杂度,使模型在海量数据度提高文本聚类的效率,且可应用于未录入词的处理,有效提高主题连贯性变现,有效避免数据结构信息丢失的问题。附图说明图1为本实施例的基于词嵌入的流形主题模型建模方法的流程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。如图1所示,为本实施例的基于词嵌入的流形主题模型建模方法的流程图。S1:输入文档集D,将文档集D中的词训练成词嵌入xdn,将所有词嵌入xdn进行归一化处理,并初始化先验参数m,σ2,μ0,C0,α。本步骤的具体步骤如下:S1.1:输入文档集D,对文档集D进行分词并通过word2vec将文档集D中的词训练成词嵌入xdn,然后对每个词嵌入xdn分配主题编号k,其中k为正整数;S1.2:将所有词嵌入xdn进行归一化处理;S1.3:初始化先验参数m,σ2,μ0,C0,α。其中xdn表示第d∈{1,...,D}个文档中的第n∈{1,...,Nd}个词嵌入,Nd为第本文档来自技高网...

【技术保护点】
1.基于词嵌入的流形主题模型建模方法,其特征在于,包括以下步骤:S1:输入文档集D,将文档集D中的词训练成词嵌入xdn,将所有词嵌入xdn进行归一化处理,并初始化先验参数m,σ

【技术特征摘要】
1.基于词嵌入的流形主题模型建模方法,其特征在于,包括以下步骤:S1:输入文档集D,将文档集D中的词训练成词嵌入xdn,将所有词嵌入xdn进行归一化处理,并初始化先验参数m,σ2,μ0,C0,α;其中xdn表示第d∈{1,...,D}个文档中的第n∈{1,...,Nd}个词嵌入,Nd为第d个文档的词嵌入数量;m,σ2为对数正态分布的参数,m为均值,σ2为方差;μ0,C0为vMF分布的参数,μ0为有方向单位均值向量,C0为常数密集度;α为狄利克雷分布的超参数;S2:根据当前的先验参数计算文本中每个词嵌入xdn通过对数正态分布生成主题-词分布的密集度κ,通过vMF分布生成主题-词分布的均值向量μ,以及通过狄利克雷分布生成文档-主题分布πd,然后求出文本中每个词嵌入xdn的主题zdn;S3:执行EM算法的E步,更新变分近似分布q的变分参数λd,ψ,γ,ρ;其中λd为近似文档-主题分布的参数;ψ,γ为vMF分布的参数,ψ为有方向单位均值向量,γ为密集度;ρ为近似狄利克雷分布超参数;S4:执行EM算法的M步,通过变分参数更新先验参数,并根据完成更新的先验参数更新文本中每个词嵌入xdn的主题zdn;S5:计算变分下界vLB,判断vLB是否达到最大值,若是,则输出所有词嵌入xdn的主题zdn;若否,则跳转至步骤S2。2.根据权利要求1所述的基于词嵌入的流形主题模型建模方法,其特征在于:所述步骤S1的具体步骤如下:S1.1:输入文档集D,对文档集D进行分词并训练成词嵌入xdn,然后对每个词嵌入xdn分配主题编号k,其中k为正整数;S1.2:将所有词嵌入xdn进行归一化处理;S1.3:初始化先验参数m,σ2,μ0,C0,α。3.根据权利要求2所述的基于词嵌入的流形主题模型建模方法,其特征在于:所述步骤S1.1中,通过word2vec将文档集D中的词训练成词嵌入xdn。4.根据权利要求2所述的基于词嵌入的流形主题模型建模方法,其特征在于:所述步骤S2中的主题zdn的计算公式如下:其中,zdn表示第d个文档中的第n...

【专利技术属性】
技术研发人员:谭北海许振豪
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1