基于词嵌入的流形主题模型的建模方法技术

技术编号：21658704 阅读：28 留言：0更新日期：2019-07-20 05:39

本发明专利技术涉及自然语言数据处理领域，提出一种基于词嵌入的流形主题模型的建模方法，包括以下步骤：输入文档集D，将文档集D中的词训练成词嵌入xdn，将所有词嵌入xdn进行归一化处理，并初始化先验参数m,σ

Modeling Method of Manifold Topic Model Based on Word Embedding

全部详细技术资料下载

【技术实现步骤摘要】
基于词嵌入的流形主题模型的建模方法
本专利技术涉及自然语言数据处理领域，更具体地，涉及一种基于词嵌入的流形主题模型的建模方法。
技术介绍
主题模型是文本聚类技术中的一种，一般用于自动提取文本的特征以及发掘文本中潜在的语义。主题模型将文本语料的词分配到有限多个主题-词分布，并且求得每个文本的文档-主题概率分布，使文本具有更好的解释性。如LDA模型能够很好的处理传统方法无法解决的多义词和同义词等问题，有很好的解释性。但是由于LDA模型分布使用的是多项式分布，因此无法处理未录入词，且LDA模型还存在主题连贯性表现不能够满足文本聚类的要求等问题。现有技术中，一般引入对词嵌入的分析，通过神经网络训练，将每个是离散变量的词训练成连续变量，即每个词都由一个向量表示，由于词嵌入的每个维度都刻画了词本身的特征属性，于是词嵌入能够很好地表达词语的语义。如Gaussian主题模型通过将原本在离散空间的主题-词的多项式分布，变为连续空间的多元高斯分布，能够处理未录入词，并在主题连贯性上表现良好。然而，Gaussian主题模型将词嵌入表示为欧几里得空间中的向量，在实际应用中会很大程度地丢失了数据的结构信息，如取三个区别较大的词，通过后两个词分别与第一个词计算余弦距离，有可能出现余弦距离完全相等的情况，因此在实际应用中不适合将词嵌入视为欧几里得向量。
技术实现思路
本专利技术为克服上述现有技术所述的无法处理未录入词、主题连贯性表现差、数据结构信息丢失的缺陷，提供一种基于词嵌入的流形主题模型的建模方法，能够在流形空间中更好地发现词嵌入的结构信息。为解决上述技术问题，本专利技术的技术方案如下...

【技术保护点】
1.基于词嵌入的流形主题模型建模方法，其特征在于，包括以下步骤：S1：输入文档集D，将文档集D中的词训练成词嵌入xdn，将所有词嵌入xdn进行归一化处理，并初始化先验参数m,σ

【技术特征摘要】
1.基于词嵌入的流形主题模型建模方法，其特征在于，包括以下步骤：S1：输入文档集D，将文档集D中的词训练成词嵌入xdn，将所有词嵌入xdn进行归一化处理，并初始化先验参数m,σ2,μ0,C0,α；其中xdn表示第d∈{1,...,D}个文档中的第n∈{1,...,Nd}个词嵌入，Nd为第d个文档的词嵌入数量；m,σ2为对数正态分布的参数，m为均值，σ2为方差；μ0,C0为vMF分布的参数，μ0为有方向单位均值向量，C0为常数密集度；α为狄利克雷分布的超参数；S2：根据当前的先验参数计算文本中每个词嵌入xdn通过对数正态分布生成主题-词分布的密集度κ，通过vMF分布生成主题-词分布的均值向量μ，以及通过狄利克雷分布生成文档-主题分布πd，然后求出文本中每个词嵌入xdn的主题zdn；S3：执行EM算法的E步，更新变分近似分布q的变分参数λd,ψ,γ,ρ；其中λd为近似文档-主题分布的参数；ψ,γ为vMF分布的参数，ψ为有方向单位均值向量，γ为密集度；ρ为近似狄利克雷分布超参数；S4：执行EM算法的M步，通过变分参数更新先验参数，并根据完成更新的先验参数更新文本中每个词嵌入xdn的主题zdn；S5：计算变分下界vLB，判断vLB是否达到最大值，若是，则输出所有词嵌入xdn的主题zdn；若否，则跳转至步骤S2。2.根据权利要求1所述的基于词嵌入的流形主题模型建模方法，其特征在于：所述步骤S1的具体步骤如下：S1.1：输入文档集D，对文档集D进行分词并训练成词嵌入xdn，然后对每个词嵌入xdn分配主题编号k，其中k为正整数；S1.2：将所有词嵌入xdn进行归一化处理；S1.3：初始化先验参数m,σ2,μ0,C0,α。3.根据权利要求2所述的基于词嵌入的流形主题模型建模方法，其特征在于：所述步骤S1.1中，通过word2vec将文档集D中的词训练成词嵌入xdn。4.根据权利要求2所述的基于词嵌入的流形主题模型建模方法，其特征在于：所述步骤S2中的主题zdn的计算公式如下：其中，zdn表示第d个文档中的第n...

【专利技术属性】
技术研发人员：谭北海，许振豪，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人