The invention relates to a regularized self-encoding text embedding representation method for local topic probability generation, which belongs to the field of natural language processing and machine learning. Firstly, the method realizes the construction of the nearest neighbor graph of the text set, including calculating the similarity weight of any text word pair, searching the maximum weighted matching distance of the text pair, calculating the average maximum weighted matching distance (NMD) similarity, selecting the k nearest neighbor according to the NMD result and constructing the nearest neighbor graph with the NMD result as the edge weight. Finally, the pseudo-text is generated by LDA model of subspace, and the pseudo-text is taken as regular constraints, together with the real text as the reconstructed object of the self-encoding network, which directs the coding network against the local nearest neighbor text topic probability generation structure. Change and construct smooth affine mapping. The method can effectively maintain the smoothness of the probabilistic generating structure of local nearest neighbor text topics, thereby constructing a smooth affine mapping function, enhancing the intra-class compactness and inter-class separation of the representation vectors embedded in the text outside the sample, and improving the application effects of text classification and clustering.
【技术实现步骤摘要】
局部话题概率生成正则化自编码文本嵌入表示方法
本专利技术涉及局部话题概率生成正则化自编码文本嵌入表示方法,属于自然语言处理与机器学习领域。
技术介绍
为了更易估计和使用文本语义特征,文本嵌入表示方法可以通过某种特定的仿射映射来构建文本的嵌入表示向量,其广泛应用于涉及文本聚类和信息检索的信息处理系统中。为了通过保持子空间文本话题的概率生成结构的光滑性,构建光滑的仿射映射函数,增强文本嵌入表示向量的局部光滑性,提升文本聚类和分类的效果,本专利技术将提供融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法。现有基于流形学习的文本嵌入表示方法需要解决的基本问题是:如何弥补对于邻域判定十分敏感的缺陷,并有效保持局部近邻文本话题概率生成结构的光滑性。综观现有的基于流形结构特性的文本嵌入表示方法,通常可归为两类:1.基于矩阵因子分解的流形文本嵌入方法矩阵因子分解技术的主要思想是通过将给定的高维观测矩阵拆解为数个矩阵的乘积,从而找到一组转换基向量对文本进行嵌入表示,其中最著名的矩阵分解技术是SVD。现有的主要的方法是:(1)浅层语义索引(LatentSemanticIndexing,LSI)LSI在传统的向量空间模型的基础上发展起来,该方法的基本原理是通过对VSM表征的文本-词语矩阵进行奇异值分解(SVD),并以奇异值最大k个特征向量作为潜在语义空间,构造文本的低维语义表示。LSI在SVD的基础上通过保留最大的k个奇异值(k<r),而丢弃较小的奇异值,就得到k维的潜在语义空间,利用奇异值分解进行反运算,就可以使原矩阵塌陷,找到一个保留潜在语义同时又去 ...
【技术保护点】
1.局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于所述方法包括如下步骤:步骤1,构建文本集近邻图;步骤2,通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定;步骤3,利用子空间的LDA模型生成伪文本,并将伪文本作为正则约束项,与真实文本一起作为自编码网络的重构对象,指导编码网络对抗局部近邻文本话题概率生成结构变化,从而构建光滑的仿射映射,具体包括如下步骤:步骤3.1,利用LDA对
【技术特征摘要】
1.局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于所述方法包括如下步骤:步骤1,构建文本集近邻图;步骤2,通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定;步骤3,利用子空间的LDA模型生成伪文本,并将伪文本作为正则约束项,与真实文本一起作为自编码网络的重构对象,指导编码网络对抗局部近邻文本话题概率生成结构变化,从而构建光滑的仿射映射,具体包括如下步骤:步骤3.1,利用LDA对进行话题建模,并计算伪文本的词分布,伪文本的生成表示为其中θi是关于伪文本的话题分布,是关于特定话题的词分布;步骤3.2,基于AE正则训练构建光滑仿射映射。2.根据权利要求1所述的局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于:步骤1中构建文本集近邻图的具体过程如下:步骤1.1,输入一个包含m篇文本的文本集最近邻数目k值和词嵌入集合步骤1.2,对于任意的文本对(xi,xj),计算词对相似性权重,则δst=max(σ(δ(s))t,σ(δ(t))s);步骤1.3,基于匈牙利算法查找文本对的最大加权配距离;步骤1.4,计算平均最大加权配距离(NMD)相似度,则步骤1.5,根据文本对的NMD结果选择k最近邻并以NMD结果作为边权构建近邻图,得到文本集近邻图G=(X,A)。3.根据权利要求1所述的局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于:步骤2中通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定的具体过程如下:步骤2.1,给定文本集和近邻图,采用增量设置进行子空间划定,从训练集样本中随机选择30%带标签的数据构建初始的分离超平面H0:KwT+b=0,记作Disc-LDE-30%;步骤2.2,对于每个类别集合,记作随机选择一个文本xi作为起始点,记作...
【专利技术属性】
技术研发人员:潘丽敏,董思佳,罗森林,魏超,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。