局部话题概率生成正则化自编码文本嵌入表示方法技术

技术编号:18809890 阅读:115 留言:0更新日期:2018-09-01 09:24
本发明专利技术涉及局部话题概率生成正则化自编码文本嵌入表示方法,属于自然语言处理与机器学习领域。本发明专利技术首先实现文本集近邻图的构建,包括计算任意文本词对相似性权重、查找文本对的最大加权匹配距离、计算平均化最大加权匹配距离(NMD)相似度、根据NMD结果选择k最近邻并以NMD结果作为边权构建近邻图;然后通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定;最后利用子空间的LDA模型生成伪文本,并将伪文本作为正则约束项,与真实文本一起作为自编码网络的重构对象,指导编码网络对抗局部近邻文本话题概率生成结构变化,构建光滑的仿射映射。本发明专利技术可以有效保持局部近邻文本话题概率生成结构的光滑性,从而构建光滑的仿射映射函数,增强样本外文本嵌入表示向量的类内紧凑性及类间分离性,提升文本分类、聚类等应用效果。

Generation of regularized self encoded text embedding method based on local topic probability

The invention relates to a regularized self-encoding text embedding representation method for local topic probability generation, which belongs to the field of natural language processing and machine learning. Firstly, the method realizes the construction of the nearest neighbor graph of the text set, including calculating the similarity weight of any text word pair, searching the maximum weighted matching distance of the text pair, calculating the average maximum weighted matching distance (NMD) similarity, selecting the k nearest neighbor according to the NMD result and constructing the nearest neighbor graph with the NMD result as the edge weight. Finally, the pseudo-text is generated by LDA model of subspace, and the pseudo-text is taken as regular constraints, together with the real text as the reconstructed object of the self-encoding network, which directs the coding network against the local nearest neighbor text topic probability generation structure. Change and construct smooth affine mapping. The method can effectively maintain the smoothness of the probabilistic generating structure of local nearest neighbor text topics, thereby constructing a smooth affine mapping function, enhancing the intra-class compactness and inter-class separation of the representation vectors embedded in the text outside the sample, and improving the application effects of text classification and clustering.

【技术实现步骤摘要】
局部话题概率生成正则化自编码文本嵌入表示方法
本专利技术涉及局部话题概率生成正则化自编码文本嵌入表示方法,属于自然语言处理与机器学习领域。
技术介绍
为了更易估计和使用文本语义特征,文本嵌入表示方法可以通过某种特定的仿射映射来构建文本的嵌入表示向量,其广泛应用于涉及文本聚类和信息检索的信息处理系统中。为了通过保持子空间文本话题的概率生成结构的光滑性,构建光滑的仿射映射函数,增强文本嵌入表示向量的局部光滑性,提升文本聚类和分类的效果,本专利技术将提供融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法。现有基于流形学习的文本嵌入表示方法需要解决的基本问题是:如何弥补对于邻域判定十分敏感的缺陷,并有效保持局部近邻文本话题概率生成结构的光滑性。综观现有的基于流形结构特性的文本嵌入表示方法,通常可归为两类:1.基于矩阵因子分解的流形文本嵌入方法矩阵因子分解技术的主要思想是通过将给定的高维观测矩阵拆解为数个矩阵的乘积,从而找到一组转换基向量对文本进行嵌入表示,其中最著名的矩阵分解技术是SVD。现有的主要的方法是:(1)浅层语义索引(LatentSemanticIndexing,LSI)LSI在传统的向量空间模型的基础上发展起来,该方法的基本原理是通过对VSM表征的文本-词语矩阵进行奇异值分解(SVD),并以奇异值最大k个特征向量作为潜在语义空间,构造文本的低维语义表示。LSI在SVD的基础上通过保留最大的k个奇异值(k<r),而丢弃较小的奇异值,就得到k维的潜在语义空间,利用奇异值分解进行反运算,就可以使原矩阵塌陷,找到一个保留潜在语义同时又去除了一定噪声的近似矩阵。图1展示了LSI通过截断奇异值来实现文本降维表示的过程。其中,表示文本词语矩阵,表示文本语义矩阵,表示语义词语矩阵,表示奇异值矩阵。表示利用截断矩阵和Sk经过反运算后得到的近似矩阵。但是该方法奇异值存在负值的情况,使得浅层语义的解释性变差。(2)非负矩阵分解(NMF)该方法能够提升浅层语义的解释性,基本原理是给定一个数据矩阵其中xi是表示每条数据的列向量,然后找到两个非负矩阵和通过这两个矩阵的线性组合可以较好的恢复原始的观测数据,X≈UVT(1)为了衡量这种组合与真实数据的差异,可以利用如下两种形式的损失函数:1)两个矩阵的均方误差(即Frobenius范数),2)两个矩阵的散度,其中,Y=[yij]=UVT。对于一个迭代周期内,参数更新公式如下:对于参数更新公式如下:如果限定K<<M且K<<N,那么U就确定了一个K维的低维空间,该空间以U的每个列向量为基底,而矩阵V的每一行向量就对应着原数据的一个低维表示。虽然NMF改善了LSI中解释性不强的问题,但是非负约束的引入,限制所有操作必须在原始观测空间上执行,导致NMF无法有效的利用核方法的理论研究成果处理非线性数据的降维表示。(3)概念分解(ConceptFactorization,CF)该方法在NMF的基础上,将每个基底向量uk定义为原始数据的非负线性组合,计算公式如下:其中,wjk>0,令CF的目的是求解线性近似问题,X≈UWVT(8)通过计算均方误差来衡量近似精确度,CF模型中参数可以通过以下公式进行迭代式的更新,其中,K=XTX,由于这种乘法规则仅涉及样本的内积操作,所以CF可以比较轻易的利用核方法。2.基于神经网络的流形文本嵌入表示方法(1)基于上下文信息构造文本嵌入表示向量该类方法的代表工作是NNTR,其基本原理是首先将每个词汇进行one-hot编码,每篇文本表示为VSM形式,并将每个词汇与文本组成数据对,作为神经网络的输入,目标输出是二者之间的匹配得分,即如果词汇出现在当前的文本上下文中,那么神经网络就赋予一个较高的得分,反之赋予较低得分。这种做法能够将词汇与上下文之间的依赖关系融入到文本嵌入表示的过程中,相比于VSM等传统模型,可以较好的利用词汇间的语义依赖关系。(2)基于信息重构构造文本嵌入表示向量该类方法的代表工作是AE,且研究方法多基于AE学习框架提出。其中降噪编码网络模型(DAE)的基本原理是将含有噪声的信号作为自编码网络的输入,以初始的清洁信号为重构目标,通过自编码的重构学习实现降噪过程,从而更好的提取数据中的本质特征。收缩编码网络模型(CAE)的基本原理是将隐藏层权重的雅克比矩阵的F范数作为正则项,使得构建的文本嵌入表示向量能够对输入数据一定程度的扰动具有收缩性,进而提升文本聚类和分类的表现。LAE模型的基本原理是在AE的框架中加入图拉普拉斯正则项作为优化目标,能够更好的保持低维嵌入表示向量的局部不变性。HSAE模型的基本原理是将海森正则项与稀疏约束共同惩罚项对编码网络施加影响,使得自编码网络同样具有了捕捉数据集局部不变结构的特性。综上所述,现有基于流形学习的文本嵌入表示方法主要通过保持局部近邻文本的几何结构的光滑性建立仿射映射,这种做法对邻域判定十分敏感,无法有效保持局部近邻文本话题概率生成结构的光滑性,难以有效估计样本外文本的语义特征。所以本专利技术提出融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法。
技术实现思路
本专利技术的目的是为构建针对样本外文本数据的光滑仿射映射以提高文本聚类和分类的效果,提出融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法。本专利技术的设计原理为:首先实现文本集近邻图的构建,包括计算任意文本对词对相似性权重、查找文本对的最大加权匹配距离、计算平均化最大加权匹配距离(NMD)相似度、根据NMD结果选择k最近邻并以NMD结果作为边权构建近邻图;然后通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定;最后利用子空间的LDA模型生成伪文本,并将伪文本作为正则约束项,与真实文本一起作为自编码网络的重构对象,指导编码网络对抗局部近邻文本话题概率生成结构变化,构建光滑的仿射映射。该专利技术的算法原理见图2。本专利技术的技术方案是通过如下步骤实现的:步骤1,构建文本集近邻图。步骤1.1,对任意的文本对计算词对相似性权重。步骤1.2,查找文本对的最大加权匹配距离。步骤1.3,通过平均化最大加权匹配距离(NMD)计算文本相似度。步骤1.4,由NMD结果选择k最近邻并以NMD结果作为边权构建近邻图。步骤2,采用直推式多代理随机游走方法进行子空间判定。步骤2.1,设定惩罚系数,利用给定的文本子集训练SVM分离超平面。步骤2.2,对于每个类别集合记录多代理随机游走结果。步骤2.3,预测每个近邻文本,记录所有满足预测结果与当前点类别一致的文本,保存选择的已经具有标签且类别一致的近邻文本,记录结果。步骤2.4,对于原有集合和步骤2.3的结果矩阵中每一列组合情况执行直推式学习,直到找到一种组合使误差最小,指导每个“代理人”判定“落脚点”。步骤2.5,更新惩罚系数,重新训练SVM分离超平面,并选择非支持向量文本加入到新的标签子集中,重复步骤2.3、2.4、2.5,得到辨识子空间。步骤3,构建仿射映射。步骤3.1,利用LDA对辨识子空间进行话题建模,计算伪文本的词分布。步骤3.2,基于AE正则训练构建光滑仿射映射。有益效果相比于基于矩阵因子分解的流形文本嵌入方法,本专利技术可以有效解决样本外文本嵌入表示问题。相比于基于神经网本文档来自技高网
...

【技术保护点】
1.局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于所述方法包括如下步骤:步骤1,构建文本集近邻图;步骤2,通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定;步骤3,利用子空间的LDA模型生成伪文本,并将伪文本作为正则约束项,与真实文本一起作为自编码网络的重构对象,指导编码网络对抗局部近邻文本话题概率生成结构变化,从而构建光滑的仿射映射,具体包括如下步骤:步骤3.1,利用LDA对

【技术特征摘要】
1.局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于所述方法包括如下步骤:步骤1,构建文本集近邻图;步骤2,通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定;步骤3,利用子空间的LDA模型生成伪文本,并将伪文本作为正则约束项,与真实文本一起作为自编码网络的重构对象,指导编码网络对抗局部近邻文本话题概率生成结构变化,从而构建光滑的仿射映射,具体包括如下步骤:步骤3.1,利用LDA对进行话题建模,并计算伪文本的词分布,伪文本的生成表示为其中θi是关于伪文本的话题分布,是关于特定话题的词分布;步骤3.2,基于AE正则训练构建光滑仿射映射。2.根据权利要求1所述的局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于:步骤1中构建文本集近邻图的具体过程如下:步骤1.1,输入一个包含m篇文本的文本集最近邻数目k值和词嵌入集合步骤1.2,对于任意的文本对(xi,xj),计算词对相似性权重,则δst=max(σ(δ(s))t,σ(δ(t))s);步骤1.3,基于匈牙利算法查找文本对的最大加权配距离;步骤1.4,计算平均最大加权配距离(NMD)相似度,则步骤1.5,根据文本对的NMD结果选择k最近邻并以NMD结果作为边权构建近邻图,得到文本集近邻图G=(X,A)。3.根据权利要求1所述的局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于:步骤2中通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定的具体过程如下:步骤2.1,给定文本集和近邻图,采用增量设置进行子空间划定,从训练集样本中随机选择30%带标签的数据构建初始的分离超平面H0:KwT+b=0,记作Disc-LDE-30%;步骤2.2,对于每个类别集合,记作随机选择一个文本xi作为起始点,记作...

【专利技术属性】
技术研发人员:潘丽敏董思佳罗森林魏超
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1