文档表示方法及装置制造方法及图纸

技术编号:19479946 阅读:19 留言:0更新日期:2018-11-17 10:31
本发明专利技术实施例公开了一种文档表示方法及装置,其中,所述方法包括:对文档进行初始化,以得到所述文档的初始向量表示;将所述初始向量输入训练完成后的文档表示模型,所述文档表示模型包括:生成器生成网络,用于根据潜在噪声分布生成模拟噪声数据样本;和判别器神经网络,用于输出输入量是否来自真实数据样本的概率值;根据所述判别器神经网络的隐层输出得到文档表示向量。够使得不同词序的文档拥有不同的文档向量,克服了基于词和话题的模型会丢失词序的不足,其次通过使用两个神经网络相互博弈进而学习到准确的文档特征,从而得到更准确的文档表示。

【技术实现步骤摘要】
文档表示方法及装置
本专利技术涉及计算机
,尤其涉及一种文档表示方法及装置。
技术介绍
近年来,互联网的普及越来越广,人们可以自由的在论坛、微博等平台发表自己的观点,随之而来的是电子化的信息资源呈现爆炸式增长,人们想要从中快速获取到有价值和感兴趣的信息越来越难。而这些信息资源主要分为图像和文本。当前随着深度学习技术的兴起,图像领域的很多问题已经得到很好地解决,如何将深度学习技术应用到自然语言处理领域中是当前的一个研究热点。数据表示是机器学习中的基础工作,数据表示的好坏直接影响到整个机器学习系统的性能,如何将半结构化的文本数据转化为结构化数据是将深度学习技术应用到自然语言处理领域的关键点。文档表示任务是指利用某些手段来将自然语言文档表示成计算机可以识别的向量,是一种无监督学习任务,需要处理的文档通常没有类别标签。在当前的文档分类和聚类任务中,待处理的文档集均是由不同数量的词构成,在进行文档表示时,当前大多数方法是先表示词,再通过某种处理来表示整篇文档,进而会破坏文档内部结构,难以准确捕捉到文档含义。从这些无标签文档中直接提取稳健的、可重用的特征表示的一种方法是训练深度生成模型,这种模型可以学习捕捉原始数据的复杂分布,尽可能完整得保存文档信息,为后续任务奠定基础。传统的文档表示模型以词袋模型和向量空间模型(VectorSpaceModel,VSM)为主,两种模型基于统计方法,未充分考虑考虑语义、句法和词序信息,从而难以准确表示文档。随着神经网络技术的兴起,Mikolov等人提出了word2vec算法以弥补词袋模型的缺陷,通过训练神经网络来得到词向量。上述基于词的模型得到的文档向量失去了词序信息,在表示长文本时难以得到较好的性能。
技术实现思路
本专利技术实施例提供了一种文档表示方法,以解决现有技术中利用现有文档表示模型提取的文档表示模型丢失次序的技术问题。第一方面,本专利技术实施例提供了一种文档表示方法,包括:对文档进行初始化,以得到所述文档的初始向量表示;将所述初始向量输入训练完成后的文档表示模型,所述文档表示模型包括:生成器生成网络,用于根据潜在噪声分布生成模拟噪声数据样本;和判别器神经网络,用于输出输入量是否来自真实数据样本的概率值;根据所述判别器神经网络的隐层输出得到文档表示向量。进一步的,在对文档进行初始化之前,还包括:利用所述生成器神经网络根据潜在噪声分布生成模拟噪声数据样本;将所述模拟噪声数据样本与真实数据输入判别器神经网络;根据输入项和所述判别器的输出项的均方误差调整可学习参数,以实现对判别器的训练。进一步的,所述根据输入项和所述判别器的输出项的均方误差调整可学习参数,包括:利用编码器计算编码器的输出;根据所述编码器计算输出,作为输出项;根据输入项和所述判别器的输出项的均方误差调整可学习参数。进一步的,所述利用编码器计算编码器的输出,包括:利用下述公式计算解码器输出:h=f(Wexc+be),其中,We和be分别是编码器权重和偏置项,均为可学习参数,xc是含有噪声的真实数据,h是编码器的输出,即维度为hd的隐层表示,f是非线性映射函数。进一步的,所述根据所述编码器计算输出,作为输出项,包括:利用下述公式计算解码器输出:y=f(Wdh+bd)其中Wd和bd分别是解码器权重和偏置项,均为可学习参数。进一步的,所述根据输入项和所述判别器的输出项的均方误差调整可学习参数,包括:根据损失函数确定误差;确定可学习参数的更新步长;根据所述更新步长对可学习参数进行调整。进一步的,所述根据损失函数确定误差,包括:利用如下公式计算输入项和所述判别器的输出项的均方误差:其中,x∈{0,1,...,n}L为一篇文档的向量表示,向量中元素的顺序依照词在文档中出现的顺序,L为文档长度,x(i)表示词集中第i个词的唯一编号,y(i)为解码器的输出,V为文档集大小;所述根据损失函数确定误差,包括:利用如下损失函数确定误差:进一步的,所述确定可学习参数的更新步长,包括:利用如下公式计算更新步长:其中gt为损失函数在t时刻关于参数θ的梯度,E[g2]t为t时刻前损失函数关于参数θ的梯度平方的平均值,γ为动量系数,η为学习率。进一步的,在将所述模拟噪声数据样本与真实数据输入判别器神经网络之后,利用编码器计算编码器的输出之前,还包括:对模拟噪声数据样本和真实数据进行加燥;所述利用编码器计算编码器的输出,包括:利用编码器根据加燥后的模拟噪声数据样本和真实数据计算编码器的输出。更进一步的,所述对文档进行初始化,以得到所述文档的初始向量表示,包括:令x∈{0,1,...,n}L为一篇文档的向量表示,向量中元素的顺序依照词在文档中出现的顺序,L为文档长度,x(i)表示词集中第i个词的唯一编号。第二方面,本专利技术实施例还提供了一种文档表示装置,包括:初始化模块,用于对文档进行初始化,以得到所述文档的初始向量表示;输入模块,用于将所述初始向量输入训练完成后的文档表示模型,所述文档表示模型包括:生成器生成网络,用于根据潜在噪声分布生成模拟噪声数据样本;和判别器神经网络,用于输出输入量是否来自真实数据样本的概率值;输出模块,用于根据所述判别器神经网络的隐层输出得到文档表示向量。本专利技术实施例提供的文档表示方法及装置,通过利用训练完成的文档表示模型,可以学习捕捉原始数据的复杂分布,尽可能完整得保存文档信息。能够使得不同词序的文档拥有不同的文档向量,克服了基于词和话题的模型会丢失词序的不足,其次通过使用两个神经网络相互博弈进而学习到准确的文档特征,从而得到更准确的文档表示。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1是本专利技术实施例一提供的文档表示方法的流程示意图;图2是本专利技术实施例二提供的文档表示方法的流程示意图;。图3是本专利技术实施例二提供的文档表示方法中与其他模型PR曲线对比图;图4是本专利技术实施例三提供的文档表示装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的文档表示方法的流程示意图,本实施例可适用于对文档内容进行向量表示的情况,该方法可以由文档表示装置来执行,具体包括如下步骤:S110,对文档进行初始化,以得到所述文档的初始向量表示。文档表示模型可以将非结构化的文本数据转化为结构化数据,是多种自然语言处理任务的基础。文档表示任务是指利用某些手段来将自然语言文档表示成计算机可以识别的向量,是一种无监督学习任务,需要处理的文档通常没有类别标签。在当前的文档分类和聚类任务中,待处理的文档集均是由不同数量的词构成,在进行文档表示时,当前大多数方法是先表示词,再通过某种处理来表示整篇文档,进而会破坏文档内部结构,难以准确捕捉到文档含义。因此,在本实施例中,需要对文档进行初始化,以得到所述文档的初始向量表示。示例性的,可以按照如下方式对文档进行初始化:令x∈{0,1,...,n}L为一篇文档的向量表示,向量中元素的顺序依照词在文档中出现的顺序,L为文档长度,x(i)表示词本文档来自技高网
...

【技术保护点】
1.一种文档表示方法,其特征在于,包括:对文档进行初始化,以得到所述文档的初始向量表示;将所述初始向量输入训练完成后的文档表示模型,所述文档表示模型包括:生成器生成网络,用于根据潜在噪声分布生成模拟噪声数据样本;和判别器神经网络,用于输出输入量是否来自真实数据样本的概率值;根据所述判别器神经网络的隐层输出得到文档表示向量。

【技术特征摘要】
1.一种文档表示方法,其特征在于,包括:对文档进行初始化,以得到所述文档的初始向量表示;将所述初始向量输入训练完成后的文档表示模型,所述文档表示模型包括:生成器生成网络,用于根据潜在噪声分布生成模拟噪声数据样本;和判别器神经网络,用于输出输入量是否来自真实数据样本的概率值;根据所述判别器神经网络的隐层输出得到文档表示向量。2.根据权利要求1所述的方法,其特征在于,在对文档进行初始化之前,还包括:利用所述生成器神经网络根据潜在噪声分布生成模拟噪声数据样本;将所述模拟噪声数据样本与真实数据输入判别器神经网络;根据输入项和所述判别器的输出项的均方误差调整可学习参数,以实现对判别器的训练。3.根据权利要求1所述的方法,其特征在于,所述根据输入项和所述判别器的输出项的均方误差调整可学习参数,包括:利用编码器计算编码器的输出;根据所述解码器计算输出,作为输出项;根据输入项和所述判别器的输出项的均方误差调整可学习参数。4.根据权利要求3所述的方法,其特征在于,所述利用编码器计算编码器的输出,包括:利用下述公式计算编码器输出:h=f(Wexc+be),其中,We和be分别是编码器权重和偏置项,均为可学习参数,xc是含有噪声的真实数据,h是编码器的输出,即维度为hd的隐层表示,f是非线性映射函数。5.根据权利要求3所述的方法,其特征在于,所述根据所述编码器计算输出,作为输出项,包括:利用下述公式计算解码器输出:y=f(Wdh+bd)其中Wd和bd分别是解码器权重和偏置项,均为可学习参数。6.根据权利要求2所述的方法,其特征在于,所述根据输入项和所述判别器的输出项的均方误...

【专利技术属性】
技术研发人员:马永军李亚军汪睿
申请(专利权)人:天津科技大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1