文档表示方法及装置制造方法及图纸

技术编号:19479946 阅读:33 留言:0更新日期:2018-11-17 10:31
本发明专利技术实施例公开了一种文档表示方法及装置,其中,所述方法包括:对文档进行初始化,以得到所述文档的初始向量表示;将所述初始向量输入训练完成后的文档表示模型,所述文档表示模型包括:生成器生成网络,用于根据潜在噪声分布生成模拟噪声数据样本;和判别器神经网络,用于输出输入量是否来自真实数据样本的概率值;根据所述判别器神经网络的隐层输出得到文档表示向量。够使得不同词序的文档拥有不同的文档向量,克服了基于词和话题的模型会丢失词序的不足,其次通过使用两个神经网络相互博弈进而学习到准确的文档特征,从而得到更准确的文档表示。

【技术实现步骤摘要】
文档表示方法及装置
本专利技术涉及计算机
,尤其涉及一种文档表示方法及装置。
技术介绍
近年来,互联网的普及越来越广,人们可以自由的在论坛、微博等平台发表自己的观点,随之而来的是电子化的信息资源呈现爆炸式增长,人们想要从中快速获取到有价值和感兴趣的信息越来越难。而这些信息资源主要分为图像和文本。当前随着深度学习技术的兴起,图像领域的很多问题已经得到很好地解决,如何将深度学习技术应用到自然语言处理领域中是当前的一个研究热点。数据表示是机器学习中的基础工作,数据表示的好坏直接影响到整个机器学习系统的性能,如何将半结构化的文本数据转化为结构化数据是将深度学习技术应用到自然语言处理领域的关键点。文档表示任务是指利用某些手段来将自然语言文档表示成计算机可以识别的向量,是一种无监督学习任务,需要处理的文档通常没有类别标签。在当前的文档分类和聚类任务中,待处理的文档集均是由不同数量的词构成,在进行文档表示时,当前大多数方法是先表示词,再通过某种处理来表示整篇文档,进而会破坏文档内部结构,难以准确捕捉到文档含义。从这些无标签文档中直接提取稳健的、可重用的特征表示的一种方法是训练深度生成模型,这本文档来自技高网...

【技术保护点】
1.一种文档表示方法,其特征在于,包括:对文档进行初始化,以得到所述文档的初始向量表示;将所述初始向量输入训练完成后的文档表示模型,所述文档表示模型包括:生成器生成网络,用于根据潜在噪声分布生成模拟噪声数据样本;和判别器神经网络,用于输出输入量是否来自真实数据样本的概率值;根据所述判别器神经网络的隐层输出得到文档表示向量。

【技术特征摘要】
1.一种文档表示方法,其特征在于,包括:对文档进行初始化,以得到所述文档的初始向量表示;将所述初始向量输入训练完成后的文档表示模型,所述文档表示模型包括:生成器生成网络,用于根据潜在噪声分布生成模拟噪声数据样本;和判别器神经网络,用于输出输入量是否来自真实数据样本的概率值;根据所述判别器神经网络的隐层输出得到文档表示向量。2.根据权利要求1所述的方法,其特征在于,在对文档进行初始化之前,还包括:利用所述生成器神经网络根据潜在噪声分布生成模拟噪声数据样本;将所述模拟噪声数据样本与真实数据输入判别器神经网络;根据输入项和所述判别器的输出项的均方误差调整可学习参数,以实现对判别器的训练。3.根据权利要求1所述的方法,其特征在于,所述根据输入项和所述判别器的输出项的均方误差调整可学习参数,包括:利用编码器计算编码器的输出;根据所述解码器计算输出,作为输出项;根据输入项和所述判别器的输出项的均方误差调整可学习参数。4.根据权利要求3所述的方法,其特征在于,所述利用编码器计算编码器的输出,包括:利用下述公式计算编码器输出:h=f(Wexc+be),其中,We和be分别是编码器权重和偏置项,均为可学习参数,xc是含有噪声的真实数据,h是编码器的输出,即维度为hd的隐层表示,f是非线性映射函数。5.根据权利要求3所述的方法,其特征在于,所述根据所述编码器计算输出,作为输出项,包括:利用下述公式计算解码器输出:y=f(Wdh+bd)其中Wd和bd分别是解码器权重和偏置项,均为可学习参数。6.根据权利要求2所述的方法,其特征在于,所述根据输入项和所述判别器的输出项的均方误...

【专利技术属性】
技术研发人员:马永军李亚军汪睿
申请(专利权)人:天津科技大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1