本发明专利技术属于计算机自然语言处理技术领域,具体为一种基于深度学习的上下文感知的动态词或字向量的构建及使用方法。基于深度学习的上下文感知的词或字向量动态构造方法包括:从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示,结合全局特征向量和上下文特征向量动态地产生词或字向量表示。本发明专利技术还根据上下文动态构造词或字向量应用于自然语言处理系统。本发明专利技术主要用于解决词或字在不同上下文下表示不同意思的问题,即一词或一字多义的问题。使用动态词或字向量可以明显地提高不同语言的各种自然语言处理任务的性能,比如:中文分词、词性标注、命名识别、语法分析、语义角色标注、情感分析、文本分类、机器翻译等。
【技术实现步骤摘要】
本专利技术属于计算机自然语言处理
,具体涉及动态词或字向量构建及使用方法。
技术介绍
近年来,深度学习使近期人工智能研究取得突破性的进展,它结束了人工智能长达十多年未能有突破性进展的局面,并迅速在工业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统(面向特定任务的功能模拟),作为通用的人工智能技术,可以应对各种情况和问题,已在图像识别、语音识别等领域得到极其成功的应用,在自然语言处理领域(主要是英文)也取得成效。深度学习是目前实现人工智能最有效、也是取得成效最大的实施方法。目前性能表现较好的深度学习系统一般都使用半监督的学习方式来训练其模型,即采用无监督的预训练和有监督的参数调整。在自然语言处理中,从海量文本中学习体现词或字的语义和语法特征的向量表示是最重要的预训练,以训练得到的词或字的向量表示作为深度神经网络的初值有利于避免在后续有监督的训练中陷入较劣的局部最优值。本专利技术公开了一种根据上下文动态构建词或字的向量表示的方法,主要用于解决词或字在不同上下文下表示不同意思的问题,即一词或一字多义的问题。该方法不需要进行计算复杂性高、且准确度低的词或字的义项消岐,并且能够明显地提高不同语言的各种自然语言处理任务的性能,比如:中文分词、词性标注、命名识别、语法分析、文本分类、、情感分析、语义角色标注、机器翻译等。
技术实现思路
本专利技术提供一种基于深度学习的上下文感知的动态词或字向量的构建及使用方法,目的在于解决词或字在不同上下文下表示不同意思的问题,即一词或一字多义的问题(比如英文中的词和汉语中的字)。动态词或字的向量表示方法可以用于需将词或字转化成相应的向量表示,并且以这些向量表示作为输入的自然语言处理系统,特别适用于基于深度学习技术所研发的自然语言处理系统。本专利技术方法的优点在于,可以根据词或字所出现的上下文信息动态构建能够表征在该上下文中的语义和语法功能的向量表示,在提高使用动态词或字向量的自然语言系统性能的同时,避免了计算复杂性高、且准确性较低的词或字的义项消岐问题。本专利技术提供的基于深度学习的上下文感知的动态词或字向量的构建方法,是采用计算机根据上下文动态构造词或字的特征向量表示,具体步骤如下:(1)首先,从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;(2)然后,根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;具体介绍如下:(一)从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示所使用的神经网络,其结构如图1所示,其中,目标词或字的周围上下文词或字的向量拼接成上下文特征矩阵;由单维卷积从上下文特征矩阵产生词或字的上下文特征向量;由Logistic回归方法让该上下文特征向量将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来。一个词或字的语义一般与其周围词或字最为相关,因而网络采用窗口模型,即在产生当前词或字的上下文表示向量时,将这个词或字的周围的若干个词或字作为输入。如果窗口大小设置成11,则表示将这个词或字左边和右边各五个词或字作为输入窗口。如果左边和右边的词或字的数量不足于窗口规定的大小,则使用特殊的填充符代替。在使用神经网络训练时,每一个词或字对应到两个向量,一个称为普通特征向量,用于通过卷积神经网络产生目标词或字(中心词或字)的上下文表示向量,普通特征向量将作为神经网络(图1)的输入向量;另一个称为全局特征向量,用作目标词或字的代表向量。对于每一个输入句子中某个窗口上下文,窗口中的词或字(除了位于中间的目标词或字外)以它们的普通特征向量表示,并且拼接成上下文特征矩阵,特征矩阵的列数为窗口大小减一,每一列为对应词或字的普通特征向量。然后对特征矩阵进行单维卷积运算,单维卷积是指对于特征矩阵每一行向量点积相应的参数向量(即卷积核),不同行向量进行点积操作时使用不同的卷积核。在单维卷积的作用下,特征矩阵转换成与词或字向量维度相同的向量,该向量表示可以看成是目标词或字所在上下文的特征表示。获得某个上下文的特征向量表示之后,采用Logistic回归方法让该上下文特征向量能够将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来。如图1所示的神经网络的训练目标为:在给定上下文的情况下,目标词或字出现的条件概率最大,即训练的目标函数是:(公式1)其中:D为特定语言的词典或字典,包括该语言所需训练的词或字;Ct是目标词或字t在训练集中可能出现的所有上下文;θ表示神经网络的所有参数,包括单维卷积的权重、词或字的普通特征向量和全局特征向量。公式1中的概率Pθ(t|c)可以使用Logistic回归分解成对于目标和非目标词或字的形式:(公式2)其中:v(c)是通过单维卷积网络产生的目标词或字的当前上下文特征表示;s(x)为词或字x的全局特征向量表示;neg(t)是根据出现频率通过随机采样从词典或字典中挑选的一组非目标词或字,作为训练的负样本;ϕ表示Sigmoid非线性函数。采用梯度下降法来最小化负的目标函数,训练过程中所有参数会被迭代更新,包括单维卷积的权重、词或字的普通特征向量和全局特征向量。上述词或字的全局特征向量及其上下文特征向量表示的无监督协同学习方法的特点在于:(1)采用单维卷积来产生文本窗口的上下文语义特征表示,减少了网络模型的参数数量,加快了词或字向量的训练和使用时间;(2)每个词或字对应到两个向量,一个称为普通特征向量,用于通过卷积神经网络产生目标词或字(中心词或字)的上下文表示向量;另一个称为全局特征向量,用于目标词或字的代表向量。这两个向量也可以设置成相同;(3)在训练过程中同时训练词或字的特征向量以及其出现的上下文表示向量;(4)适宜的使用字或词向量的维度为50~300,窗口大小为5至11的单数,非线性层的函数为Sigmoid的网络配置。(二)根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;一个词或字的语义会受到其出现的上下文的影响,特别一个词或字有多个义项时(即一词或一字多义)。上下文感知的动态产生词或字的向量表示的方法如下:f(x,c)=(1−α)s(x)+αv(c)(公式3)其中:x表示句子中的每一个当前词或字;c表示当前词或字的上下文(即窗口中除当前词或字外的若干个词或字);s(x)为当前词或字的全局特征向量表示;v(c)则是上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示;α为加权系数,表示在产生动态词或字向量表示时,两个组成向量之间的比重关系。使用公式3来产生上下文感知的动态词或字的向量的原理是:词或字出现在特定上下文时,其全局特征向量表示由于受到当前上下文的影响,将向当前上下文的特征向量偏移,以反映当前上下文的影响。上述结合全局特征向量和上下文特征向量动态产生词或字向量表示方法的特点在于:(1)采用词或字全局特征向量和特定上下文特征向量的加权平均来动态产生上下文感知的词或字的向量,以反映当前上下文对词或字表义的影响;(2)使用上下文窗口中的词或字的普通特征向量通过单维卷本文档来自技高网...
【技术保护点】
一种基于深度学习的上下文感知的动态词或字向量的构建方法,是采用计算机根据上下文动态构造词或字的特征向量表示,其特征在于,具体步骤如下:(1)首先,从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;(2)然后,根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;分别介绍如下:(一)从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示所使用的神经网络,其中,将目标词或字的周围上下文词或字的向量拼接成上下文特征矩阵,采用单维卷积从上下文特征矩阵产生词或字的上下文特征向量,然后采用Logistic回归方法让该上下文特征向量将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来;一个词或字的语义一般与其周围词或字最为相关,因而网络采用窗口模型,即在产生当前词或字的上下文表示向量时,将这个词或字的周围的若干个词或字作为输入;在使用神经网络训练时,每一个词或字对应到两个向量,一个称为普通特征向量,用于通过卷积神经网络产生目标词或字的上下文表示向量,普通特征向量将作为神经网络的输入向量;另一个称为全局特征向量,用作目标词或字的代表向量;对于每一个输入句子中某个窗口上下文,窗口中的词或字,以它们的普通特征向量表示,并且拼接成上下文特征矩阵,特征矩阵的列数为窗口大小减一,每一列为对应词或字的普通特征向量;然后对特征矩阵进行单维卷积运算,单维卷积是指对于特征矩阵每一行向量点积相应的参数向量即卷积核,不同行向量进行点积操作时使用不同的卷积核;在单维卷积的作用下,特征矩阵转换成与词或字向量维度相同的向量,该向量表示可以看成是目标词或字所在上下文的特征表示;获得某个上下文的特征向量表示之后,采用Logistic回归方法让该上下文特征向量能够将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来;神经网络的训练目标为:在给定上下文的情况下,目标词或字出现的条件概率最大,即训练的目标函数是:(公式1)其中:D为特定语言的词典或字典,包括该语言所需训练的词或字;Ct是目标词或字t在训练集中可能出现的所有上下文;θ表示神经网络的所有参数,包括单维卷积的权重、词或字的普通特征向量和全局特征向量;公式1中的概率Pθ(t|c)使用Logistic回归分解成对于目标和非目标词或字的形式:(公式2)其中:v(c)是通过单维卷积网络产生的目标词或字的当前上下文特征表示;s(x)为词或字x的全局特征向量表示;neg(t)是根据出现频率通过随机采样从词典或字典中挑选的一组非目标词或字,作为训练的负样本;ϕ表示Sigmoid非线性函数;采用梯度下降法最小化负的目标函数,训练过程中所有参数会被迭代更新,包括单维卷积的权重、词或字的普通特征向量和全局特征向量;(二)根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;上下文感知的动态产生词或字的向量表示的方法如下:f(x, c) = (1 − α) s(x) +αv(c) (公式3)其中:x表示句子中的每一个当前词或字;c表示当前词或字的上下文(即窗口中除当前词或字外的若干个词或字);s(x)为当前词或字的全局特征向量表示;v(c)则是上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示;α为加权系数,表示在产生动态词或字向量表示时,两个组成向量之间的比重关系。...
【技术特征摘要】
1.一种基于深度学习的上下文感知的动态词或字向量的构建方法,是采用计算机根据上下文动态构造词或字的特征向量表示,其特征在于,具体步骤如下:(1)首先,从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;(2)然后,根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;分别介绍如下:(一)从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示所使用的神经网络,其中,将目标词或字的周围上下文词或字的向量拼接成上下文特征矩阵,采用单维卷积从上下文特征矩阵产生词或字的上下文特征向量,然后采用Logistic回归方法让该上下文特征向量将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来;一个词或字的语义一般与其周围词或字最为相关,因而网络采用窗口模型,即在产生当前词或字的上下文表示向量时,将这个词或字的周围的若干个词或字作为输入;在使用神经网络训练时,每一个词或字对应到两个向量,一个称为普通特征向量,用于通过卷积神经网络产生目标词或字的上下文表示向量,普通特征向量将作为神经网络的输入向量;另一个称为全局特征向量,用作目标词或字的代表向量;对于每一个输入句子中某个窗口上下文,窗口中的词或字,以它们的普通特征向量表示,并且拼接成上下文特征矩阵,特征矩阵的列数为窗口大小减一,每一列为对应词或字的普通特征向量;然后对特征矩阵进行单维卷积运算,单维卷积是指对于特征矩阵每一行向量点积相应的参数向量即卷积核,不同行向量进行点积操作时使用不同的卷积核;在单维卷积的作用下,特征矩阵转换成与词或字向量维度相同的向量,该向量表示可以看成是目标词或字所在上下文的特征表示;获得某个上下文的特征向量表示之后,采用Logistic回归方法让该上下文特征向量能够将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来;神经网络的训练目标为:在给定上下文的情况下,目标词或字出现的条件概率最大,即训练的目标函数是:(公式1)其中:D为特定语言的词典或字典,包括该语言所需训练的词或字;Ct是目标词或字t在训练集中可能出现的所有上下文;θ表示神经网络的所有参数,包括单维卷积的权重、词或字的普通特征向量和全局特征向量;公式1中的概率Pθ(t|c)使用Logistic回归分解成对于目标和非目标词或字的形式:(公式2)其中:v(c)是通过单维卷积网络产生的目...
【专利技术属性】
技术研发人员:郑骁庆,封江涛,
申请(专利权)人:复旦大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。