一种有监督的词向量训练方法及装置制造方法及图纸

技术编号:19388827 阅读:35 留言:0更新日期:2018-11-10 02:00
本申请实施例提供了一种有监督的词向量训练方法及装置,其中,方法包括:根据目标词的上下词,生成目标词的每个语义向量的关注系数;根据语义向量和每个语义向量的关注系数,生成目标词的引导向量;构造从词向量模型的训练结果到引导向量之间的距离损失函数;通过距离损失函数监督词向量模型产生训练结果的迭代方向。本申请实中,根据语义向量和关注系数得到的引导向量能够同时反映出目标词的真实语义和语境对语义的影响;因此,以该引导向量替代上下词去监督词向量模型的训练过程,得到的词向量能够表达出词语的真实语义,解决现有技术中的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义的问题。

A supervised word vector training method and device

The embodiment of this application provides a supervised training method and device for word vectors, which includes: generating the attention coefficients of each semantic vector of the target word according to the context of the target word; generating the guidance vectors of the target word according to the attention coefficients of the semantic vector and each semantic vector; and constructing the slave word vector model. The distance loss function between the training result and the guidance vector of type I is used to supervise the iteration direction of the training result by the distance loss function. In this application, the guidance vector based on the semantic vector and the attention coefficient can simultaneously reflect the real semantics of the target word and the influence of the context on the semantics; therefore, the guidance vector can replace the upper and lower words to supervise the training process of the word vector model, and the resulting word vector can express the real semantics of the word and solve the problem of realization. There are some shortcomings in expressing the polarity and category of words, which can not express the true semantics of words.

【技术实现步骤摘要】
一种有监督的词向量训练方法及装置
本申请涉及自然语言处理
,尤其涉及一种有监督的词向量训练方法及装置。
技术介绍
随着自然语言处理技术的发展,基于自然语言处理技术建立起来的智能问答系统也得到了广泛的应用,常用的智能问答系统例如聊天机器人,能够根据用户输入的聊天内容,自动生成相应地应答。现有技术中,智能问答系统根据不同的技术手段可以分为检索式智能问答系统和生成式智能问答系统。基于检索的方法需要定义知识库,存储需要的回复和一些启发式的方法,根据输入和上下文挑选合适的回复,因而不能生成新的回复文本。启发式方法可以是简单的基于规则的表达式去匹配,也可以是复杂的一系列的机器学习方法的组合,使生成式智能问答系统具备在接收到用户输入句子后,回答内容不限于已有的知识的能力。在自然语言处理
,要将自然语言交给机器学习中的算法来处理,首先需要将自然语言数学化,词向量就是将自然语言数学化的一种方式。现有技术中,诸如使用CBOW、Skip-gram等模型训练的词向量能够形成一个词向量空间。在词向量空间中,除去语义空间中大小,正反(极性、方向),词向量空间分布≈语义空间分布。现有技术中,通过使用以Skip-gram为代表的训练模型训练出来的词向量在表达能力上有欠缺,导致在对词进行相似度计算的时候,无论是以词向量的欧式距离还是余弦距离表达词的相似度,总存在着以下的问题:语义相反的词之间的距离反而比语义相同的词之间的距离近,例如“提升”和“降低”;此外,对于属于同一类的词,也不能保证相似度计算的准确,例如“苹果”和“香蕉”;以及,对于不同类别的词,也不能体现出区别性,例如水果类的词和动物类的词。可见,现有技术的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义。
技术实现思路
本申请实施例提供了一种有监督的词向量训练方法及装置,以解决现有技术中存在的问题。第一方面,本申请实施例提供了一种有监督的词向量训练方法,包括:根据目标词的上下词,生成目标词的每个语义向量的关注系数;根据所述语义向量和每个所述语义向量的关注系数,生成所述目标词的引导向量;构造从词向量模型的训练结果到所述引导向量之间的距离损失函数;通过所述距离损失函数监督词向量模型产生训练结果的迭代方向。第二方面,本申请实施例提供了一种有监督的词向量训练装置,包括:上下词处理单元,用于根据目标词的上下词,生成目标词的每个语义向量的关注系数;引导向量生成单元,用于根据所述语义向量和每个所述语义向量的关注系数,生成所述目标词的引导向量;距离损失函数构造单元,用于构造从词向量模型的训练结果到所述引导向量之间的距离损失函数;监督单元,用于通过所述距离损失函数监督词向量模型产生训练结果的迭代方向。由以上技术方案可知,本申请实施例提供了一种有监督的词向量训练方法及装置,其中,方法包括:根据目标词的上下词,生成目标词的每个语义向量的关注系数;根据所述语义向量和每个所述语义向量的关注系数,生成所述目标词的引导向量;构造从词向量模型的训练结果到所述引导向量之间的距离损失函数;通过所述距离损失函数监督词向量模型产生训练结果的迭代方向。在本申请实施例提供的技术方案中,语义向量表达了目标词的真实语义,关注系数表达了目标词的语境对真实语义的影响,所以,根据语义向量和关注系数得到的目标词的引导向量能够同时反映出目标词的真实语义和目标词所处的语境对语义的影响;因此,以该引导向量替代现有技术的上下词去监督词向量模型的训练过程,所得到的目标词的词向量能够表达出词语的真实语义,解决现有技术中的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义的问题。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出了现有技术的词向量模型基本结构的示意图;图2为本申请实施例示出的一种有监督的词向量训练方法的流程图;图3为本申请实施例示出的一种有监督的词向量训练方法步骤S1的流程图;图4为本申请实施例示出的一种有监督的词向量训练方法步骤S11的流程图;图5为本申请实施例示出的一种有监督的词向量训练方法步骤S2的流程图;图6为本申请实施例示出的一种有监督的词向量训练方法步骤S3的流程图;图7为本申请实施例示出的一种有监督的词向量训练方法步骤S4的流程图;图8为本申请实施例示出的一种有监督的词向量训练方法步骤S41的流程图;图9为本申请实施例示出的一种有监督的词向量训练装置的示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。在自然语言处理
,要将自然语言交给机器学习中的算法来处理,首先需要将自然语言数学化,词向量就是将自然语言数学化表示的一种方式。One-hot型词向量就是将自然语言数学化表示的一种方式,One-hot型词向量是一个高维度的词向量,其维度表示词库中词的数量,将词库中的词按照一定顺序排列,每个维度就表示一个词,因此,在One-hot型词向量中,只有一个维度为1,其余维度均为0。例如,词库中有1000个词,“苹果”是这个词库中的第3个词,“香蕉”是这个词库中的第4个词,那么,对于这个词库中的词来说,One-hot型词向量就是一个1000维向量,其中:苹果=[0,0,1,0,0,0,0……]香蕉=[0,0,0,1,0,0,0……]One-hot型词向量看似实现了自然语言数学化表示,但是,在文本匹配、文本分类等应用领域,通常涉及到词之间语义的相似度计算。而One-hot型的每个维度独立表示一个词,无法体现词之间的语义相似关系,例如:“苹果”和“香蕉”同表示水果,如果用词向量的余弦距离表示词的语义相似关系,在One-hot型词向量的表示方法下,“苹果”和“香蕉”的余弦相似度为0,无法表达出任何语义相似关系。在One-hot型词向量无法表达词之间的相似关系的情况下,本领域技术人员主要使用DistributedRepresentation型词向量作为将自然语言数学化表示。这种词向量是一种低维度的词向量,可以看作是构造了一个低维度的词向量空间,每个词作为词向量空间中的一个点,语义越相近的词,在词向量空间中的距离越近,这种词向量表现为下面的形式:[0.792,-0.177,-0.107,0.109,-0.542,…]。现有技术中,本领域技术人员通过训练Word2vec的相关词向量模型,得到上述形式的低维词向量。这些词向量模型本质上构建了一个从词本身到词的语义的映射,现有技术中,本领域技术人员将目标词作为词向量模型的输入,将目标词在句子中的上下词当作目标词的语义作为词向量模型的输出,以训练词向量。具体地,图1示出了现有技术的词向量模型基本结构的示意图。如图1所示,词向量模型的基本结构可以看作是反向设置的两层神经网络,包本文档来自技高网
...

【技术保护点】
1.一种有监督的词向量训练方法,其特征在于,包括:根据目标词的上下词,生成目标词的每个语义向量的关注系数;根据所述语义向量和每个所述语义向量的关注系数,生成所述目标词的引导向量;构造从词向量模型的训练结果到所述引导向量之间的距离损失函数;通过所述距离损失函数监督词向量模型产生训练结果的迭代方向。

【技术特征摘要】
1.一种有监督的词向量训练方法,其特征在于,包括:根据目标词的上下词,生成目标词的每个语义向量的关注系数;根据所述语义向量和每个所述语义向量的关注系数,生成所述目标词的引导向量;构造从词向量模型的训练结果到所述引导向量之间的距离损失函数;通过所述距离损失函数监督词向量模型产生训练结果的迭代方向。2.根据权利要求1所述的方法,其特征在于,所述根据目标词的上下词,生成目标词的每个语义向量的关注系数的步骤,包括:基于对义元向量的加权,生成目标词每个语义的语义向量;通过预设大小的取词窗口,获取预设数量的所述上下词;根据所述上下词,生成所述目标词的语境权重向量;根据所述语境权重向量,生成每个语义向量的关注系数。3.根据权利要求1所述的方法,其特征在于,所述根据语义向量和每个所述语义向量的关注系数,生成所述目标词的引导向量的步骤,包括:根据所述关注系数生成每个语义向量的加权值;将每个语义向量的加权值进行求和,以生成所述引导向量。4.根据权利要求1所述的方法,其特征在于,所述构造从词向量模型的训练结果到所述引导向量之间的距离损失函数的步骤,包括:生成预设维度的随机词向量作为词向量模型的输入;获取词向量模型的训练结果与所述引导向量的余弦距离,将所述余弦距离作为所述距离损失函数。5.根据权利要求2所述的方法,其特征在于,所述基于对义元向量的加权,生成目标词的每个语义的语义向量的步骤,包括:根据每个语义拥有义元的数量,对每个语义中的义元设置义元权重;根据所述义元权重,对语义中每个义元的义元向量进行加...

【专利技术属性】
技术研发人员:杨凯程李健铨蒋宏飞
申请(专利权)人:北京玄一科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1