一种单语义监督的词向量训练方法及装置制造方法及图纸

技术编号:20273057 阅读:20 留言:0更新日期:2019-02-02 03:51
本申请实施例提供了一种单语义监督的词向量训练方法及装置,在词向量训练的过程中,首先,根据目标词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;然后,选取目标词的一个语义的所述加权语义向量作为引导向量;然后,构造从所述引导向量到目标词的词向量之间的距离损失函数;最后,根据所述距离损失函数监督目标词的词向量在词向量模型训练时的迭代更新方向,从而使目标词的词向量在训练过程中朝着目标词的单一语义靠拢。从而,解决了现有技术中的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义的问题。

【技术实现步骤摘要】
一种单语义监督的词向量训练方法及装置
本申请涉及自然语言处理
,尤其涉及一种单语义监督的词向量训练方法及装置。
技术介绍
随着自然语言处理技术的发展,基于自然语言处理技术建立起来的智能问答系统也得到了广泛的应用,常用的智能问答系统例如聊天机器人,能够根据用户输入的聊天内容,自动生成相应地应答。现有技术中,智能问答系统根据不同的技术手段可以分为检索式智能问答系统和生成式智能问答系统。基于检索的方法需要定义知识库,存储需要的回复和一些启发式的方法,根据输入和上下文挑选合适的回复,因而不能生成新的回复文本。启发式方法可以是简单的基于规则的表达式去匹配,也可以是复杂的一系列的机器学习方法的组合,使生成式智能问答系统具备在接收到用户输入句子后,回答内容不限于已有的知识的能力。在自然语言处理
,要将自然语言交给机器学习中的算法来处理,首先需要将自然语言数学化,词向量就是将自然语言数学化的一种方式。现有技术中,诸如使用CBOW、Skip-gram等模型训练的词向量能够形成一个词向量空间。在词向量空间中,除去语义空间中大小,正反(极性、方向),词向量空间分布≈语义空间分布。现有技术中,通过使用以Skip-gram为代表的训练模型训练出来的词向量在表达能力上有欠缺,导致在对词进行相似度计算的时候,无论是以词向量的欧式距离还是余弦距离表达词的相似度,总存在着以下的问题:语义相反的词之间的距离反而比语义相同的词之间的距离近,例如“提升”和“降低”;此外,对于属于同一类的词,也不能保证相似度计算的准确,例如“苹果”和“香蕉”;以及,对于不同类别的词,也不能体现出区别性,例如水果类的词和动物类的词。可见,现有技术的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义。
技术实现思路
本申请实施例提供了一种单语义监督的词向量训练方法及装置,以解决现有技术中存在的问题。第一方面,本申请实施例提供了一种单语义监督的词向量训练方法,包括:根据目标词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;选取目标词的一个语义的所述加权语义向量作为引导向量;构造从所述引导向量到目标词的词向量之间的距离损失函数;根据所述距离损失函数监督目标词的词向量在词向量模型训练时的迭代更新方向;其中,所述目标词为中心词的一个上下词。第二方面,本申请实施例提供了一种单语义监督的词向量训练装置,包括:加权语义向量表达模块,用于根据目标词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;引导向量表达模块,用于选取目标词的一个语义的所述加权语义向量作为引导向量;距离损失构造模块,用于构造从所述引导向量到目标词的词向量之间的距离损失函数;监督模块,用于根据所述距离损失函数监督目标词的词向量在词向量模型训练时的迭代更新方向;其中,所述目标词为中心词的一个上下词。由以上技术方案可知,本申请实施例提供了一种单语义监督的词向量训练方法及装置,在词向量训练的过程中,首先,根据目标词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;然后,选取目标词的一个语义的所述加权语义向量作为引导向量;然后,构造从所述引导向量到目标词的词向量之间的距离损失函数;最后,根据所述距离损失函数监督目标词的词向量在词向量模型训练时的迭代更新方向,从而使目标词的词向量在训练过程中朝着目标词的单一语义靠拢。从而,解决了现有技术中的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义的问题。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出了现有技术的词向量模型基本结构的示意图;图2为本申请实施例示出的一种单语义监督的词向量训练方法的流程图;图3为本申请实施例示出的一种单语义监督的词向量训练方法步骤S1的流程图;图4为本申请实施例示出的一种单语义监督的词向量训练方法步骤S4的流程图;图5为本申请实施例示出的一种单语义监督的词向量训练方法的生成输出向量的流程图;图6为本申请实施例示出的一种单语义监督的词向量训练方法的迁徙流程图;图7为本申请实施例示出的一种单语义监督的词向量训练装置的示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。在自然语言处理
,要将自然语言交给机器学习中的算法来处理,首先需要将自然语言数学化,词向量就是将自然语言数学化表示的一种方式。One-hot型词向量就是将自然语言数学化表示的一种方式,One-hot型词向量是一个高维度的词向量,其维度表示词库中词的数量,将词库中的词按照一定顺序排列,每个维度就表示一个词,因此,在One-hot型词向量中,只有一个维度为1,其余维度均为0。例如,词库中有1000个词,“苹果”是这个词库中的第3个词,“香蕉”是这个词库中的第4个词,那么,对于这个词库中的词来说,One-hot型词向量就是一个1000维向量,其中:苹果=[0,0,1,0,0,0,0……]香蕉=[0,0,0,1,0,0,0……]One-hot型词向量看似实现了自然语言数学化表示,但是,在文本匹配、文本分类等应用领域,通常涉及到词之间语义的相似度计算。而One-hot型的每个维度独立表示一个词,无法体现词之间的语义相似关系,例如:“苹果”和“香蕉”同表示水果,如果用词向量的余弦距离表示词的语义相似关系,在One-hot型词向量的表示方法下,“苹果”和“香蕉”的余弦相似度为0,无法表达出任何语义相似关系。在One-hot型词向量无法表达词之间的相似关系的情况下,本领域技术人员主要使用DistributedRepresentation型词向量作为将自然语言数学化表示。这种词向量是一种低维度的词向量,可以看作是构造了一个低维度的词向量空间,每个词作为词向量空间中的一个点,语义越相近的词,在词向量空间中的距离越近,这种词向量表现为下面的形式:[0.792,-0.177,-0.107,0.109,-0.542,…]。现有技术中,本领域技术人员通过训练Word2vec的相关词向量模型,得到上述形式的低维词向量。这些词向量模型本质上构建了一个从词本身到词的语义的映射,现有技术中,本领域技术人员将中心词或上下词作为词向量模型的输入,将上下词或中心词作为词向量模型的输出,以训练词向量。需要补充说明的是,中心词和上下词均为相对概念,一个分词既可以是中心词也同时是其他分词的上下词。具体地,图1示出了现有技术的词向量模型基本结构的示意图。如图1所示,词向量模型的基本结构可以看作是反向设置的两层神经网络,包括输入层、隐含层和输出层,其中,W1表示词向量模型中输入层到隐含层的神经网络权重,W2表示词向量模型中隐含层到输出层的神经网络权重。目前,现有技术的词向量训练模型主要本文档来自技高网
...

【技术保护点】
1.一种单语义监督的词向量训练方法,其特征在于,包括:根据目标词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;选取目标词的一个语义的所述加权语义向量作为引导向量;构造从所述引导向量到目标词的词向量之间的距离损失函数;根据所述距离损失函数监督目标词的词向量在词向量模型训练时的迭代更新方向;其中,所述目标词为中心词的一个上下词。

【技术特征摘要】
1.一种单语义监督的词向量训练方法,其特征在于,包括:根据目标词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;选取目标词的一个语义的所述加权语义向量作为引导向量;构造从所述引导向量到目标词的词向量之间的距离损失函数;根据所述距离损失函数监督目标词的词向量在词向量模型训练时的迭代更新方向;其中,所述目标词为中心词的一个上下词。2.根据权利要求1所述的方法,其特征在于,所述根据目标词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量,包括:根据目标词的每个语义的义原数量,设置每个语义的义原权重;根据所述义原权重,对每个语义中的所述义原向量进行加权求和,生成每个语义的所述加权语义向量。3.根据权利要求1所述的方法,其特征在于,所述选取目标词的一个语义的所述加权语义向量作为引导向量,包括:随机选取目标词的一个语义的所述加权语义向量作为所述引导向量。4.根据权利要求1所述的方法,其特征在于,所述选取目标词的一个语义的所述加权语义向量作为引导向量,包括:获取目标词的义原数量最少的语义;从目标词的义原数量最少的语义中随机选择一个语义的所述加权语义向量作为所述引导向量。5.根据权利要求1所述的方法,其特征在于,所述构造从引导向量到目标词的词向量之间的距离损失函数,包括:获取目标词的词向量与所述引导向量的余弦距离,将所述余弦距离作为所述距离损失函数。6.根据权利要求1所述的方法,其特征在于,还包括:词向量模型在训练过程中,循环选择中心词的预设窗口范围内的上下词作为目标词。7.根据权利要求1所述的方法,其特征...

【专利技术属性】
技术研发人员:杨凯程李健铨
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1