The embodiment of this application provides a supervised training method and device for word vectors, which includes: generating the attention coefficients of each semantic vector of the target word according to the context of the target word; generating the guidance vectors of the target word according to the attention coefficients of the semantic vector and each semantic vector; and constructing the slave word vector model. The distance loss function between the training result and the guidance vector of type I is used to supervise the iteration direction of the training result by the distance loss function. In this application, the guidance vector based on the semantic vector and the attention coefficient can simultaneously reflect the real semantics of the target word and the influence of the context on the semantics; therefore, the guidance vector can replace the upper and lower words to supervise the training process of the word vector model, and the resulting word vector can express the real semantics of the word and solve the problem of realization. There are some shortcomings in expressing the polarity and category of words, which can not express the true semantics of words.
【技术实现步骤摘要】
一种有监督的词向量训练方法及装置
本申请涉及自然语言处理
,尤其涉及一种有监督的词向量训练方法及装置。
技术介绍
随着自然语言处理技术的发展,基于自然语言处理技术建立起来的智能问答系统也得到了广泛的应用,常用的智能问答系统例如聊天机器人,能够根据用户输入的聊天内容,自动生成相应地应答。现有技术中,智能问答系统根据不同的技术手段可以分为检索式智能问答系统和生成式智能问答系统。基于检索的方法需要定义知识库,存储需要的回复和一些启发式的方法,根据输入和上下文挑选合适的回复,因而不能生成新的回复文本。启发式方法可以是简单的基于规则的表达式去匹配,也可以是复杂的一系列的机器学习方法的组合,使生成式智能问答系统具备在接收到用户输入句子后,回答内容不限于已有的知识的能力。在自然语言处理
,要将自然语言交给机器学习中的算法来处理,首先需要将自然语言数学化,词向量就是将自然语言数学化的一种方式。现有技术中,诸如使用CBOW、Skip-gram等模型训练的词向量能够形成一个词向量空间。在词向量空间中,除去语义空间中大小,正反(极性、方向),词向量空间分布≈语义空间分布。现有技术中,通过使用以Skip-gram为代表的训练模型训练出来的词向量在表达能力上有欠缺,导致在对词进行相似度计算的时候,无论是以词向量的欧式距离还是余弦距离表达词的相似度,总存在着以下的问题:语义相反的词之间的距离反而比语义相同的词之间的距离近,例如“提升”和“降低”;此外,对于属于同一类的词,也不能保证相似度计算的准确,例如“苹果”和“香蕉”;以及,对于不同类别的词,也不能体现出区别性,例如水 ...
【技术保护点】
1.一种有监督的词向量训练方法,其特征在于,包括:根据目标词的上下词,生成目标词的每个语义向量的关注系数;根据所述语义向量和每个所述语义向量的关注系数,生成所述目标词的引导向量;构造从词向量模型的训练结果到所述引导向量之间的距离损失函数;通过所述距离损失函数监督词向量模型产生训练结果的迭代方向。
【技术特征摘要】
1.一种有监督的词向量训练方法,其特征在于,包括:根据目标词的上下词,生成目标词的每个语义向量的关注系数;根据所述语义向量和每个所述语义向量的关注系数,生成所述目标词的引导向量;构造从词向量模型的训练结果到所述引导向量之间的距离损失函数;通过所述距离损失函数监督词向量模型产生训练结果的迭代方向。2.根据权利要求1所述的方法,其特征在于,所述根据目标词的上下词,生成目标词的每个语义向量的关注系数的步骤,包括:基于对义元向量的加权,生成目标词每个语义的语义向量;通过预设大小的取词窗口,获取预设数量的所述上下词;根据所述上下词,生成所述目标词的语境权重向量;根据所述语境权重向量,生成每个语义向量的关注系数。3.根据权利要求1所述的方法,其特征在于,所述根据语义向量和每个所述语义向量的关注系数,生成所述目标词的引导向量的步骤,包括:根据所述关注系数生成每个语义向量的加权值;将每个语义向量的加权值进行求和,以生成所述引导向量。4.根据权利要求1所述的方法,其特征在于,所述构造从词向量模型的训练结果到所述引导向量之间的距离损失函数的步骤,包括:生成预设维度的随机词向量作为词向量模型的输入;获取词向量模型的训练结果与所述引导向量的余弦距离,将所述余弦距离作为所述距离损失函数。5.根据权利要求2所述的方法,其特征在于,所述基于对义元向量的加权,生成目标词的每个语义的语义向量的步骤,包括:根据每个语义拥有义元的数量,对每个语义中的义元设置义元权重;根据所述义元权重,对语义中每个义元的义元向量进行加...
【专利技术属性】
技术研发人员:杨凯程,李健铨,蒋宏飞,
申请(专利权)人:北京玄一科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。