一种多语义监督的词向量训练方法及装置制造方法及图纸

技术编号:20160723 阅读:43 留言:0更新日期:2019-01-19 00:13
本申请实施例提供了一种多语义监督的词向量训练方法及装置,在词向量训练的过程中,首先,根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;然后,对中心词所有语义的所述加权语义向量进行加权求和,生成引导向量;然后,构造从所述引导向量到中心词的词向量之间的距离损失函数;最后,根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向,从而使中心词的词向量在训练过程中朝着中心词的多重语义靠拢。从而,解决了现有技术中的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义的问题。

【技术实现步骤摘要】
一种多语义监督的词向量训练方法及装置
本申请涉及自然语言处理
,尤其涉及一种多语义监督的词向量训练方法及装置。
技术介绍
随着自然语言处理技术的发展,基于自然语言处理技术建立起来的智能问答系统也得到了广泛的应用,常用的智能问答系统例如聊天机器人,能够根据用户输入的聊天内容,自动生成相应地应答。现有技术中,智能问答系统根据不同的技术手段可以分为检索式智能问答系统和生成式智能问答系统。基于检索的方法需要定义知识库,存储需要的回复和一些启发式的方法,根据输入和上下文挑选合适的回复,因而不能生成新的回复文本。启发式方法可以是简单的基于规则的表达式去匹配,也可以是复杂的一系列的机器学习方法的组合,使生成式智能问答系统具备在接收到用户输入句子后,回答内容不限于已有的知识的能力。在自然语言处理
,要将自然语言交给机器学习中的算法来处理,首先需要将自然语言数学化,词向量就是将自然语言数学化的一种方式。现有技术中,诸如使用CBOW、Skip-gram等模型训练的词向量能够形成一个词向量空间。在词向量空间中,除去语义空间中大小,正反(极性、方向),词向量空间分布≈语义空间分布。现有技术中,通本文档来自技高网...

【技术保护点】
1.一种多语义监督的词向量训练方法,其特征在于,包括:根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;对中心词所有语义的所述加权语义向量进行加权求和,生成引导向量;构造从所述引导向量到中心词的词向量之间的距离损失函数;根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向。

【技术特征摘要】
1.一种多语义监督的词向量训练方法,其特征在于,包括:根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;对中心词所有语义的所述加权语义向量进行加权求和,生成引导向量;构造从所述引导向量到中心词的词向量之间的距离损失函数;根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向。2.根据权利要求1所述的方法,其特征在于,所述根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量,包括:根据中心词的每个语义的义原数量,对每个语义的设置义原权重;根据所述义原权重,对每个语义中的所述义原向量进行加权求和,生成每个语义的所述加权语义向量。3.根据权利要求1所述的方法,其特征在于,所述对中心词所有语义的所述加权语义向量进行加权求和,生成引导向量,包括:根据上下词的词向量生成中心词的语境向量;分别获取所述语境向量与中心词的每个所述加权语义向量的关注系数;根据所述关注系数,对中心词的所述加权语义向量进行加权求和,生成所述引导向量。4.根据权利要求3所述的方法,其特征在于,所述根据上下词的词向量生成中心词的语境向量,包括:根据预设的窗口大小确定中心词的预设数量的上下词;对上下词的词向量加权求和,生成所述语境向量。5.根据权利要求1所述的方法,其特征在于,所述构造从引导向量到中心词的词向量之间的距离损失函数,包括:获取中心词的词向量与所述引导向量的余弦距离,将所述余弦距离作为所述距离损失函数。6.根据权利要求1所述...

【专利技术属性】
技术研发人员:李健铨
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1