【技术实现步骤摘要】
一种多语义监督的词向量训练方法及装置
本申请涉及自然语言处理
,尤其涉及一种多语义监督的词向量训练方法及装置。
技术介绍
随着自然语言处理技术的发展,基于自然语言处理技术建立起来的智能问答系统也得到了广泛的应用,常用的智能问答系统例如聊天机器人,能够根据用户输入的聊天内容,自动生成相应地应答。现有技术中,智能问答系统根据不同的技术手段可以分为检索式智能问答系统和生成式智能问答系统。基于检索的方法需要定义知识库,存储需要的回复和一些启发式的方法,根据输入和上下文挑选合适的回复,因而不能生成新的回复文本。启发式方法可以是简单的基于规则的表达式去匹配,也可以是复杂的一系列的机器学习方法的组合,使生成式智能问答系统具备在接收到用户输入句子后,回答内容不限于已有的知识的能力。在自然语言处理
,要将自然语言交给机器学习中的算法来处理,首先需要将自然语言数学化,词向量就是将自然语言数学化的一种方式。现有技术中,诸如使用CBOW、Skip-gram等模型训练的词向量能够形成一个词向量空间。在词向量空间中,除去语义空间中大小,正反(极性、方向),词向量空间分布≈语义空间 ...
【技术保护点】
1.一种多语义监督的词向量训练方法,其特征在于,包括:根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;对中心词所有语义的所述加权语义向量进行加权求和,生成引导向量;构造从所述引导向量到中心词的词向量之间的距离损失函数;根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向。
【技术特征摘要】
1.一种多语义监督的词向量训练方法,其特征在于,包括:根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;对中心词所有语义的所述加权语义向量进行加权求和,生成引导向量;构造从所述引导向量到中心词的词向量之间的距离损失函数;根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向。2.根据权利要求1所述的方法,其特征在于,所述根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量,包括:根据中心词的每个语义的义原数量,对每个语义的设置义原权重;根据所述义原权重,对每个语义中的所述义原向量进行加权求和,生成每个语义的所述加权语义向量。3.根据权利要求1所述的方法,其特征在于,所述对中心词所有语义的所述加权语义向量进行加权求和,生成引导向量,包括:根据上下词的词向量生成中心词的语境向量;分别获取所述语境向量与中心词的每个所述加权语义向量的关注系数;根据所述关注系数,对中心词的所述加权语义向量进行加权求和,生成所述引导向量。4.根据权利要求3所述的方法,其特征在于,所述根据上下词的词向量生成中心词的语境向量,包括:根据预设的窗口大小确定中心词的预设数量的上下词;对上下词的词向量加权求和,生成所述语境向量。5.根据权利要求1所述的方法,其特征在于,所述构造从引导向量到中心词的词向量之间的距离损失函数,包括:获取中心词的词向量与所述引导向量的余弦距离,将所述余弦距离作为所述距离损失函数。6.根据权利要求1所述...
【专利技术属性】
技术研发人员:李健铨,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。