一种单语义监督的词向量训练方法及装置制造方法及图纸

技术编号：20273057 阅读：20 留言：0更新日期：2019-02-02 03:51

本申请实施例提供了一种单语义监督的词向量训练方法及装置，在词向量训练的过程中，首先，根据目标词的每个语义所包含义原的义原向量，生成每个语义的加权语义向量；然后，选取目标词的一个语义的所述加权语义向量作为引导向量；然后，构造从所述引导向量到目标词的词向量之间的距离损失函数；最后，根据所述距离损失函数监督目标词的词向量在词向量模型训练时的迭代更新方向，从而使目标词的词向量在训练过程中朝着目标词的单一语义靠拢。从而，解决了现有技术中的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺，无法表达出词语的真实语义的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种单语义监督的词向量训练方法及装置
本申请涉及自然语言处理
，尤其涉及一种单语义监督的词向量训练方法及装置。
技术介绍
随着自然语言处理技术的发展，基于自然语言处理技术建立起来的智能问答系统也得到了广泛的应用，常用的智能问答系统例如聊天机器人，能够根据用户输入的聊天内容，自动生成相应地应答。现有技术中，智能问答系统根据不同的技术手段可以分为检索式智能问答系统和生成式智能问答系统。基于检索的方法需要定义知识库，存储需要的回复和一些启发式的方法，根据输入和上下文挑选合适的回复，因而不能生成新的回复文本。启发式方法可以是简单的基于规则的表达式去匹配，也可以是复杂的一系列的机器学习方法的组合，使生成式智能问答系统具备在接收到用户输入句子后，回答内容不限于已有的知识的能力。在自然语言处理
，要将自然语言交给机器学习中的算法来处理，首先需要将自然语言数学化，词向量就是将自然语言数学化的一种方式。现有技术中，诸如使用CBOW、Skip-gram等模型训练的词向量能够形成一个词向量空间。在词向量空间中，除去语义空间中大小，正反(极性、方向)，词向量空间分布≈语义空间分布。现有技术中，通过使用以Skip-gram为代表的训练模型训练出来的词向量在表达能力上有欠缺，导致在对词进行相似度计算的时候，无论是以词向量的欧式距离还是余弦距离表达词的相似度，总存在着以下的问题：语义相反的词之间的距离反而比语义相同的词之间的距离近，例如“提升”和“降低”；此外，对于属于同一类的词，也不能保证相似度计算的准确，例如“苹果”和“香蕉”；以及，对于不同类别的词，也不能体现出区别性...

【技术保护点】
1.一种单语义监督的词向量训练方法，其特征在于，包括：根据目标词的每个语义所包含义原的义原向量，生成每个语义的加权语义向量；选取目标词的一个语义的所述加权语义向量作为引导向量；构造从所述引导向量到目标词的词向量之间的距离损失函数；根据所述距离损失函数监督目标词的词向量在词向量模型训练时的迭代更新方向；其中，所述目标词为中心词的一个上下词。

【技术特征摘要】
1.一种单语义监督的词向量训练方法，其特征在于，包括：根据目标词的每个语义所包含义原的义原向量，生成每个语义的加权语义向量；选取目标词的一个语义的所述加权语义向量作为引导向量；构造从所述引导向量到目标词的词向量之间的距离损失函数；根据所述距离损失函数监督目标词的词向量在词向量模型训练时的迭代更新方向；其中，所述目标词为中心词的一个上下词。2.根据权利要求1所述的方法，其特征在于，所述根据目标词的每个语义所包含义原的义原向量，生成每个语义的加权语义向量，包括：根据目标词的每个语义的义原数量，设置每个语义的义原权重；根据所述义原权重，对每个语义中的所述义原向量进行加权求和，生成每个语义的所述加权语义向量。3.根据权利要求1所述的方法，其特征在于，所述选取目标词的一个语义的所述加权语义向量作为引导向量，包括：随机选取目标词的一个语义的所述加权语义向量作为所述引导向量。4.根据权利要求1所述的方法，其特征在于，所述选取目标词的一个语义的所述加权语义向量作为引导向量，包括：获取目标词的义原数量最少的语义；从目标词的义原数量最少的语义中随机选择一个语义的所述加权语义向量作为所述引导向量。5.根据权利要求1所述的方法，其特征在于，所述构造从引导向量到目标词的词向量之间的距离损失函数，包括：获取目标词的词向量与所述引导向量的余弦距离，将所述余弦距离作为所述距离损失函数。6.根据权利要求1所述的方法，其特征在于，还包括：词向量模型在训练过程中，循环选择中心词的预设窗口范围内的上下词作为目标词。7.根据权利要求1所述的方法，其特征...

【专利技术属性】
技术研发人员：杨凯程，李健铨，
申请(专利权)人：北京神州泰岳软件股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人