上位词网络的扩充方法及装置、电子设备、存储介质制造方法及图纸

技术编号：21714743 阅读：22 留言：0更新日期：2019-07-27 19:18

本发明专利技术揭示了一种上位词网络的扩充方法及装置、电子设备、计算机可读存储介质。该方案包括：根据已有上位词网络中的实体和上位词，将实体和上位词映射到语义空间中，获得实体词向量和上位词向量；将未知上下位关系的实体词向量和上位词向量进行组合，形成组合向量；将组合向量输入已构建的上下位关系判别模型，通过上下位关系判别模型判断组合向量对应的实体与上位词之间是否存在上下位关系；根据实体与上位词之间的上下位关系，在上位词网络建立连接关系。本发明专利技术提供的方案，通过将实体和上位词向量化，减少了上下位关系判别的计算量，节省了计算资源，更加完善了已有的上位词网络，提高了上位词网络的完整性。

The Expansion Method and Device, Electronic Equipment and Storage Medium of Superior Word Network

全部详细技术资料下载

【技术实现步骤摘要】
上位词网络的扩充方法及装置、电子设备、存储介质
本专利技术涉及自然语言处理领域，特别涉及一种上位词网络的扩充方法及装置、电子设备、计算机可读存储介质。
技术介绍
如果一个实体A和一个词B包含上下位关系，例如：老虎(A)和动物(B)包含上下位关系，那么B就是A的上位词。有A和B构成的数据集合称之为上位词网络。上位词网络是由上位词和实体构成的二部图，上位词和实体之间是一种多对多关系，即一个实体可以属于多个上位词，一个上位词可以包含多个实体。已有上位词网络是从有限的纯文本语料中获取得到，所以难以保证上位词网络的完整性。如纯文本语料中有描述实体ea,eb,ec和B的上下位关系，ed,ef也是上位词B对应的实体，但是在纯文本语料中并没有对此有相关描述，所以难以获取他们的上下位关系。现有技术为进行上位词网络补全，常见的算法是协同过滤算法，协同过滤算法被广泛应用于推荐系统中。其基本思想是对上位词集合进行预处理，根据已知上下位关系的实体与上位词，来计算上位词间的相似性，再将与实体已有上位词相似的其他上位词推荐给该实体。例如，大多数具有上位词a的实体同时也具有上位词c，则表示上位词a和上位词c十分相似，假设实体A具有上位词a，所以把与上位词a相似的上位词c推荐给实体A。由于有些上位词的实体可能非常稀少，对于这些上位词可能不存在与其他上位词共同的实体，因此，无法确定这些上位词与其他上位词之间的相似性。由此，对于某些实体，可能难以找到与其上位词相似的其他上位词，从而无法完成上位词网络的补充任务。
技术实现思路
为了解决相关技术中存在的由于有些上位词的实体可能非常稀少，对于这些上位词...

【技术保护点】
1.一种上位词网络的扩充方法，其特征在于，包括：根据已有上位词网络中的实体和上位词，将所述实体和上位词映射到语义空间中，获得实体词向量和上位词向量；将未知上下位关系的实体词向量和上位词向量进行组合，形成组合向量；将所述组合向量输入已构建的上下位关系判别模型，通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系；根据所述实体与上位词之间的上下位关系，在所述上位词网络建立连接关系。

【技术特征摘要】
1.一种上位词网络的扩充方法，其特征在于，包括：根据已有上位词网络中的实体和上位词，将所述实体和上位词映射到语义空间中，获得实体词向量和上位词向量；将未知上下位关系的实体词向量和上位词向量进行组合，形成组合向量；将所述组合向量输入已构建的上下位关系判别模型，通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系；根据所述实体与上位词之间的上下位关系，在所述上位词网络建立连接关系。2.根据权利要求1所述的方法，其特征在于，所述根据已有上位词网络中的实体和上位词，将所述实体和上位词映射到语义空间中，获得所述实体词向量和上位词向量，包括：对所述上位词网络的来源语料学习单字数值表示，获得单字在语义空间中的字向量；根据实体和上位词中所包含的文字，对单字的字向量进行拼接，生成所述实体词向量和上位词向量。3.根据权利要求1所述的方法，其特征在于，所述根据已有上位词网络中的实体和上位词，将所述实体和上位词映射到语义空间中，获得实体词向量和上位词向量，包括：对所述实体和上位词在语义空间的映射进行实体词向量和上位词向量的优化。4.根据权利要求3所述的方法，其特征在于，对所述实体和上位词在语义空间的映射进行实体词向量和上位词向量的优化，包括：根据具有同一个上位词的实体词向量相似，优化相似的所述实体词向量；通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的相似度，优化所述上位词向量。5.根据权利要求4所述的方法，其特征在于，所述根据具有同一个上位词的实体词向量相似，优化相似的所述实体词向量，包括：将属于同一上位词的实体作为一个集合，利用所述集合中每一实体的实体词向量，通过skip-gram模型优化所述集合中其他实体的实体词向量。6.根据权利要求4所述的方法，其特征在于，所述通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的相似度，优化所述上位词向量包括：通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的距离之和，调整所述上位词向量，得到使所述距离之和最小的上位词向量。7.根据权利要求1所述的方法，其特征在于，将所述组合向量输入已构建的上下位关系判别模型，通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系之前，所述方法还包括：根据所述上位词网络中已知上下位关系的实体词向量和上位词向量，构建所述上下位关系判别模型。8.根据权利要求7所述的方法，...

【专利技术属性】
技术研发人员：郑孙聪，李潇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人