上位词网络的扩充方法及装置、电子设备、存储介质制造方法及图纸

技术编号:21714743 阅读:22 留言:0更新日期:2019-07-27 19:18
本发明专利技术揭示了一种上位词网络的扩充方法及装置、电子设备、计算机可读存储介质。该方案包括:根据已有上位词网络中的实体和上位词,将实体和上位词映射到语义空间中,获得实体词向量和上位词向量;将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;将组合向量输入已构建的上下位关系判别模型,通过上下位关系判别模型判断组合向量对应的实体与上位词之间是否存在上下位关系;根据实体与上位词之间的上下位关系,在上位词网络建立连接关系。本发明专利技术提供的方案,通过将实体和上位词向量化,减少了上下位关系判别的计算量,节省了计算资源,更加完善了已有的上位词网络,提高了上位词网络的完整性。

The Expansion Method and Device, Electronic Equipment and Storage Medium of Superior Word Network

【技术实现步骤摘要】
上位词网络的扩充方法及装置、电子设备、存储介质
本专利技术涉及自然语言处理领域,特别涉及一种上位词网络的扩充方法及装置、电子设备、计算机可读存储介质。
技术介绍
如果一个实体A和一个词B包含上下位关系,例如:老虎(A)和动物(B)包含上下位关系,那么B就是A的上位词。有A和B构成的数据集合称之为上位词网络。上位词网络是由上位词和实体构成的二部图,上位词和实体之间是一种多对多关系,即一个实体可以属于多个上位词,一个上位词可以包含多个实体。已有上位词网络是从有限的纯文本语料中获取得到,所以难以保证上位词网络的完整性。如纯文本语料中有描述实体ea,eb,ec和B的上下位关系,ed,ef也是上位词B对应的实体,但是在纯文本语料中并没有对此有相关描述,所以难以获取他们的上下位关系。现有技术为进行上位词网络补全,常见的算法是协同过滤算法,协同过滤算法被广泛应用于推荐系统中。其基本思想是对上位词集合进行预处理,根据已知上下位关系的实体与上位词,来计算上位词间的相似性,再将与实体已有上位词相似的其他上位词推荐给该实体。例如,大多数具有上位词a的实体同时也具有上位词c,则表示上位词a和上位词c十分相似,假设实体A具有上位词a,所以把与上位词a相似的上位词c推荐给实体A。由于有些上位词的实体可能非常稀少,对于这些上位词可能不存在与其他上位词共同的实体,因此,无法确定这些上位词与其他上位词之间的相似性。由此,对于某些实体,可能难以找到与其上位词相似的其他上位词,从而无法完成上位词网络的补充任务。
技术实现思路
为了解决相关技术中存在的由于有些上位词的实体可能非常稀少,对于这些上位词可能不存在与其他上位词共同的实体,因此,无法确定这些上位词与其他上位词之间的相似性。由此,对于某些实体,可能难以找到与其上位词相似的其他上位词,从而无法完成上位词网络的补充任务。对此,本专利技术提供了一种上位词网络的扩充方法。一方面,本专利技术提供了一种上位词网络的扩充方法,所述方法包括:根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量;将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系;根据所述实体与上位词之间的上下位关系,在所述上位词网络建立连接关系。另一方面,本专利技术提供了一种上位词网络的扩充装置,所述装置包括:词向量化模块,用于根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量;向量组合模块,用于将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;上下位判定模块,用于将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系;建立连接模块,用于根据所述实体与上位词之间的上下位关系,在所述上位词网络建立连接关系。此外,本专利技术还提供了一种电子设备,所述电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述上位词网络的扩充方法。进一步的,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成上述上位词网络的扩充方法。本专利技术的实施例提供的技术方案可以包括以下有益效果:本专利技术提供的技术方案,通过将已有上位词网络中的实体和上位词向量化,进而将未知上下位关系的实体词向量和上位词向量进行组合,通过上下位关系判别模型,判断组合对应的实体和上位词之间是否存在上下位关系,由此可以根据上下位关系判别结果对已有的上位词网络进行扩充。本专利技术提供的方案,由于无需为实体已有的上位词寻找与该上位词相似的其他上位词,因此,不存在无法找到相似上位词的问题,解决了现有技术无法进行上位词网络补充的缺陷;进一步,通过将实体和上位词向量化,减少了上下位关系判别的计算量,节省了计算资源,更加完善了已有的上位词网络,提高了上位词网络的完整性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并于说明书一起用于解释本专利技术的原理。图1是根据本专利技术所涉及的实施环境的示意图;图2是根据一示例性实施例示出的一种服务器的框图;图3是根据一示例性实施例示出的一种上位词网络的扩充方法的流程图;图4为列举的一种上位词网络图谱示意图;图5是图3对应实施例的步骤310的细节流程图;图6是在图3对应实施例的基础上另一示例性实施例示出的一种上位词网络的扩充方法的流程图;图7是一示例性实施例提供的skip-gram模型的结构示意图;图8是在图3对应实施例的基础上又一示例性实施例示出的一种上位词网络的扩充方法的流程图;图9为本专利技术一示例性实施例提供的上位词网络的扩充方法的详细流程示意图;图10是根据一示例性实施例示出的一种上位词网络的扩充装置的框图;图11是图10对应实施例中词向量化模块的细节的框图;图12是根据另一示例性实施例示出的一种上位词网络的扩充装置的框图;图13是图12对应实施例中的模型构建模块的细节框图。具体实施方式这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的本专利技术所涉及的实施环境示意图。本专利技术所涉及的实施环境包括服务器110。服务器110的数据库中存储有上位词网络,从而服务器110可以采用本专利技术提供的上位词网络扩充方法,对该上位词网络进行扩充,提高上位词网络的完整性。根据需要,该实施环境还将包括提供数据,即上位词网络的数据来源。具体而言,在本实施环境中,数据来源可以为移动终端130。服务器110可以通过现有技术事先对移动终端130上传的文本数据生成上位词网络,或者直接接收移动终端130传送的上位词网络,进而采用本专利技术提供的上位词网络扩充方法,对已生成的上位词网络进行扩充,提高上位词网络的完整性。应当说明的是,本专利技术上位词网络的扩充方法,不限于在服务器110中部署相应的处理逻辑,其也可以是部署于其它机器中的处理逻辑。例如,在具备计算能力的终端设备中部署上位词网络扩充的处理逻辑等。图2是根据一示例性实施例示出的一种服务器的框图。该服务器200可因配置或性能不同而产生比较大的差异,可以包括至少一个中央处理器(centralprocessingunits,CPU)222(例如,至少一个处理器)和存储器232,至少一个存储应用程序242或数据244的存储介质230(例如至少一个海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括至少一个模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器200上执行本文档来自技高网...

【技术保护点】
1.一种上位词网络的扩充方法,其特征在于,包括:根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量;将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系;根据所述实体与上位词之间的上下位关系,在所述上位词网络建立连接关系。

【技术特征摘要】
1.一种上位词网络的扩充方法,其特征在于,包括:根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量;将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系;根据所述实体与上位词之间的上下位关系,在所述上位词网络建立连接关系。2.根据权利要求1所述的方法,其特征在于,所述根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得所述实体词向量和上位词向量,包括:对所述上位词网络的来源语料学习单字数值表示,获得单字在语义空间中的字向量;根据实体和上位词中所包含的文字,对单字的字向量进行拼接,生成所述实体词向量和上位词向量。3.根据权利要求1所述的方法,其特征在于,所述根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量,包括:对所述实体和上位词在语义空间的映射进行实体词向量和上位词向量的优化。4.根据权利要求3所述的方法,其特征在于,对所述实体和上位词在语义空间的映射进行实体词向量和上位词向量的优化,包括:根据具有同一个上位词的实体词向量相似,优化相似的所述实体词向量;通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的相似度,优化所述上位词向量。5.根据权利要求4所述的方法,其特征在于,所述根据具有同一个上位词的实体词向量相似,优化相似的所述实体词向量,包括:将属于同一上位词的实体作为一个集合,利用所述集合中每一实体的实体词向量,通过skip-gram模型优化所述集合中其他实体的实体词向量。6.根据权利要求4所述的方法,其特征在于,所述通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的相似度,优化所述上位词向量包括:通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的距离之和,调整所述上位词向量,得到使所述距离之和最小的上位词向量。7.根据权利要求1所述的方法,其特征在于,将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系之前,所述方法还包括:根据所述上位词网络中已知上下位关系的实体词向量和上位词向量,构建所述上下位关系判别模型。8.根据权利要求7所述的方法,...

【专利技术属性】
技术研发人员:郑孙聪李潇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1