上下位关系的判别方法、系统和计算机设备技术方案

技术编号:22055329 阅读:252 留言:0更新日期:2019-09-07 15:16
本发明专利技术揭示了一种上下位关系的判别方法、系统和计算机设备。所述方法包括:获取上下位关系所对应的上位词和实体;将上位词和实体通过所获取多源信息转化为对应的数学描述,获得分别对应于上位词和实体的向量表示;针对于一信息源所对应上位词和实体的向量表示进行拼接得到长向量;根据长向量在全连接神经网络投射生成深度语义向量,深度语义向量在全连接神经网络的输出即对应于上下位关系的判别结果。对于所进行的上下位关系判别而言,在算法上仅需要实现向量表示的获得,借助于全连接神经网络得到判别结果,算法开销得到极大降低,也能够适应于各种上下位判断的判别,泛化能力得到增强,得以实现语义特征的精准捕获,进而相应提高判别的准确性。

Distinguishing Method, System and Computer Equipment of Upper and Lower Relations

【技术实现步骤摘要】
上下位关系的判别方法、系统和计算机设备
本专利技术涉及互联网应用
,特别涉及一种上下位关系的判别方法、系统和计算机设备。
技术介绍
随着互联网应用领域的发展,自然语言处理为诸多互联网应用的实现提供支持,作为诸多互联网应用的基础设施,将通过抽取主题词之间的上下位关系实现互联网应用中智能的语言理解能力。所构建的上下位关系,例如,知识库,即知识图谱中构建的上下位关系,需要进行正确性判别,以保证执行自然语言处理任务的准确性。现有上下位关系判别的进行,一方面依赖于人工筛选建立的词典,另一方面则是对上下位关系中上位词和实体借助于各种方式进行运算,进而采用分类模型来判断上下位关系是否正确。依赖于人工筛选所建立词典的方式,是将上位词视为实体的一个属性,根据实体的标签属性,建立实体的标签词典,由此对于一上下位关系中的上位词,将在标签词典中付交进行上位词和实体标签之间的语义相似度计算,从而判断两者是否存在关联。此方式判别上下位关系的准确性较高,但由于依赖于人工筛选建立的词典,泛化能力弱。通过上下位关系中上位词和实体的运算以及分类模型的预测,虽然不需要人工介入,但是存在着非常高的算法开销,且仍然无法本文档来自技高网...

【技术保护点】
1.一种上下位关系的判别方法,其特征在于,所述方法包括:获取上下位关系所对应的上位词和实体;将所述上位词和实体通过所获取多源信息转化为对应的数学描述,获得分别对应于所述上位词和实体的向量表示;针对于一信息源所对应上位词和实体的向量表示进行拼接,得到长向量;根据所述长向量在全连接神经网络投射生成深度语义向量,所述深度语义向量在所述全连接神经网络的输出即对应于所述上下位关系的判别结果。

【技术特征摘要】
1.一种上下位关系的判别方法,其特征在于,所述方法包括:获取上下位关系所对应的上位词和实体;将所述上位词和实体通过所获取多源信息转化为对应的数学描述,获得分别对应于所述上位词和实体的向量表示;针对于一信息源所对应上位词和实体的向量表示进行拼接,得到长向量;根据所述长向量在全连接神经网络投射生成深度语义向量,所述深度语义向量在所述全连接神经网络的输出即对应于所述上下位关系的判别结果。2.根据权利要求1所述的方法,其特征在于,所述获取上下位关系所对应的上位词和实体,包括:根据知识图谱中触发进行的上下位关系判别,从所述知识图谱已构建的上下位关系上获取对应的上位词和实体,所述上位词和实体用于进行所述上下位关系的判别。3.根据权利要求1所述的方法,其特征在于,所述多源信息是多个信息源中所述上位词和实体相关的文本信息,所述将所述上位词和实体通过所获取多源信息转化为对应的数学描述,获得分别对应于所述上位词和实体的向量表示,包括:根据多个信息源中所述上位词和实体相关的文本信息,分别进行所述每一信息源下所述上位词和实体的数学描述转化,得到各自信息源下所述上位词和实体分别对应的向量表示。4.根据权利要求3所述的方法,其特征在于,所述多源信息包括百科文本,所述根据多个信息源中所述上位词和实体相关的文本信息,分别进行所述每一信息源下所述上位词和实体的数学描述转化,得到各自信息源下所述上位词和实体分别对应的向量表示,包括:按照分字粒度和分词粒度分别进行所述百科文本的切分处理,获得所述百科文本中切分所得到的字和词;根据所在百科文本将所述字和词分别表征为实数值向量,获得字向量和词向量,所述词向量与所在百科文本的上下文信息相关;通过所述字向量和词向量分别构建所述上位词和实体在所述百科文本下的向量表示。5.根据权利要求4所述的方法,其特征在于,所述根据所在百科文本将所述字和词分别表征为实数值向量,获得字向量和词向量,包括:对切分所得到的词,根据所对应语义内容替换为标识符,且构建所述标识符和对应语义内容所指示名称之间的映射,所述词以标识符的形式存在;针对于切分所得到的字和词,分别根据所述百科文本中的上下文信息训练字向量和词向量,并将所述字向量映射于所对应的字,所述词向量映射于所对应词被替换的标识符。6.根据权利要求5所述的方法,其特征在于,所述通过所述字向量和词向量分别构建所述上位词和实体在所述百科文本下的向量表示,包括:获取所述上位词中字所映射的字向量;按照所述上位词中字的顺序以及指定扩大倍数,进行所述上位词中字所映射字向量的密度插值,获得所述上位词在所述百科文本下的向量表示,所述向量表示为所述上位词的初始词向量。7.根据权利要求5所述的方法,其特征在于,所述多源信息包括标签,所述通过所述字向量和词向量分别构建所述上位词和实体在所述百科文本下的向量表示,包括:根据名称所映射标识符,获取实体所对应的词向量;根据所述词向量和所述实体的标签,生成所述实体在所述百科文本下的向量表示,所述向量表示为实体向量。8.根据权利要求...

【专利技术属性】
技术研发人员:徐程程郑孙聪
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1