System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 命名实体向量化的方法、装置、电子设备及介质制造方法及图纸_技高网

命名实体向量化的方法、装置、电子设备及介质制造方法及图纸

技术编号:41059274 阅读:6 留言:0更新日期:2024-04-24 11:10
本发明专利技术提供了一种命名实体向量化的方法、装置、电子设备及介质,包括:获取待识别文本,并提取待识别文本中的命名实体,得到命名实体序列;基于命名实体序列构建实体有向图;基于实体有向图进行图神经网络模型训练,得到命名实体向量。本发明专利技术能够更加全面地描述实体信息,完善实体向量。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其是涉及一种命名实体向量化的方法、装置、电子设备及介质


技术介绍

1、命名实体是指自然语言文本中存在有实际含义的名词,自然语言处理中描述实体信息可以采用基于词频的方法,如tf-idf,也有基于文本上下文的方法,如word2vec等。这些方法可以从实体名词本身或者文本上下文多个角度描述实体信息,得到向量化结果,用于下游多种nlp任务上,一定程度上可以描述出实体的部分信息,但命名实体信息还有可挖掘的空间。例如:文本中常常出现多个实体,多个实体可组成复杂的图网络,不同实体之间的关系不仅在文本中有上下文环境的语义关系,还存在图网络结构上的关系,而现有的方法无法全面的描述实体信息。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种命名实体向量化的方法、装置、电子设备及介质,能够更加全面地描述实体信息,完善实体向量。

2、为了实现上述目的,本专利技术实施例采用的技术方案如下:

3、第一方面,本专利技术实施例提供了一种命名实体向量化的方法,包括:获取待识别文本,并提取待识别文本中的命名实体,得到命名实体序列;基于命名实体序列构建实体有向图;基于实体有向图进行图神经网络模型训练,得到命名实体向量。

4、在一种实施方式中,基于命名实体序列构建实体有向图,包括:基于命名实体序列,将每两个相邻的命名实体组成实体对,并获取每个实体对的出现频率;以每个命名实体为图节点,按照命名实体序列的路径构建实体有向图,并将实体对的出现频率确定为实体有向图的边权重。

5、在一种实施方式中,基于实体有向图进行图神经网络模型训练,得到命名实体向量,包括:基于实体有向图生成新的命名实体序列;基于新的命名实体序列进行图神经网络模型训练,得到命名实体向量。

6、在一种实施方式中,基于实体有向图生成新的命名实体序列,包括:基于实体有向图的边权重,采用随机游走算法对实体有向图进行随机游走,生成新的命名实体序列。

7、在一种实施方式中,基于新的命名实体序列进行图神经网络模型训练,得到命名实体向量,包括:基于新的命名实体序列进行图神经网络模型训练,得到训练后的图神经网络模型;将训练后的图神经网络模型中实体节点的嵌入层向量确定为命名实体向量。

8、第二方面,本专利技术实施例提供了一种命名实体向量化的装置,包括:实体识别模块,用于获取待识别文本,并提取待识别文本中的命名实体,得到命名实体序列;图构建模块,用于基于命名实体序列构建实体有向图;模型训练模块,用于基于实体有向图进行图神经网络模型训练,得到命名实体向量。

9、在一种实施方式中,图构建模块还用于:基于命名实体序列,将每两个相邻的命名实体组成实体对,并获取每个实体对的出现频率;以每个命名实体为图节点,按照命名实体序列的路径构建实体有向图,并将实体对的出现频率确定为实体有向图的边权重。

10、在一种实施方式中模型训练模块还用于:基于实体有向图生成新的命名实体序列;基于新的命名实体序列进行图神经网络模型训练,得到命名实体向量。

11、第三方面,本专利技术实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。

12、第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。

13、本专利技术实施例带来了以下有益效果:

14、本专利技术实施例提供的上述命名实体向量化的方法、装置、电子设备及介质,首先,获取待识别文本,并提取待识别文本中的命名实体,得到命名实体序列;然后,基于命名实体序列构建实体有向图;最后,基于实体有向图进行图神经网络模型训练,得到命名实体向量。上述方法利用不同命名实体之间的图网络结构信息,通过图神经网络得到命名实体向量,从而能够更加全面地描述实体信息,完善实体向量。

15、本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

16、为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

本文档来自技高网...

【技术保护点】

1.一种命名实体向量化的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述命名实体序列构建实体有向图,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述实体有向图进行图神经网络模型训练,得到命名实体向量,包括:

4.根据权利要求3所述的方法,其特征在于,基于所述实体有向图生成新的命名实体序列,包括:

5.根据权利要求3所述的方法,其特征在于,基于所述新的命名实体序列进行图神经网络模型训练,得到命名实体向量,包括:

6.一种命名实体向量化的装置,其特征在于,包括:

7.根据权利要求6所述的装置,其特征在于,所述图构建模块还用于:

8.根据权利要求7所述的装置,其特征在于,所述模型训练模块还用于:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至5任一项所述的方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至5任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种命名实体向量化的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述命名实体序列构建实体有向图,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述实体有向图进行图神经网络模型训练,得到命名实体向量,包括:

4.根据权利要求3所述的方法,其特征在于,基于所述实体有向图生成新的命名实体序列,包括:

5.根据权利要求3所述的方法,其特征在于,基于所述新的命名实体序列进行图神经网络模型训练,得到命名实体向量,包括:

6.一种命名实体向量化的装置,其...

【专利技术属性】
技术研发人员:谢亚文何盼张涵刘星辰
申请(专利权)人:上海勃池信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1