System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本属性图的表征模型、预训练的自监督方法、节点表示更新的模型框架技术_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

文本属性图的表征模型、预训练的自监督方法、节点表示更新的模型框架技术

技术编号:39953908 阅读:4 留言:0更新日期:2024-01-08 23:31
本发明专利技术的目的是提供一种文本属性图的表征模型,用于预训练的自监督方法、以及一种节点表示更新的模型框架,所述方法包括:通过将文本属性图中的单词与基础的图结构解耦,并将单词作为节点建模到原有的图结构中,建模为层次文本属性图;进一步通过针对层次文本属性图中不同层级的自监督任务,捕捉原数据中的语义信息和结构信息;在模型训练阶段,通过均值聚合器对节点的表示进行更新,并使用更新后的节点表示作为输入,利用自监督任务继续进行预训练,从而得到层次文本属性图中的节点、单词的表示,完成图中的节点分类和链接预测任务。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及一种文本属性图的表征模型,预训练的自监督方法、以及节点表示更新的模型框架。


技术介绍

1、文本属性图在现实生活中随处可见,例如,在论文引用网络中,每篇论文都附有文本内容,而在社交网络中,每个用户都可以通过文本描述进行描述。对文本属性图的学习技术的研究在图学习、信息检索和自然语言处理等领域引起了相当大的关注,反映了在基于图的结构背景下理解和分析文本信息的重要性。

2、对文本属性图的研究一般分为三个范式:1)只用语言模型;2)只用图模型;3)使用语言模型和图模型的组合。目前的研究会遇到一些问题,如忽略节点或单词之间的关系、可扩展性限制和缺乏一般性。


技术实现思路

1、本说明书实施方式的目的是提供一种文本属性图表征模型,预训练的自监督方法、以及一种节点表示更新的模型框架。本说明书实施方式所提供的新的文本属性图表征模型和预训练的自监督方法,可以对初始节点的表征和词节点的表征同时进行优化学习。进一步,本说明书实施方式提供了基于聚合器的节点更新模型框架,该方法引入了多个自监督预训练任务,对层次文本属性图的语义信息和结构信息进行深入的挖掘,在一定训练轮次后,框架中的聚合器利用更新后的节点表示对初始的节点特征进行更新,可以更好地学习初始节点和词节点表征。

2、为实现上述目的,本说明书实施方式提供了一种文本属性图的表征模型,应用于对节点处含有初始文本特征的图的输入进行表示学习,所述方法包括:以文本属性图作为输入,将图中节点处含有的初始文本解耦出来,构成大型语料库,再根据单词在语料库中的共现频率构建单词之间的边;得到底层词网络之后,基于节点与文本的包含关系,构建初始节点-词节点之间的边,将上层初始网络与底层词网络连接起来,构成层次文本属性图;通过异构图神经网络,将构建的层次文本属性图节点特征映射到隐空间中,进行表征。

3、在一个实施方式中,在从解耦的文本中构建底层词网络的步骤中包括:对于从节点处解耦出来的文本,将其合并为一个大型语料库,通过一个tokenizer对语料库进行分词,获取所有单词的集合,将所有不同的单词视为图的节点;通过应用滑动窗格技术,计算每个滑动窗格中每组单词对的pmi值(一种衡量单词间共现程度的指标),对于pmi值大于0的单词对之间构造单词-单词边以得到底层词网络。

4、在一个实施方式中,在词网络的基础上构建层次文本属性图的步骤中包括:对于输入的文本属性图,首先通过分词器得到每个节点处包含的词序列,得到节点与词之间的包含关系;在构建好词网络之后,通过得到的包含关系构造节点-词边,将构建的词网络与原始的网络结构连接起来,构建成层次文本属性图。

5、本说明书实施方式还提供了用于预训练的自监督方法、以及节点表示更新的模型框架,应用于训练所述文本属性图的表征模型,所述装置包括多个自监督预训练任务单元:链接预测单元,通过预测层次本文属性图中存在的边捕捉数据中的结构信息;节点属性重构单元,通过掩蔽部分初始节点的基本属性,再利用异构图自编码模型重构掩蔽的特征来捕捉数据中的语义信息;重要词重构单元,通过掩蔽部分重要词的基本属性,再利用异构图自编码模型重构掩蔽的特征来捕捉重要词中的语义信息;重要词识别单元,通过预测节点-词边的属性来判断是否为重要词,捕捉节点与重要词的对应关系。每个优化装置的单元的优化目标对应层次文本属性图的不同层次。

6、在一个实施方式中,一种模型的的预训练方法,所述方法包括:链接预测单元,通过负采样一定量层次文本属性图中不存在的节点-节点边作为负样本,将存在的边作为正样本,通过异构图神经网络输入节点对之间的得分,再通过交叉熵损失函数训练模型学习层次文本属性图中的结构信息。

7、在一个实施方式中,一种模型的的预训练方法,所述方法包括:节点属性重构单元,通过掩蔽层次文本属性图中原始节点的初始特征,将原始的图结构和掩蔽后的特征矩阵输入图自编码器中,以获得重构后的节点特征;在输入到自编码器中的解码器之前,对掩蔽特征节点出的隐向量进行再掩蔽;最后通过收缩余弦损失训练模型学习层次文本属性图中的语义信息。

8、在一个实施方式中,一种模型的的预训练方法,所述方法包括:重要词重构单元,通过掩蔽层次文本属性图中词节点的初始特征,将原始的图结构和掩蔽后的特征矩阵输入图自编码器中,以获得重构后的词节点特征;在输入到自编码器中的解码器之前,对掩蔽特征节点出的隐向量进行再掩蔽;最后通过收缩余弦损失训练模型学习层次文本属性图中的语义信息。

9、在一个实施方式中,一种模型的的预训练方法,所述方法包括:重要词识别单元,根据重要词与初始节点的对应关系对节点-词边进行标签,通过异构图神经网络输出节点对的向量,并将向量的拼接形式作为边的表示,再通过映射头将边的表示映射为预测是否为重要词的概率,最后通过交叉熵函数训练模型学习节点与重要词的对应关系。

10、在一个实施方式中,一种节点表示更新的模型框架,所述方法包括:聚合器单元,通过将某种类型节点周围一跳的初始节点和词节点的特征进行聚合,并在不同类型的边上设置不同的超参数,以得到更新后的特征矩阵;多任务损失单元,通过设置不同的超参数,将上述自监督任务的损失合并为一个多任务损失对模型进行训练。

11、由以上本说明书实施方式提供的技术方案可见,本说明书实施方式的目的是提供一种文本属性图表征模型,用于预训练的自监督方法、以及节点表示更新的模型框架。本说明书实施方式的提供的新的文本属性图表示模型,可以有效地实现单个单词与节点信息的交互,更大程度地利用初始的文本信息;进一步,本说明书实施方式提供了用于预训练的自监督方法、以及节点表示更新的模型框架,该训练方法在自监督的设定下为模型提供了多层次的监督信号,能够深入挖掘层次文本属性图中的结构信息以及语义信息。实验的结果也证明了本说明书提供的模型和训练方法和装置可以有效地学习到泛化的文本属性图表征。

本文档来自技高网...

【技术保护点】

1.一种文本属性图的表征模型的生成方法,其特征在于,包括:

2.如权利要求1所述方法,其特征在于,在步骤“将原始的所述文本属性图与所述词网络联合在一起构成层次文本属性图”包括:

3.如权利要求1所述方法,其特征在于,在步骤“通过异构图神经网络对层次文本属性图进行表征学习从而生成文本属性图的表征模型”包括:

4.一种文本属性图的表征模型,其特征在于,该表征模型包括层次文本属性图,其中,所述层次文本属性图的上层为原始的所述文本属性图,所述层次文本属性图的下层为词网络,其中,对于词节点处的属性而言,通过一个预训练语言模型产生的表示作为其特征;对于初始节点处的属性而言,通过聚合其周围所有一跳词节点邻居的特征并取平均值来得到。

5.一种用于预训练的自监督方法,其用于对如权利要求4所述的文本属性图的表征模型进行自监督训练,其特征在于,所述方法包括:

6.如权利要求5所述方法,其特征在于,在节点属性重建任务中,在输入到图解码器之前,将掩蔽节点处的隐空间向量再掩蔽。

7.一种多任务损失优化装置,其特征在于,应用于如权利要求4所述的文本属性图的表征模型,所述装置包括:

8.一种节点表示更新的模型框架,其特征在于,应用于层次文本属性图的表征学习,所述模型框架包括:

...

【技术特征摘要】

1.一种文本属性图的表征模型的生成方法,其特征在于,包括:

2.如权利要求1所述方法,其特征在于,在步骤“将原始的所述文本属性图与所述词网络联合在一起构成层次文本属性图”包括:

3.如权利要求1所述方法,其特征在于,在步骤“通过异构图神经网络对层次文本属性图进行表征学习从而生成文本属性图的表征模型”包括:

4.一种文本属性图的表征模型,其特征在于,该表征模型包括层次文本属性图,其中,所述层次文本属性图的上层为原始的所述文本属性图,所述层次文本属性图的下层为词网络,其中,对于词节点处的属性而言,通过一个预训练语言模型产生的表示作为其...

【专利技术属性】
技术研发人员:魏忠钰旷皓予
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1