基于图神经网络的短文本相似度计算方法技术

技术编号：33426074 阅读：44 留言：0更新日期：2022-05-19 00:17

本发明专利技术公开了一种基于图神经网络的短文本相似度计算方法，包括以下步骤：构建文本图表达获取文本的基础图结构数据；基于注意力的边学习机制，通过节点信息学习到文本图的边；采用混合多头图学习机制，将图注意力网络及GraphSAGE网络产生的节点进行混合表达；图相似度计算。本发明专利技术通过将获取的文本表示建模为图结构并送入图注意力网络和GraphSAGE网络进行学习，对学习到的结果进行融合，再通过全连接层获取到句子综合了上下文信息和高层语义信息的最终表达，最后采用皮尔逊相关系数对计算句子表达之间的相似性。算句子表达之间的相似性。算句子表达之间的相似性。

全部详细技术资料下载

【技术实现步骤摘要】
基于图神经网络的短文本相似度计算方法

[0001]本专利技术属于语言处理
，具体涉及到一种基于图神经网络的短文本相似度计算方法。

技术介绍

[0002]在日常生活中，因短文本在微博、短信、短视频领域的频繁出现，短文本相似度计算这一任务的需求在日益扩增。短文本相似度计算是自然语言处理(NLP)乃至机器学习领域的难点和热点，它是NLP中一个重要任务，既可以当成一个单独的任务，又可以作为其它NLP应用的基础。目前短文本相似度计算方法通常使用基于外部知识的方法及基于序列的方法，其中基于外部知识的方法借助譬如语义关联知识库、语义分析树、外部语料库等语言学工具以及预训练模型，这类方法依赖于人为构建的既定规则以及人工构建的特征工程，通常需要大量的计算资源以及专业知识作为前期工作；基于序列的方法通常是将一个文本表示成一组标志的有序组合，这种方法缺乏文本的结构性知识并且不能获取到两个距离较长的标志之间的关系，缺乏对文本内容的准确和细腻的理解。

技术实现思路

[0003]本专利技术要解决的技术问题在于提供一种基于图神经网络的短文本相似度计算方法，该方法通过边学习机制、混合多头图学习机制进行短文本相似度计算，解决了现有技术中存在的问题。
[0004]为了解决上述技术问题，本专利技术通过以下方式来实现：
[0005]基于图神经网络的短文本相似度计算方法，包括以下步骤：
[0006]1)构建文本图表达获取文本的基础图结构数据；
[0007]2)基于注意力的边学习机制，通过节点信息学习到文本...

【技术保护点】

【技术特征摘要】
1.基于图神经网络的短文本相似度计算方法，其特征在于：包括以下步骤：1)构建文本图表达获取文本的基础图结构数据；2)基于注意力的边学习机制，通过节点信息学习到文本图的边；3)采用混合多头图学习机制，将图注意力网络及GraphSAGE网络产生的节点进行混合表达；4)图相似度计算。2.根据权利要求1所述的基于图神经网络的短文本相似度计算方法，其特征在于：所述步骤1)中的构建文本图表达获取文本的基础图结构数据，首先将输入的短文本进行文本清洗及文本分词，通过图构建将原始文本转为能够被图神经网络利用的图结构形式，然后采用采用预训练的GloVe模型对清洗后的文本进行词嵌入，将每个词嵌入作为图的一个节点，进而通过文本图表达获取文本的基础图结构数据。3.根据权利要求1所述的基于图神经网络的短文本相似度计算方法，其特征在于：所述步骤2)中基于注意力的边学习机制，通过节点信息学习到文本图的边，利用可学习的权重矩阵计算每个节点之间的相关度，若相关度大于等于某阈值，则在两个节点之间构建边，其具体公式如下：其中，W表示为可学习权重矩阵，α表示为设定阈值，v
j
、v
i
表示为节点表示，
⊙
表示向量之间的点乘，
×
表示矩阵之间的乘法，若e
ij
为1，则在节点i、j之间构建边。4.根据权利要求1所述的基于图神经网络的短文本相似度计算方法，其特征在于：所述...

【专利技术属性】
技术研发人员：彭德中，沈何川，吕建成，彭玺，桑永胜，胡鹏，孙亚楠，王旭，陈杰，王骞，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人