一种基于无监督式图神经网络的文本噪声筛选方法及系统技术方案

技术编号:37069076 阅读:15 留言:0更新日期:2023-03-29 19:46
本发明专利技术公开了一种基于无监督式图神经网络的文本噪声筛选方法及系统,本方法首先根据初始标签数据构建文本图,从文本图中构建文本邻接矩阵和顶点特征矩阵,然后依据文本邻接矩阵利用图卷积神经网络对文本的顶点进行信息聚合,即依据文本邻接矩阵采用图卷积的方式来注意到对文本的顶点的有效连接信息,使得文本顶点充分汇聚周围词汇顶点的信息,同一类的顶点的特征表达能够紧凑簇拥在一块,最后利用这一特性,通过KNN能够区分出正确和错误的标签数据,达到去噪的目的。本方法能够准确的区分正确的标签数据和错误的标签数据,将这部分数据移除,可以有效避免人工智能算法学习过程中遇到错误的标签数据而导致学习能力低下的问题。题。题。

【技术实现步骤摘要】
一种基于无监督式图神经网络的文本噪声筛选方法及系统


[0001]本专利技术涉及人工智能
,特别涉及一种基于无监督式图神经网络的文本噪声筛选方法及系统。

技术介绍

[0002]互联网无时无刻都在产生新的文本数据,借助文本分类可以极大的提高工作或生活效率,如舆情监控、邮件过滤、知识图谱的构建等任务,知识图谱的关系分类即文档分类,通过文档分类技术,可以极快的判断文档中实体之间属于哪种关系,从而自动的、快速的构建知识图谱。无论是搜索引擎、电商平台、还是知识图谱数据库都需要借助文本分类来完成相应的任务。
[0003]但是实际的标注数据是存在大量的错误标签的,由于所标注的样本数据需要人工逐一进行审核,并且打上相对应的标签,所以标注过程是十分耗时的工作,并且人长时间的标注数据会导致产生错误标注的现象,或者是标注人员对各个类别的概念不清晰,导致标注错误。
[0004]其中还有一些使用自动化的方法来快速的产生标签数据,这种方式的错误标签数据更严重。总的来说,使用人工以及自动化的方法来标注数据,势必会产生错误标注的现象,这于人工智能算法而言是不利的,如果不将这部分数据移除,算法就无法很好的对每一类标签数据进行区分,失去较好的鲁棒性。

技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题。为此,本专利技术提出一种基于无监督式图神经网络的文本噪声筛选方法及系统,能够准确的区分正确的标签数据和错误的标签数据。
[0006]本专利技术的第一方面,提供了一种基于无监督式图神经网络的文本噪声筛选方法,所述基于无监督式图神经网络的文本噪声筛选方法包括:
[0007]获取初始标签数据,根据所述初始标签数据构建文本图;
[0008]根据所述文本图构建文本邻接矩阵,并根据所述文本图构建文本和词汇的顶点特征矩阵;
[0009]将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示;
[0010]通过KNN根据所述顶点特征表示进行聚类,筛选出正确标签数据与错误标签数据。
[0011]根据本专利技术的实施例,至少具有如下技术效果:
[0012]本方法首先根据初始标签数据构建文本图,从文本图中构建文本邻接矩阵和顶点特征矩阵,然后依据文本邻接矩阵利用图卷积神经网络对文本的顶点进行信息聚合,即依据文本邻接矩阵采用图卷积的方式来注意到对文本的顶点的有效连接信息,使得文本顶点充分汇聚周围词汇顶点的信息,同一类的顶点的特征表达能够紧凑簇拥在一块,最后利用
这一特性,通过KNN能够区分出正确和错误的标签数据,达到去噪的目的。本方法能够准确的区分正确的标签数据和错误的标签数据,将这部分数据移除,可以有效避免人工智能算法学习过程中遇到错误的标签数据而导致学习能力低下的问题。
[0013]根据本专利技术的一些实施例,所述根据所述文本图构建文本邻接矩阵,包括:
[0014]通过使用互信息建立文本内词汇之间的关联关系,通过tf

idf算法建立词汇与文本的关联关系,得到文本邻接矩阵。
[0015]根据本专利技术的一些实施例,所述将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示,包括:
[0016]根据所述文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第一图特征表示;
[0017]通过多尺度的卷积算子对所述文本邻接矩阵进行特征变换,得到新的文本邻接矩阵;并根据所述新的文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第二图特征表示;
[0018]将所述第一图特征表示和所述第二图特征表示融合,得到第三图特征表示;
[0019]根据所述第三图特征表示迭代训练至收敛,得到信息聚合后的顶点特征表示。
[0020]根据本专利技术的一些实施例,所述根据所述文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第一图特征表示,包括:
[0021]Z1=F(X,A)
[0022]F(X,A)=A

(A

XW0)W1[0023]其中,Z1表示第一图特征表示,X表示所述顶点特征矩阵,A表示邻接矩阵,W0和W1表示可更新权重,A

表示通过A得到的归一化对称邻接矩阵,F()表示图卷积神经网络。
[0024]根据本专利技术的一些实施例,通过多尺度的卷积算子对所述文本邻接矩阵进行特征变换,得到新的文本邻接矩阵;并根据所述新的文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第二图特征表示,包括:
[0025]A
°
=f(w1°
A)+f(w2°
A)
[0026]其中,w1表示卷积核大小为的1*1的过滤器,w2表示卷积核大小为3*3的过滤器,
°
表示卷积操作,f()表示激活函数,A
°
表示所述新的文本邻接矩阵;
[0027]Z2=F(x,A
°
)
[0028]F(X,A
°
)=ReLu(A~XW3)
[0029]其中,W3表示可更新的权重,Z2表示第二图特征表示。
[0030]根据本专利技术的一些实施例,所述将所述第一图特征表示和所述第二图特征表示融合,得到第三图特征表示,包括:
[0031]Z3=Z
i
+αZ2[0032]其中,α表示权重因子,Z3表示第三图特征表示。
[0033]根据本专利技术的一些实施例,所述图卷积神经网络模型的损失函数包括:
[0034][0035]其中,y表示A中的元素,y
*
代表A
*
的元素,
[0036]本专利技术的第二方面,提供了一种基于无监督式图神经网络的文本噪声筛选系统,所述基于无监督式图神经网络的文本噪声筛选系统包括:
[0037]数据获取单元,用于获取初始标签数据,根据所述初始标签数据构建文本图;
[0038]矩阵构建单元,用于根据所述文本图构建文本邻接矩阵,并根据所述文本图构建文本和词汇的顶点特征矩阵;
[0039]顶点特征聚合单元,用于将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示;
[0040]噪声筛选单元,用于通过KNN根据所述顶点特征表示进行聚类,筛选出正确标签数据与错误标签数据。
[0041]由于基于无监督式图神经网络的文本噪声筛选系统采用了上述实施例的基于无监督式图神经网络的文本噪声筛选方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
[0042]本专利技术的第三方面,提供了一种电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督式图神经网络的文本噪声筛选方法,其特征在于,所述基于无监督式图神经网络的文本噪声筛选方法包括:获取初始标签数据,根据所述初始标签数据构建文本图;根据所述文本图构建文本邻接矩阵,并根据所述文本图构建文本和词汇的顶点特征矩阵;将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示;通过KNN根据所述顶点特征表示进行聚类,筛选出正确标签数据与错误标签数据。2.根据权利要求1所述的基于无监督式图神经网络的文本噪声筛选方法,其特征在于,所述根据所述文本图构建文本邻接矩阵,包括:通过使用互信息建立文本内词汇之间的关联关系,通过tf

idf算法建立词汇与文本的关联关系,得到文本邻接矩阵。3.根据权利要求1所述的基于无监督式图神经网络的文本噪声筛选方法,其特征在于,所述将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示,包括:根据所述文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第一图特征表示;通过多尺度的卷积算子对所述文本邻接矩阵进行特征变换,得到新的文本邻接矩阵;并根据所述新的文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第二图特征表示;将所述第一图特征表示和所述第二图特征表示融合,得到第三图特征表示;根据所述第三图特征表示迭代训练至收敛,得到信息聚合后的顶点特征表示。4.根据权利要求3所述的基于无监督式图神经网络的文本噪声筛选方法,其特征在于,所述根据所述文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第一图特征表示,包括:Z1=F(X,A)F(X,A)=A

(A

XW0)W1其中,Z1表示第一图特征表示,X表示所述顶点特征矩阵,A表示邻接矩阵,W0和W1表示可更新权重,A

表示通过A得到的归一化对称邻接矩阵,F()表示图卷积神经网络。5.根据权利要求4所述的基于无监督式图神经网络的文本噪声筛选方法,其特征在于,通过多尺度的卷积算子对所述文本邻接矩阵进行特征变换,得到新的文本邻接矩阵;并根据所述新的文本邻接矩阵和所述顶点特征矩阵进行顶点的特...

【专利技术属性】
技术研发人员:何国对苏一海赵芸施宇钟英生韦肖斌林富强赵达文龙珑
申请(专利权)人:广西壮族自治区通信产业服务有限公司技术服务分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1