System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统技术方案_技高网

一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统技术方案

技术编号:39933686 阅读:5 留言:0更新日期:2024-01-08 22:01
本发明专利技术涉及一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统,包括:数据预处理:设置增量同步数据获取任务,进行数据采集和清洗,加载到Mysql环境当中;列语义识别:基于数据集的列关系属性及属性关系构建词汇关系图,作为双层GCN图卷积网络输入来获取GCN全局语义特征嵌入;通过RoBERTa预训练模型线性化编码,将初步列向量输入到三层Tansformer使用其多头列注意力机制来获取局部语义特征嵌入,将并联输出的嵌入向量通过注意力机制融合权值,得到全局‑局部交互的上下文语义信息,并使用Adaline进行分类预测;本发明专利技术构建了上下文列语义识别模型,基于关系列投影进行元数据的语义识别。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种基于gcn和roberta的上下文感知的列语义识别方法和系统。


技术介绍

1、在人们在日常生活和管理过程中,各种行业和领域的信息管理系统、数据库系统产生了大量繁杂数据。

2、目前在各个业务领域中,数据在类型、结构、来源等方面都呈现多元化特征。结构化关系数据在数据资源中占据最重要地位,为数据资源管理提供了基础和依据。当聚焦于关系型数据库的列投影元数据时,在表格数据中,每一列通常代表一种特定类型的信息,例如,在财务报表中,一列可能表示“销售额”,另一列可能表示“净利润”。在医疗记录中,一列可能包含“患者姓名”,另一列可能包含“诊断结果”。这些列的含义对于数据的解释和应用至关重要,但由于受到业务系统软件厂商的技术保护,目前数据库表结构中的列投影元数据不包含相关标签机制或注释信息,导致即便获取到的列投影元数据也缺乏真实语义信息以及会出现列投影元数据同义不同名问题。

3、此外,基于关系数据列进行语义识别的研究中仍存在很多问题:首先,文本语义识别需要人工进行特征工程,成本高昂。其次,传统机器学习仅仅依赖于数据库单独列的属性值进行语义区分,缺乏对关系数据表的上下文语义信息的特征捕获,无法准确区分其列语义信息,若想获取上下文语义信息,便可以利用注意力机制获取每个单词权重,但是仅重点关注于局部连续词序列,仅提供关系数据表的局部上下文序列语义特征信息,对于捕获关系表的全局语义信息的特征的方面受到限制;最后,关系表数据不同于一般文本数据,具备结构化数据的列顺序无关的特征,即对于关系数据列的属性值,若任意交换列位置,并不影响全局语义表达,而传统模型对关系数据的列顺序敏感,导致对模型预测结果准确率有很大干扰。


技术实现思路

1、针对上述技术中存在的问题,本专利技术提供了一种基于gcn和roberta的上下文感知的列语义识别方法。

2、基于上下文信息以及关系列顺序无关性的特征,本专利技术提出了基于词汇图卷积网络(gcn)和roberta并联结合的共现属性交互列语义识别模型,其中gcn将能够有效捕捉文档、单词以及全局依赖关系的共现信息的词汇图,roberta模型高效关注于局部连续单词序列,提供局部上下文信息。该方法首先通过采集hudi数据湖的多业务系统关系表数据作为初始化数据;其次,输入列关系依赖以及属性关系依赖,通过双层gcn网络和roberta的多头自注意力机制分别捕捉全局结构语义信息特征及局部结构语义信息特征,通过注意力机制将gcn网络的全局上下文特征输出向量和roberta的局部上下文特征输出向量进行交互融合,让待预测列投影元数据学习到更丰富的上下文信息。最后通过嵌入adaline自适应策略分类层预测分类;再次,基于同一关系数据主题的语义标签的共现特征语义依赖,通过transformer-encoder将上述预测的不完全正确的标签序列映射为正确的标签;最终,通过交叉熵函数以及设置固定时间周期内从数据湖中抽取的增量数据来更新优化模型。

3、术语解释:

4、1、元数据:描述数据的数据,用于提供关于数据及信息资源的描述性信息,换言之,元数据是关于数据的组织、数据域以及关系的信息,帮助人们理解、管理、组织和使用数据。

5、2、gcn:gcn(graphconvolutionalnetwork)是一种深度学习模型,可以直接作用在在图上并且利用结构信息的图卷积神经网络。它通过多个图卷积层逐步更新节点的表示,允许节点之间传递和聚合信息,从而捕捉图中的复杂关系。

6、3、roberta:roberta(arobustlyoptimizedbertpretrainingapproach)是一种自然语言处理(nlp)中的预训练语言模型,基于bert模型提出的效果更好的改进版本。

7、4、spark作业:apache spark是一个开源、快速、通用、可扩展的分布式计算框架,设计用于处理大规模数据集的高性能数据处理和分析。spark作业(spark jobs)通常是指在apache spark框架上运行的数据处理、分析、计算任务,它们通常由一系列数据转换和计算操作组成,这些作业可以在分布式集群上并行执行,以提供高性能的数据处理能力。

8、5、spark会话:spark会话(sparksession)是一个高级别的与spark集群通信的编程接口,作为spark的核心入口点,提供了一种统一的方式来访问各种spark功能和处理分布式数据。spark会话构建在底层的spark核心之上,封装了各种功能,包括sql查询、dataframe操作、流处理、机器学习和图处理等。

9、6、hudi:hudi(hadoop upserts delete and incremental)是一个支持插入、更新、删除以及增量处理的数据湖框架。apache hudi将核心仓库和数据库功能直接引入数据湖。hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。

10、7、mysql:mysql是一种开源的关系型数据库管理系统(rdbms),由瑞典mysql ab公司开发,用于存储、检索和管理数据。关系数据库依据关系模型基础将数据保存在不同的表中,mysql所使用的sql语言是用于访问数据库的最常用标准化语言。

11、8、hdfs:hdfs(hadoop distributed file system)是一个用于存储和管理大规模数据的分布式文件系统,一个hdfs集群通常由一个名称节点(namenode)和多个数据节点(datanode)组成,这些节点协同工作以存储和管理数据。

12、9、spark dataframe:spark dataframe是spark中的一个核心抽象,它是一种以rdd为基础的分布式数据集。dataframe可以被看作是一个表格或二维数据结构,类似于传统数据库表或pandas dataframe。它提供了高度优化的分布式数据处理能力,适用于大规模数据集的操作。

13、10、token化:tokenization是将原始文本数据分割成更小的单元的处理过程,这些单元通常是单词、标点符号、子词或字符等。常见的tokenization工具包括nltk(naturallanguage toolkit)、spacy、tokenizer等各种nlp工具包中的内置函数。

14、本专利技术的技术方案为:

15、一种基于gcn和roberta的上下文感知的列语义识别方法,包括:

16、数据预处理:编写spark作业执行将hudi与mysql数据链路打通操作来设置增量同步数据获取任务,并且按照固定维度分区进行数据采集和清洗,采集得到的数据按照覆盖现有数据的形式加载到mysql环境当中;

17、列语义识别:基于gcn和roberta构造的列语义识别模型作为预测模型;使用数本文档来自技高网...

【技术保护点】

1.一种基于GCN和RoBERTa的上下文感知的列语义识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法,其特征在于,在该方法中,编写Spark作业执行将Hudi与MySQL数据链路打通操作来设置增量同步数据获取任务,并且按照固定维度分区进行数据采集和清洗,采集得到的数据按照覆盖现有数据的形式加载到Mysql环境当中;包括:

3.根据权利要求2所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法,其特征在于,构建词汇关系图,包括:

4.根据权利要求1所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法,其特征在于,将向量输入到为双层GCN图卷积网络进行卷积操作,并根据节点的邻域属性引出节点的嵌入向量,包括:

5.根据权利要求1所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法,其特征在于,通过RoBERTa预训练模型线性化编码,将初步列向量输入到三层Tansformer使用其多头列注意力机制来获取局部语义特征嵌入,包括:

6.根据权利要求5所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法,其特征在于,线性化编码,包括:

7.根据权利要求1-6任一所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法,其特征在于,信息融合预测分类,包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法的步骤。

10.一种基于GCN和RoBERTa的上下文感知的列语义识别系统,其特征在于,用于实现权利要求1-7任一所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法,包括数据预处理模块、列语义识别模块、标签纠错及更新优化模块;

...

【技术特征摘要】

1.一种基于gcn和roberta的上下文感知的列语义识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于gcn和roberta的上下文感知的列语义识别方法,其特征在于,在该方法中,编写spark作业执行将hudi与mysql数据链路打通操作来设置增量同步数据获取任务,并且按照固定维度分区进行数据采集和清洗,采集得到的数据按照覆盖现有数据的形式加载到mysql环境当中;包括:

3.根据权利要求2所述的一种基于gcn和roberta的上下文感知的列语义识别方法,其特征在于,构建词汇关系图,包括:

4.根据权利要求1所述的一种基于gcn和roberta的上下文感知的列语义识别方法,其特征在于,将向量输入到为双层gcn图卷积网络进行卷积操作,并根据节点的邻域属性引出节点的嵌入向量,包括:

5.根据权利要求1所述的一种基于gcn和roberta的上下文感知的列语义识别方法,其特征在于,通过roberta预训练模型线性化编码,将初步列向量输入到三层tansformer使用其多头列注意力机制来获取...

【专利技术属性】
技术研发人员:郭莹张颖王英龙杨美红吴晓明潘景山杨晓晗刘尚旭
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1