一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统技术方案

技术编号：39933686 阅读：18 留言：0更新日期：2024-01-08 22:01

本发明专利技术涉及一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统，包括：数据预处理：设置增量同步数据获取任务，进行数据采集和清洗，加载到Mysql环境当中；列语义识别：基于数据集的列关系属性及属性关系构建词汇关系图，作为双层GCN图卷积网络输入来获取GCN全局语义特征嵌入；通过RoBERTa预训练模型线性化编码，将初步列向量输入到三层Tansformer使用其多头列注意力机制来获取局部语义特征嵌入，将并联输出的嵌入向量通过注意力机制融合权值，得到全局‑局部交互的上下文语义信息，并使用Adaline进行分类预测；本发明专利技术构建了上下文列语义识别模型，基于关系列投影进行元数据的语义识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及一种基于gcn和roberta的上下文感知的列语义识别方法和系统。

技术介绍

1、在人们在日常生活和管理过程中，各种行业和领域的信息管理系统、数据库系统产生了大量繁杂数据。

2、目前在各个业务领域中，数据在类型、结构、来源等方面都呈现多元化特征。结构化关系数据在数据资源中占据最重要地位，为数据资源管理提供了基础和依据。当聚焦于关系型数据库的列投影元数据时，在表格数据中，每一列通常代表一种特定类型的信息，例如，在财务报表中，一列可能表示“销售额”，另一列可能表示“净利润”。在医疗记录中，一列可能包含“患者姓名”，另一列可能包含“诊断结果”。这些列的含义对于数据的解释和应用至关重要，但由于受到业务系统软件厂商的技术保护，目前数据库表结构中的列投影元数据不包含相关标签机制或注释信息，导致即便获取到的列投影元数据也缺乏真实语义信息以及会出现列投影元数据同义不同名问题。

3、此外，基于关系数据列进行语义识别的研究中仍存在很多问题：首先，文本语义识别需要人工进行特征工程，成本高昂。其次，传...

【技术保护点】

1.一种基于GCN和RoBERTa的上下文感知的列语义识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法，其特征在于，在该方法中，编写Spark作业执行将Hudi与MySQL数据链路打通操作来设置增量同步数据获取任务，并且按照固定维度分区进行数据采集和清洗，采集得到的数据按照覆盖现有数据的形式加载到Mysql环境当中；包括：

3.根据权利要求2所述的一种基于GCN和RoBERTa的上下文感知的列语义识别方法，其特征在于，构建词汇关系图，包括：

4.根据权利要求1所述的一种基于GCN和RoBE...

【技术特征摘要】

1.一种基于gcn和roberta的上下文感知的列语义识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于gcn和roberta的上下文感知的列语义识别方法，其特征在于，在该方法中，编写spark作业执行将hudi与mysql数据链路打通操作来设置增量同步数据获取任务，并且按照固定维度分区进行数据采集和清洗，采集得到的数据按照覆盖现有数据的形式加载到mysql环境当中；包括：

3.根据权利要求2所述的一种基于gcn和roberta的上下文感知的列语义识别方法，其特征在于，构建词汇关系图，包括：

4.根据权利要求1所述的一种基于gcn和roberta的上下文感知的列语义识别方法，其特征在于，将向量输入到为双层gcn图卷积网络进行卷积操作，并根据节点的邻域属性引出节点的嵌入向量，包括：

5.根据权利要求1所述的一种基于gcn和roberta的上下文感知的列语义识别方法，其特征在于，通过roberta预训练模型线性化编码，将初步列向量输入到三层tansformer使用其多头列注意力机制来获取...

【专利技术属性】
技术研发人员：郭莹，张颖，王英龙，杨美红，吴晓明，潘景山，杨晓晗，刘尚旭，
申请(专利权)人：山东省计算中心国家超级计算济南中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人