多表拼接方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29836628 阅读:27 留言:0更新日期:2021-08-27 14:26
本申请公开了一种多表拼接方法、装置、电子设备及存储介质。其中,该方法包括:基于关系数据表集合构建本体视图;其中,关系数据表集合包括主表和至少一个副表,本体视图中的每个节点代表一个数据表,两个节点之间的边代表两个表之间的关系;基于本体视图获取每个副表节点到主表节点的元路径;其中,每条元路径中的相邻两节点之间的连接关系包括对应两表之间的关系和拼表操作符;基于每个元路径,将对应副表中的特征数据拼接到主表中;每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主表。本申请使用元路径实现关系型数据库中的多表拼表,可以灵活有效地控制多表特征空间,直观高效地完成了多表特征的聚合。

【技术实现步骤摘要】
多表拼接方法、装置、电子设备及存储介质
本申请涉及人工智能
,具体涉及一种多表拼接方法、装置、电子设备及存储介质。
技术介绍
多表数据是企业应用中常用数据类型,通常企业会将与应用有关的全部数据通过关系数据表集合来采集和管理,关系数据表集合中的多个数据表一般按照数据在现实中的关系来组织和关联。关系数据表集合是一种大而全的数据管理方式,虽然可以实现最广泛的支持,但显然对一些特定应用来说又显得过于复杂和冗余。典型地,对于人工智能模型的机器学习任务来说,由于机器学习算法只能从给定的训练数据中学习,训练中使用的特征的选择有时比模型的选择更重要,所以要优化机器学习任务通常需要构造一个和任务相关的特征。特征构造也称为特征工程(FeatureEngineering),是从现有数据集合中构造与任务密切相关的新特征从而训练机器学习模型的过程。一般情况下,特征工程都需要从现有的数据集合中构造额外特征,构造过程中使用的特征数据通常分布在多张相关的数据表中,需要从多个数据表中提取相关信息并存入单张数据表中,然后该单张数据表可直接用来训练机器学习模型。其中,本文档来自技高网...

【技术保护点】
1.一种多表拼接方法,其特征在于,包括:/n基于关系数据表集合构建本体视图;其中,所述关系数据表集合包括一个主数据表和至少一个副数据表,所述本体视图中的每个节点代表一个数据表,所述本体视图中两个节点之间的关系边代表对应两个数据表之间的关系;/n基于所述本体视图,获取每个副数据表节点到主数据表节点的元路径;其中,每条元路径中的相邻两个节点之间的连接关系包括对应两个数据表之间的关系和拼表操作符;/n基于每个元路径,将对应副数据表中的特征数据拼接到主数据表中;其中,每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主数据表。/n

【技术特征摘要】
1.一种多表拼接方法,其特征在于,包括:
基于关系数据表集合构建本体视图;其中,所述关系数据表集合包括一个主数据表和至少一个副数据表,所述本体视图中的每个节点代表一个数据表,所述本体视图中两个节点之间的关系边代表对应两个数据表之间的关系;
基于所述本体视图,获取每个副数据表节点到主数据表节点的元路径;其中,每条元路径中的相邻两个节点之间的连接关系包括对应两个数据表之间的关系和拼表操作符;
基于每个元路径,将对应副数据表中的特征数据拼接到主数据表中;其中,每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主数据表。


2.根据权利要求1所述的方法,其中,所述获取每个副数据表节点到主数据表节点的元路径包括:
对于所述至少一个副数据表中的每个副数据表,在本体视图中随机选取对应副数据表节点到达主数据表节点的路径,或者在本体视图中选取对应副数据表节点到达主数据表节点的最短路径,或者在本体视图中按用户配置条件选取对应副数据表节点到达主数据表节点的路径,将选取结果作为所述元路径。


3.根据权利要求1或2所述的方法,其中,所述方法还包括:
在完成所述拼接之后,基于所述主数据表进行模型训练;
使用训练后的模型对所述关系数据表集合对应的至少一个服务进行预测。


4.根据权利要求1所述的方法,其特征在于,所述拼表操作符与所述相邻两个节点中尾端节点的数据表连接键值相对应。


5.根据权利要求4所述的方法,其特征在于,所述拼表操作符包括:
在所述尾端节点的数据表连接键值是唯一值时,对应的所述拼表操作符为直接拼表操作符;或者,
在所述尾端节点的数据表连接键值是非唯一值时,对应的所述拼表操作符为聚合拼表操作符。


6.根据权利要求5所述的...

【专利技术属性】
技术研发人员:周浩罗远飞涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1