当前位置: 首页 > 专利查询>波音公司专利>正文

根据模糊数据发现上下文和结构化数据结构制造技术

技术编号:38719365 阅读:16 留言:0更新日期:2023-09-08 23:15
本申请公开了根据模糊数据发现上下文和结构化数据结构。描述了一种用于在结构化存储系统中存储未知数据上下文和结构的数据的方法。该方法包括从来自一个或多个外部数据源的一个或多个入站数据块中提取键值对列表;基于一个或多个当前现有数据结构来计算来自所述一个或多个入站数据块的所述键值对列表的相似度;从所述一个或多个当前现有数据结构中确定所述列表的所述相似度中的最高相似度;确定所述列表的所述最高相似度不满足预定相似度阈值;创建新数据结构以存储来自所述一个或多个入站数据块的第一入站数据块的所述键值对列表;以及将所述键值对列表存储在所述结构化存储系统中的所述新数据结构中。存储系统中的所述新数据结构中。存储系统中的所述新数据结构中。

【技术实现步骤摘要】
根据模糊数据发现上下文和结构化数据结构


[0001]本文公开的主题总体上涉及数据库,并且更具体地涉及根据模糊数据(hazy data)发现上下文和结构化数据结构。

技术介绍

[0002]数据经常在组织之间进出转移以合作业务,或者来自外部源(诸如社交媒体)的公共数据在组织内部用于分析有关产品的趋势和观点。外部数据源中的数据结构(诸如数据模式)是未知的,并且需要将数据持久化到内部结构化存储装置中以供进一步使用。
[0003]当接收到从外部源流式传输的数据时,其数据模式通常是未知的。最简单存储方式是平面文件,然而,文件不便于查询、操作和分析。此外,每个文件可有不同的格式,因为数据来自不同的外部源(例如,不同的组织)并且具有不同的数据上下文(例如,工作定单、材料、用户等)。需要通过发现数据上下文和结构为来自各种源的传入数据创建数据结构。

技术实现思路

[0004]根据本公开的示例,公开了一种用于在结构化存储系统中存储未知数据上下文和结构的数据的方法。所述方法包括:从来自一个或多个外部数据源的一个或多个入站数据块中提取键(key)值对列表;基于一个或多个当前现有数据结构来计算来自所述一个或多个入站数据块的所述键值对列表的相似度;从所述一个或多个当前现有数据结构中确定所述列表的所述相似度中的最高相似度;确定所述列表的所述最高相似度不满足预定相似度阈值;创建新数据结构以存储来自所述一个或多个入站数据块的第一入站数据块的所述键值对列表;以及将所述键值对列表存储在所述结构化存储系统中的所述新数据结构中。
>[0005]根据本公开的示例,公开了一种计算机系统,其包括硬件处理器和存储指令的非暂态存储介质,所述指令当由硬件处理器执行时执行用于在结构化存储系统中存储未知数据上下文和结构的数据的方法。所述方法包括:从来自一个或多个外部数据源的一个或多个入站数据块中提取键值对列表;基于一个或多个当前现有数据结构来计算来自所述一个或多个入站数据块的所述键值对列表的相似度;从所述一个或多个当前现有数据结构中确定所述列表的所述相似度中的最高相似度;确定所述列表的所述最高相似度不满足预定相似度阈值;创建新数据结构以存储来自所述一个或多个入站数据块的第一入站数据块的所述键值对列表;以及将所述键值对列表存储在所述结构化存储系统中的所述新数据结构中。
[0006]各种附加特征可包括在计算机系统和用于在结构化存储系统中存储未知数据上下文和结构的数据的方法,包括以下特征中的一者或多者。一个或多个外部数据源中的每一者具有针对其相应数据集的不同数据结构。最高相似度低于预定相似度阈值。所述创建新数据结构包括生成和执行数据命令以在所述结构化存储系统中创建数据库对象。所述数据命令是数据定义语言(DDL)命令。存储包括执行数据命令以将键值对列表插入结构化存储系统中。所述数据命令是数据操纵语言命令(DML)。所述方法还包括根据所述一个或多个
入站数据块生成元数据。所述方法还包括将所述元数据与相关联键值对存储在所述新数据结构中。元数据包括与一个或多个入站数据块中的一者相关联的时间值、与一个或多个入站数据块中的一者相关联的数据源,或两者。所述方法还包括将所述新数据结构与满足所述预定相似度阈值的另一个数据结构合并。
[0007]根据本公开的示例,公开了一种用于在结构化存储系统中存储未知数据上下文和结构的数据的方法。所述方法包括:从来自一个或多个外部数据源的一个或多个入站数据块中提取键值对列表;基于一个或多个当前现有数据结构来计算来自所述一个或多个入站数据块的所述键值对列表的相似度;从所述一个或多个当前现有数据结构中确定所述列表的所述相似度中的最高相似度;确定所述列表的所述相似度满足预定相似度阈值;将所述列表集成到所述一个或多个当前现有结构中的第一当前现有数据结构中;以及将所述键值对列表存储在所述结构化存储系统中的所述第一当前现有数据结构中。
[0008]根据本公开的示例,公开了一种计算机系统,其包括硬件处理器和存储指令的非暂态存储介质,所述指令当由硬件处理器执行时执行用于在结构化存储系统中存储未知数据上下文和结构的数据的方法。所述方法包括:从来自一个或多个外部数据源的一个或多个入站数据块中提取键值对列表;基于一个或多个当前现有数据结构来计算来自所述一个或多个入站数据块的所述键值对列表的相似度;从所述一个或多个当前现有数据结构中确定所述列表的所述相似度中的最高相似度;确定所述列表的所述相似度满足预定相似度阈值;将所述列表集成到所述一个或多个当前现有结构中的第一当前现有数据结构中;以及将所述键值对列表存储在所述结构化存储系统中的所述第一当前现有数据结构中。
[0009]各种附加特征可包括在计算机系统和用于在结构化存储系统中存储未知数据上下文和结构的数据的方法,包括以下特征中的一者或多者。一个或多个外部数据源中的每一者具有针对其相应数据集的不同数据结构。最高相似度大于预定相似度阈值。集成包括生成和执行数据命令以修改结构化存储系统中的数据库对象。所述数据命令是数据定义语言(DDL)命令。所述方法还包括根据所述一个或多个入站数据块生成元数据。所述方法还包括将所述元数据与相关联键值对存储在所述第一当前现有数据结构中。所述方法还包括将所述第一当前现有数据结构与满足预定相似度阈值的另一个数据结构合并。存储包括执行数据命令以将键值对列表插入结构化存储系统中。所述数据命令是数据操纵语言命令(DML)。
[0010]根据本公开的示例,公开了一种用于在结构化存储系统中存储未知数据上下文和结构的数据的方法。所述方法包括:从来自一个或多个外部数据源的一个或多个入站数据块中提取键值对列表;确定数据结构不存在;创建新数据结构以存储来自所述一个或多个入站数据块的第一入站数据块的所述键值对列表;以及将所述键值对列表存储在所述结构化存储系统中的所述新数据结构中。
[0011]根据本公开的示例,公开了一种计算机系统,其包括硬件处理器和存储指令的非暂态存储介质,所述指令当由硬件处理器执行时执行用于在结构化存储系统中存储未知数据上下文和结构的数据的方法。所述方法包括:从来自一个或多个外部数据源的一个或多个入站数据块中提取键值对列表;确定数据结构不存在;创建新数据结构以存储来自所述一个或多个入站数据块的第一入站数据块的所述键值对列表;以及将所述键值对列表存储在所述结构化存储系统中的所述新数据结构中。
[0012]各种附加特征可包括在计算机系统和用于在结构化存储系统中存储未知数据上下文和结构的数据的方法,包括以下特征中的一者或多者。在一些示例中,一个或多个外部数据源中的每一者可具有针对其相应数据集的不同数据结构。所述创建新数据结构包括生成和执行数据命令以在所述结构化存储系统中创建数据库对象。所述数据命令是数据定义语言(DDL)命令。存储包括执行数据命令以将键值对列表插入结构化存储系统中。所述数据命令是数据操纵语言命令(DML)。所述方法还包括根据所述一个或多个入站数据块生成元数据。所述方法还包括将所述元数据与相关联键值对存储在所述新数据结构中。元数据包括与一个或多个入站本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于在结构化存储系统(200、300、400、500)中存储未知数据(270)上下文和结构的数据(270)的方法(200、300、400、500),所述方法(200、300、400、500)包括:从来自一个或多个外部数据(270)源的一个或多个入站数据(270)块(235)中提取键(3)值对列表;基于一个或多个当前现有数据(270)结构来计算来自所述一个或多个入站数据(270)块(235)的所述键(3)值对列表的相似度;从所述一个或多个当前现有数据(270)结构中确定所述列表的所述相似度中的最高相似度;确定所述列表的所述最高相似度不满足预定相似度阈值;创建新数据(270)结构以存储来自所述一个或多个入站数据(270)块(235)的第一入站数据(270)块(240)的所述键(3)值对列表;以及将所述键(3)值对列表存储在所述结构化存储系统(200、300、400、500)中的所述新数据(270)结构中。2.根据权利要求1所述的方法(200、300、400、500),其中所述一个或多个外部数据(270)源中的每一者具有针对其相应数据(270)集的不同数据(270)结构。3.根据权利要求1或2所述的方法(200、300、400、500),其中所述最高相似度低于所述预定相似度阈值;并且任选地其中所述创建新数据(270)结构包括生成和执行数据(270)命令以在所述结构化存储系统(200、300、400、500)中创建数据库(140、250、260)对象;并且进一步任选地其中所述数据(270)命令是数据定义语言命令即DDL命令。4.根据权利要求1所述的方法(200、300、400、500),其中所述存储包括执行数据(270)命令以将所述键(3)值对列表插入所述结构化存储系统(200、300、400、500)中;并且任选地其中所述数据(270)命令是数据(270)操纵语言命令即DML命令。5.根据权利要求4所述的方法(200、300、400、500),还包括根据所述一个或多个入站数据(270)块(235)生成元数据;并且任选地所述方法还包括将所述元数据与相关联键(3)值对存储在所述新数据(270)结构中。6.根据权利要求5所述的方法(200、300、400、500),其中所述元数据包括与所述一个或多个入站数据(270)块(235)中的一者相关联的时间值、与所述一个或多个入站数据(270)块(235)中的一者相关联的数据(270)源或两者。7.根据权利要求1所述的方法(200、300、400、500),还包括将所述新数据(270)结构与满足所述预定...

【专利技术属性】
技术研发人员:H
申请(专利权)人:波音公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1