用于产生传感器数据的语义映射的方法和系统技术方案

技术编号:37714421 阅读:19 留言:0更新日期:2023-06-02 00:09
用来自若干数据源(DS)的标记第一元素训练分类模型(CM),其中第一元素包括来自安装在工业工厂(IP)中的物理传感器的传感器数据,并且其中标签指示第一个元素中的每个元素的语义类型。之后,用自适应学习算法(AL)对分类模型(CM)进行再训练,自适应学习算法(AL)实现主动学习和/或增量学习,直到分类模型(CM)完全能够将数据源(DS)的每个元素到语义类型之一。该方法和系统提供传感器数据的语义映射的自动或半自动创建。语义映射将数据源的每个元素分配给语义类型之一。语义映射的自动或半自动创建放松了领域专家和数据科学家之间的耦合,充当他们之间的桥梁并显着减少他们的工作量,加速数据建模和进一步的数据集成步骤。此外,它还为没有经验的用户提供对领域专业知识的访问。促进了数据模型的重新使用,其简化了进一步的集成和交换活动。自适应学习算法提供了分类模型的增量增强。分类模型的增量增强。分类模型的增量增强。

【技术实现步骤摘要】
【国外来华专利技术】用于产生传感器数据的语义映射的方法和系统
[0001]数据准备是用于开发特定于领域的应用的所有流程中的第一步骤之一。虽然似乎该步骤基于诸如领域、源系统或数据格式之类的因素而异,但大部分努力实际上是重复的,尤其是数据建模和数据集成方面的努力。这导致若干问题。第一,归因于需要领域专业知识(domain expertise)和数据/知识工程中的专业知识两者,需要数据准备活动中的高度努力。第二,需要通过编写具有重叠代码的许多脚本的提取

转换

加载(ETL)活动中的重复努力。为了执行ETL活动,需要理解不同的数据格式和存储系统。执行这些任务对于没有经验的用户来说可能是困难的,从而导致不正确的数据准备实践,其通常很晚才被发现并可能引起大量延迟。
[0002]总的来说,数据准备是成本密集以及耗时的过程,而且容易出错并且是重复性的。这使其成为为各种业务开发数据驱动应用时的主要瓶颈之一。
[0003]到目前为止,数据集成需要(i)领域专家以及(ii)数据科学家/工程师的广泛参与,领域专家精通工业领域(例如,工厂工程师、涡轮工程师)但缺乏集成到知识图(knowledge graph)所需的编程技能或ETL任务的知识,数据科学家/工程师具备必要的IT技能但不具备领域诀窍(know

how)。数据科学家或数据工程师通常将遍历每个数据源,通常与领域专家一起标识感兴趣的数据,并定义变换和映射,这将这些数据与其他源统一起来。该过程通常包括编写许多具有潜在重叠代码的脚本。此外,领域和数据专家之间的交互非常紧密地耦合。
[0004]本专利技术的目的是提供现有技术的替代方案。
[0005]根据用于产生传感器数据的语义映射的计算机实现的方法,以下操作由一个或多个处理器执行:
[0006]‑
由处理器中的一个或多个接收来自若干数据源的第一元素,第一元素包括来自安装在工业工厂中的物理传感器的传感器数据、语义类型的集合和第一元素的标签,每个标签指示相应第一元素的语义类型之一,
[0007]‑
由处理器中的一个或多个利用标记的第一元素训练分类模型,以及
[0008]‑
由处理器中的一个或多个用自适应学习算法再训练分类模型,自适应学习算法实现主动学习(active learning)和/或增量学习(incremental learning),直到分类模型完全能够将数据源的每个元素映射到语义类型之一。
[0009]用于产生传感器数据的语义映射的系统包括
[0010]‑
接口,被配置用于从若干数据源接收第一元素,第一元素包括来自安装在工业工厂中的物理传感器的传感器数据、语义类型的集合和第一元素的标签,每个标签指示相应第一元素的语义类型之一,
[0011]‑
存储器,存储分类模型,以及
[0012]‑
一个或多个处理器,被编程用于用标记的第一元素训练分类模型,并且用自适应学习算法再训练分类,自适应学习算法实现主动学习和/或增量学习,直到分类模型完全能够将数据源的每个元素映射到语义类型之一。
[0013]以下优势和解释不一定是独立权利要求的目的的结果。相反,它们可能是仅应用
于某些实施例或变体的优势和解释。
[0014]该方法和系统提供传感器数据的语义映射的自动或半自动创建。语义映射将数据源的每个元素分配给语义类型之一。语义映射的自动化或半自动化创建放松了领域专家和数据科学家之间的耦合,充当他们之间的桥梁并且显著减少了他们的工作量,加快了数据建模和进一步的数据集成步骤。此外,它为没有经验的用户提供对领域专业知识(expertise)的访问。促进了数据模型的重新使用,其简化了进一步的集成和交换活动。自适应学习算法提供了分类模型的增量增强。
[0015]根据该方法和系统的一个实施例,自适应学习算法包括以下步骤
[0016]‑
由处理器中的一个或多个使用分类模型预测来自数据源的第二元素的语义类型,
[0017]‑
由访问输出设备的处理器中的一个或多个向用户输出第二元素和它们的预测的语义类型,
[0018]‑
由访问输入设备的处理器中的一个或多个接收指示第二元素的预测的语义类型的确认和/或校正的用户交互,
[0019]‑
由处理器中的一个或多个用确认和/或校正的语义类型标记第二元素,以及
[0020]‑
由处理器中的一个或多个用标记的第二个元素再训练分类模型。
[0021]根据该方法和系统的实施例,自适应学习算法包括以下步骤
[0022]‑
由处理器中的一个或多个使用分类模型预测已经被用户标记的用户标记元素的语义类型,
[0023]‑
由访问输出设备的处理器中的一个或多个向用户输出用户标记的元素和它们的预测的语义类型,如果它们的预测的语义类型与它们的标签不同的话,
[0024]‑
由访问输入设备的处理器中的一个或多个接收指示用户标记的元素的预测的语义类型的确认和/或校正的用户交互,
[0025]‑
由处理器中的一个或多个用确认和/或校正的语义类型标记用户标记的元素,以及
[0026]‑
由处理器中的一个或多个用标记的元素再训练分类模型。
[0027]该方法的实施例包括以下附加步骤
[0028]‑
由处理器中的一个或多个根据之前的步骤重复地再训练分类模型,直到形成语义映射,语义映射将数据源的每个元素分配给语义类型之一,以及
[0029]‑
由处理器中的一个或多个接收指示语义映射的确认的用户交互,以及
[0030]‑
由处理器中的一个或多个将语义映射导出到数据结构中,和/或
[0031]‑
由映射执行引擎执行语义映射,以便根据存储在数据源中的数据创建或更新知识图。
[0032]该方法的实施例包括以下附加步骤
[0033]‑
由处理器中的一个或多个处理知识图,以便基于传感器数据控制工业工厂的物理设备。
[0034]该方法的实施例包括以下初始步骤
[0035]‑
由访问输出设备的处理器中的一个或多个向用户输出第一元素,
[0036]‑
由访问输入设备的处理器中的一个或多个接收第一元素的标签。
[0037]该方法的实施例包括以下初始步骤
[0038]‑
由处理器中的一个或多个检测数据源中包含的跨不同的结构化数据格式的数据类型。
[0039]该方法的实施例包括以下初始步骤
[0040]‑
由处理器中的一个或多个从工业工厂的工业模型提取语义类型,工业模型描述工业工厂的配置。
[0041]计算机可读存储介质在其上存储的可由计算机系统的一个或多个处理器执行的指令,其中指令的执行使得计算机系统执行该方法。
[0042]计算机程序由计算机系统的一个或多个处理器执行并执行该方法。...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于产生传感器数据的语义映射的计算机实现的方法,包括由一个或多个处理器执行的以下操作:

由所述处理器中的一个或多个接收,

来自若干数据源(DS)的第一元素,所述第一元素包括来自安装在工业工厂(IP)中的物理传感器的传感器数据,

语义类型的集合,和

所述第一元素的标签,每个标签指示相应第一元素的所述语义类型之一,

由所述处理器中的一个或多个用标记的第一元素训练分类模型(CM),以及

由所述处理器中的一个或多个用自适应学习算法(AL)再训练分类模型(CM),所述自适应学习算法(AL)实现主动学习和/或增量学习,直到所述分类模型(CM)完全能够将所述数据源(DS)的每个元素映射到所述语义类型之一。2.根据权利要求1所述的方法,其中所述自适应学习算法(AL)包括以下步骤

由所述处理器中的一个或多个使用所述分类模型(CM)预测来自所述数据源(DS)的第二元素的语义类型,

由访问输出设备的所述处理器中的一个或多个向用户(U)输出所述第二元素和它们的预测的语义类型,

由访问输入设备的所述处理器中的一个或多个接收指示所述第二元素的所述预测的语义类型的确认和/或校正的用户交互,

由所述处理器中的一个或多个用确认和/或校正的语义类型标记所述第二元素,以及

由所述处理器中的一个或多个用标记的第二元素再训练所述分类模型(CM)。3.根据权利要求2所述的方法,其中所述自适应学习算法(AL)包括以下步骤

由所述处理器中的一个或多个使用所述分类模型(CM)预测已经被用户(U)标记的用户标记元素的语义类型,

由访问所述输出设备的所述处理器中的一个或多个向所述用户(U)输出所述用户标记元素和它们的预测的语义类型,如果它们的预测的语义类型与它们的标签不同的话,

由访问输入设备的所述处理器中的一个或多个接收指示所述用户标记元素的所述预测的语义类型的确认和/或校正的用户交互,

由所述处理器中的一个或多个用确认和/或校正的语义类型标记所述用户标记元素,以及

由所述处理器中的一个或多个用标记的元素再训练所述分类模型(CM)。4.根据前述权利要求中任一项所述的方法,具有附加步骤

由所述处理器中的一个或多个根据之前的步骤重复地再训练所述分类模型(CM...

【专利技术属性】
技术研发人员:N
申请(专利权)人:西门子股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1