嵌入式预测机器学习模型制造技术

技术编号:22693716 阅读:20 留言:0更新日期:2019-11-30 06:19
与一个或多个数据源相关联的数据通过使用一个或多个变换器而被变换成与公共本体相关联的格式。至少部分地基于经变换的数据来生成一个或多个机器学习模型。所述一个或多个机器学习模型和所述一个或多个变换器被提供到远程设备。

Embedded predictive machine learning model

Data associated with one or more data sources is transformed into a format associated with a common ontology by using one or more converters. At least in part, one or more machine learning models are generated based on transformed data. One or more machine learning models and one or more converters are provided to a remote device.

【技术实现步骤摘要】
【国外来华专利技术】嵌入式预测机器学习模型其他申请的交叉引用本申请对2017年3月31日提交的、题为EMBEDDEDPREDICTIVEMACHINELEARNINGMODELS的、申请号为62/479,968的美国临时专利申请要求优先权,所述美国临时专利申请通过引用被并入本文中用于所有目的。本专利技术的背景与实体(例如个体、企业、设备、机器等等)相关联的信息可以跨多个数据库被存储。用来将与实体相关联的信息存储在第一数据库、即本体中的方式可能不一定与用来将信息存储在一个或多个其他数据库中的方式相同。例如,一个数据库可以通过个体的社保号来标识个体,而第二数据库可以通过个体的驾驶执照号来标识相同的个体。另一数据库可以将个体的生日标识为2000年1月1日,而另一数据库可以将个体的生日标识为01/01/00。作为结果,这些不一致性使得难以将来自多个数据库的与实体相关联的信息组合到单个数据库中。机器学习是计算机科学的领域,其给予计算机在没有被显式编程的情况下学习的能力。计算机可以包括机器学习模型,所述机器学习模型能够被训练以实现复杂的函数,所述复杂的函数被配置成基于输入集合来生成一个或多个预测。经训练的机器学习模型被配置成像黑盒一样起作用:它接收生产数据,所述生产数据被应用到所述复杂函数,并且输出一个或多个预测标签。然而,经训练的机器学习模型的准确性受用于训练机器学习模型的数据所限制。当用于训练机器学习模型的数据利用不同的本体而跨多个数据库被存储的时候,训练机器学习模型来输出准确的预测标签可能是困难的。附图说明在以下详细描述和附图中公开本专利技术的各种实施例。图1是一框图,其图示了用于嵌入式预测机器学习模型的系统的实施例。图2A是一图解,其图示了输入数据集的实施例。图2B是一图解,其图示了所组合的数据集的实施例。图3是一流程图,其图示了用于生成可导出的机器学习模型的过程的实施例。图4是一流程图,其图示了用于生成预测的过程的实施例。具体实施方式本专利技术可以用众多方式来被实现,包括被实现为过程;装置;系统;物质的组成;在计算机可读存储介质上具体化的计算机程序产品;和/或处理器,诸如被配置成执行在耦合到处理器的存储器上所存储的和/或由该存储器所提供的指令的处理器。在本说明书中,这些实现方式、或本专利技术可以采取的任何其他形式可以被称为技术。通常,所公开的过程的步骤的次序可以在本专利技术的范围内变更。除非另行声明,否则诸如被描述为被配置成执行任务的处理器或存储器之类的部件可以被实现为在给定时间临时被配置成执行该任务的通用部件或被制造成执行该任务的特定部件。如本文中所使用的,术语“处理器”是指被配置成处理诸如计算机程序指令之类的数据的一个或多个设备、电路和/或处理核。本专利技术的一个或多个实施例的详细描述在以下连同图示专利技术原理的附图一起被提供。结合这样的实施例来描述本专利技术,但是本专利技术不限于任何实施例。仅仅通过权利要求来限制本专利技术的范围,并且本专利技术涵盖众多可替换方案、修改和等同物。在以下描述中阐明众多特定细节以便提供对本专利技术的透彻理解。这些细节被提供用于示例的目的,并且可以根据权利要求、在没有这些特定细节中一些或全部的情况下实践本专利技术。为了清楚的目的,在与本专利技术有关的
中已知的技术材料没有被详细描述以便不会不必要地使本专利技术模糊。计算设备可以被配置成实现机器学习模型。机器学习模型可以被训练以基于输入数据集合来输出预测。输入数据集合包括多个条目。每个条目相关联于具有对应特征值的多个特征。每个条目可以相关联于对应的预测标签。输入数据集合可以被分类成训练数据和验证数据。训练数据可以用于训练机器学习模型。机器学习模型可以被调谐以更好地匹配与训练数据相关联的预测标签。例如,与机器学习模型中所包括的所述一个或多个特征相关联的一个或多个权重可以被动态地调谐以改进机器学习模型的准确性。在输入数据集合中所包括的验证数据可以用于验证所训练的机器学习模型。在机器学习模型具有在阈值准确性以上的准确性的情况中,所述机器学习模型准备好供生产数据使用。否侧,所述机器学习模型被重新训练并且重新验证以产生更准确的机器学习模型。在机器学习模型被训练和验证之后,生产数据可以被应用到所述机器学习模型。然而,这样的应用假定生产数据包括用于训练/验证机器学习模型的相同特征,以及具有与用于训练/验证机器学习模型的特征值相同的类型和/或格式的对应值的特征。作为结果,在生产数据不遵从用于训练/验证机器学习模型的本体的情况中,机器学习模型可能不输出准确的预测。公开了与多个数据类型和/或格式兼容的嵌入式预测机器学习模型。可以从多个源累积数据。在一些实施例中,可以从多个类型的设备(例如IoT设备、传感器、医学设备等等)接收数据。所述数据可以包括与设备相关联的时间序列数据。可以从时间序列数据生成一个或多个元数据特征。可以基于与ECG设备相关联的时间序列数据来生成例如心率、心率变化、PQRST斜率等等的特征(例如幅度相对于时间)。由设备输出的时间序列数据可以与实体(例如患者、个体、公司等等)相关联。例如,ECG设备可以被连接到患者,并且时间序列数据可以被标识为是患者的数据。在一些实施例中,可以基于由所述设备输出的时间序列数据来标识人员。在一些实施例中,从多个不同的数据库接收数据。所述多个不同的数据库可以使用不同的本体来存储数据。例如,一个数据库可以通过使用GPS坐标来存储位置数据,而另一数据库可以通过使用地址信息来存储位置数据。不一致的数据本体使得难以将来自多个数据库的数据组合到单个数据库中,因为难以确定第一数据库的条目是第二数据库的相同条目还是不同条目。例如,与患者相关联的信息可以被存储在与第一保险提供商相关联的数据库中。患者可以更换保险提供商。当患者访问与第二保险提供商相关联的医学专业人员的时候,患者的信息可以被存储在与第二保险提供商相关联的数据库中。将被存储在与第一保险提供商相关联的数据库中的患者信息与被存储在与第二保险提供商相关联的数据库中的患者信息组合到单个数据库中可能是困难的,因为这两个数据库可以存储相同类型的数据,但是不一定以相同格式。例如,与第一保险提供商相关联的数据库可以用“名姓”格式来存储患者的名字,而与第二保险提供商相关联的数据库可以用“姓、名、中间名缩写”格式来存储患者的名字。第一数据库可以用“123456789”格式来存储个体的社保号,而第二数据库可以用“123-45-6789”格式来存储个体的社保号。与多个数据库相关联的数据可以被组合以生成经组合的数据集。不一致的数据本体也使得将来自多个数据库的数据组合到单个数据库中变得困难,因为难以确定与第一数据库的条目相关联的特征是否是与第二数据库的条目相关联的相同特征。例如,与第一数据库相关联的条目以及与第二数据库相关联的条目二者都可以存储位置数据,但是特征值的格式不同。与第一数据库相关联的条目可以存储完整地址(例如街道、城市、国家、邮政编码),并且与第二数据库相关联的条目仅仅可以存储邮政编码信息。不一致的数据本体使得难以在所组合的数据集上本文档来自技高网
...

【技术保护点】
1.一种方法,包括:/n通过使用一个或多个变换器将与一个或多个数据源相关联的数据变换成与公共本体相关联的格式;/n至少部分地基于经变换的数据来生成一个或多个机器学习模型;以及/n向远程设备提供所述一个或多个机器学习模型和所述一个或多个变换器。/n

【技术特征摘要】
【国外来华专利技术】20170331 US 62/479968;20180329 US 15/9396521.一种方法,包括:
通过使用一个或多个变换器将与一个或多个数据源相关联的数据变换成与公共本体相关联的格式;
至少部分地基于经变换的数据来生成一个或多个机器学习模型;以及
向远程设备提供所述一个或多个机器学习模型和所述一个或多个变换器。


2.根据权利要求1所述的方法,此外包括从一个或多个数据库接收与一个或多个数据源相关联的数据。


3.根据权利要求1所述的方法,其中所述一个或多个数据库通过使用对应的本体来存储数据。


4.根据权利要求1所述的方法,其中所述一个或多个数据库中至少一个的对应本体不同于公共本体。


5.根据权利要求1所述的方法,此外包括基于所述经变换的数据来生成一个或多个新特征。


6.根据权利要求5所述的方法,其中至少部分地基于所述一个或多个新特征来训练所述一个或多个机器学习模型。


7.根据权利要求1所述的方法,其中通过使用以下各项中的至少一个来变换数据:滤波器变换器、频率变换器、批量交互变换器、被截断的SVD数值变换器、交叉验证目标编码、交叉验证分类至数值编码变换器、日期变换器、日期极变换器、文本变换器、分类目标编码变换器、数值至分类目标编码变换器、聚类目标编码变换器、聚类距离变换器、证据权重、和/或数值至分类证据权重变换器。


8.根据权利要求1所述的方法,其中所述远程设备被配置成通过使用所述一个或多个变换器来将生产数据变换成公共本体。


9.根据权利要求8所述的方法,其中所述远程设备被配置成通过使用所述一个或多个机器学习模型和经变换的生产数据来做出一个或多个预测。


10.根据权利要求8的方法,其中为了通过使用所述一个或多个变换器来将生产数据变换成公共本体,所述远程设备此外被配置成:
分析与生产数据相关联的特征以及对应的特征值;
确定...

【专利技术属性】
技术研发人员:S安巴蒂T克拉尔杰维奇P斯特岑克S乔希
申请(专利权)人:H二O人工智能公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1