用于选择用于更新人工智能模块的数据集的方法技术

技术编号:35636263 阅读:16 留言:0更新日期:2022-11-19 16:25
一种用于从给定数据集中选择数据集以更新人工智能模块(AI模块)的计算机实现的方法。所述给定数据集(14)中的每个包括输入数据集(11)和对应的输出数据集(12)。该计算机实现的方法包括:获得用于定义所述给定数据集(14)的不同聚类(45)的参数值(301),确定每个给定数据集(14)的度量,每个给定数据集(14)的度量取决于相应给定数据集(14)的针对聚类(45)之一的隶属度以及相应给定数据集(14)到聚类(45)中的同一个聚类的质心(47)的距离(302),以及基于给定数据集(14)的所述度量的比较,从给定数据集(14)中选择给定数据集(14)中的至少一个以用于更新AI模块(1)(303)。个以用于更新AI模块(1)(303)。个以用于更新AI模块(1)(303)。

【技术实现步骤摘要】
【国外来华专利技术】用于选择用于更新人工智能模块的数据集的方法

技术介绍

[0001]本专利技术涉及数字计算机系统领域,更具体地,涉及一种用于选择数据集以适应人工智能模块的方法。
[0002]人工智能(AI)或机器智能是感知其环境并采取使其成功实现目标的机会最大化的动作的任何设备。人工智能通常被理解为模仿人类与人类头脑相关联的“认知”功能的机器或计算机,所述“认知”功能例如为语音识别、学习、推理、规划和问题解决。机器学习(人工智能的子集)允许设备自动地从过去的数据中学习,而不使用明确的指令,而是依赖于模式和推断。机器学习算法基于样本数据(称为“训练数据”)建立数学模型,以便在没有明确编程以执行任务的情况下做出预测或决策。当新的训练数据变得可用时,更新或重新训练机器学习算法。

技术实现思路

[0003]在应用经训练的人工智能模块(AI模块)的过程中,可能发生的是,其目的在于改进AI模块。这种改进可通过使用尚未用于训练或验证AI模块的附加数据集来更新、优选地重新训练AI模块来执行。这些附加数据集可通过将应用于AI模块的输入数据集记录到日志文件中并将由AI模块基于输入数据集计算的相应输出数据集记录到日志文件中来收集。
[0004]本专利技术的各实施例提供了如独立权利要求的主题所描述的用于从给定数据集中选择用于更新人工智能模块(AI模块)的数据集的计算机实现的方法、计算机程序产品和计算机系统。在从属权利要求中描述了有利的实施例。如果本专利技术的实施例不是相互排斥的,则它们可以彼此自由地组合。
[0005]根据一个实施例,本专利技术包括一种用于从给定数据集中选择数据集以更新人工智能模块(AI模块)的计算机实现的方法,所述给定数据集各自包括输入数据集和对应的输出数据集。该计算机实现的方法包括:获得用于定义给定数据集的不同聚类的参数值,确定每个给定数据集的度量,每个给定数据集的度量取决于相应给定数据集的针对聚类之一的隶属度(level of membership)以及相应给定数据集到所述聚类中的同一个聚类的质心的距离,以及基于给定数据集的度量的比较从给定数据集中选择给定数据集中的至少一个以用于更新AI模块。
[0006]根据另一实施例,本专利技术包括一种用于从给定数据集选择数据集以更新人工智能模块(AI模块)的计算机程序产品,所述给定数据集各自包括输入数据集和对应的输出数据集,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有随其实施的计算机可读程序代码,所述计算机可读程序代码被配置成实现一种方法,所述方法包括:获得用于定义给定数据集的不同聚类的参数值,确定每个给定数据集的度量,每个给定数据集的度量取决于相应给定数据集的针对聚类之一的隶属度以及相应给定数据集到所述聚类中的同一个聚类的质心的距离,以及基于给定数据集的度量的比较从给定数据集中选择给定数据集中的至少一个以用于更新AI模块。
[0007]根据另一实施例,本专利技术包括一种用于从给定数据集选择数据集以更新人工智能
模块(AI模块)的计算机系统,所述给定数据集各自包括输入数据集和对应的输出数据集,所述计算机系统包括一个或多个计算机处理器、一个或多个计算机可读存储介质、以及存储在所述一个或多个计算机可读存储介质上以供所述一个或多个计算机处理器执行来实现一种方法的程序指令,所述方法包括:
[0008]获得用于定义给定数据集的不同聚类的参数值,确定每个给定数据集的度量,每个给定数据集的度量取决于相应给定数据集的针对聚类之一的隶属度以及相应给定数据集到所述聚类中的同一个聚类的质心的距离,以及基于给定数据集的度量的比较从给定数据集中选择给定数据集中的至少一个以用于更新AI模块。
附图说明
[0009]下面,仅通过示例,参考附图更详细地解释本专利技术的实施例,其中:
[0010]图1描绘了用于从给定数据集中选择数据集以更新AI模块的第一计算机系统和用于执行该AI模块的第二计算机系统;
[0011]图2描绘了包括请求输入数据集和对应的应答输出数据集的AI模块的数据流;
[0012]图3示出了包括从图2所示的请求输入数据集和对应的应答输出数据集生成的给定数据集的日志文件;
[0013]图4示出了串接的参数空间,其包括由串接的参数空间中的相应数据点表示的图3所示的给定数据集;以及
[0014]图5描绘了用于从图3所示的给定数据集中选择数据集以更新AI模块的计算机实现的方法的流程图。
具体实施方式
[0015]本专利技术的各种实施例的描述是为了说明的目的而呈现的,而不是旨在是穷举的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。
[0016]本方法可以使得能够根据给定数据集的度量来选择给定数据集中的至少一个(以下称为所选数据集)来更新AI模块。如上所述,每个给定数据集的度量可以取决于相应给定数据集的对于聚类之一(以下称为所选聚类)的隶属度,以及相应给定数据集到所述聚类中的同一个聚类的质心(例如到所选聚类的质心)的距离。
[0017]给定数据集的输入数据集可以具有n维,并且给定数据集的输出数据集可以具有k维。输入数据集的n维可以跨越输入参数空间,而输出数据集的k维可以跨越输出参数空间。输入数据集的n维和输出数据集的k维一起可以跨越串接的参数空间。输入参数空间、输出参数空间和/或串接参数空间可以各自具有至少一个边界。给定数据集的输入和输出数据集可以包括值,优选地包括实际值。
[0018]给定数据集可通过使用处于训练状态的AI模块来生成。经训练的AI模块可基于对应的输入数据集之一来计算每个输出数据集。对应的输入数据集可各自表示经训练的AI模块的用户的请求,并且可被称为请求输入数据集。输出数据集可各自表示经训练的AI模块
对于对应的请求输入数据集的应答,并可被称为应答输出数据集。给定数据集可以通过将每个应答输出数据集与对应的请求输入数据集串接而被各自创建。给定数据集可由日志文件提供。当用户使用经训练的AI模块时,可通过记录应答输出数据集和对应的请求输入数据集来创建日志文件。
[0019]给定数据集可以各自由数据点表示,数据点的坐标等于输入参数空间、输出参数空间或串接参数空间中的相应给定数据集的值,这取决于度量的计算被应用于数据集的哪个部分。短语“示例性数据集到示例性质心的示例性距离”是指示例性数据集表示的示例性数据点到示例性质心的示例性距离。类似地,短语“示例性数据集被定位到示例性质心”是指示例性数据点被定位到示例性质心,其中示例性数据集可以表示示例性数据点。
[0020]每个给定数据集的针对所选聚类的隶属度可以基于每个给定数据集到所选聚类的质心的距离以及相应的给定数据集到除了所选聚类之外的不同聚类的质心的另外距离来确定。例如,可以基于相应给定数据集到所选聚类的质心的距离与所述另外距离和相应给定数据集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于从给定数据集中选择数据集以更新人工智能模块(AI模块)的计算机实现的方法,所述给定数据集中的每个包括输入数据集和对应的输出数据集,所述方法包括:获得用于定义所述给定数据集的不同聚类的参数值;确定每个给定数据集的度量,每个给定数据集的度量取决于相应给定数据集的针对所述聚类中的一个聚类的隶属度以及相应给定数据集到所述聚类中的同一个聚类的质心的距离;以及基于所述给定数据集的所述度量的比较,从所述给定数据集中选择所述给定数据集中的至少一个以用于更新所述AI模块。2.根据权利要求1所述的计算机实现的方法,还包括:确定每个聚类的度量,每个聚类的度量取决于相应聚类的质心到其他聚类质心的距离;基于所述聚类的所述度量从所述聚类中选择所述聚类中的至少一个;以及确定每个给定数据集的所述度量,每个给定数据集的所述度量取决于相应给定数据集的针对所选聚类的隶属度以及相应给定数据集到所选聚类的质心的距离。3.根据权利要求1所述的计算机实现的方法,还包括至少部分地基于以下操作来确定每个给定数据集的所述度量:确定每个给定数据集的度量集合,所述相应给定数据集的度量集合中的每个度量对应于所述聚类的子集中的一个聚类,所述相应给定数据集的度量集合中的每个度量取决于所述相应给定数据集的针对对应聚类的隶属度以及所述相应给定数据集到所述对应聚类的质心的距离;以及基于所述给定数据集的所述度量集合的比较,从所述给定数据集中选择所述给定数据集中的至少一个以用于更新所述AI模块。4.根据权利要求1所述的计算机实现的方法,还包括:根据训练数据集来生成用于定义所述聚类的所述参数值,所述AI模块是使用所述训练数据集生成的。5.根据权利要求1所述的计算机实现的方法,还包括:根据所述给定数据集生成用于定义所述聚类的所述参数值。6.根据权利要求1所述的计算机实现的方法,还包括:根据测试数据集来生成用于定义所述聚类的所述参数值,所述AI模块使用所述测试数据集被测试。7.根据权利要求1所述的计算机实现的方法,还包括:根据所述给定数据集的经批准或校正的数据集来生成用于定义所述聚类的所述参数值。8.根据权利要求1所述的计算机实现的方法,还包括:根据所述给定数据集的手动批准或手动校正的数据集来生成用于定义所述聚类的所述参数值。9.根据权利要求1所述的计算机实现的方法,还包括:获得用于定义执行模糊C均值聚类算法的所述聚类的所述参数值。10.根据权利要求2所述的计算机实现的方法,还包括:
基于所述给定数据集到相应聚类的质心的平均距离来确定每个聚类的所述度量。11.根据权利要求2所述的计算机实现的方法,还包括:基于所述给定数据集到相应聚类的质心的最大距离来确定每个聚类的所述度量。12.根据权利要求2所述的计算机实现的方法,还包括:基于所述给定数据集的针对相应聚类的平...

【专利技术属性】
技术研发人员:R
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1