当前位置: 首页 > 专利查询>英特尔公司专利>正文

改善人工智能的数据质量的方法和装置制造方法及图纸

技术编号:37813257 阅读:14 留言:0更新日期:2023-06-09 09:43
公开了改善人工智能的数据质量的方法、装置、系统和制品。一种示例装置包括接口;指令;以及处理器电路,该处理器电路执行指令以:确定包括数据集的数据点的仓库的间接质量;确定包括数据集的数据点的仓库的直接质量;基于仓库的间接质量和仓库的直接质量来确定数据集质量;并且当质量不满足阈值时,过滤掉数据点的子集以使得数据集准备好支持神经网络的训练。练。练。

【技术实现步骤摘要】
改善人工智能的数据质量的方法和装置


[0001]本公开概括而言涉及计算系统,更具体而言,涉及改善人工智能的数据质量的方法和装置。

技术介绍

[0002]近年来,人工智能(artificial intelligence,AI)越来越受欢迎。基于人工智能的模型(例如,机器学习模型、深度学习模型、神经网络,等等)是受到人类大脑启发的计算系统。AI模型可以接收输入并且生成输出。AI模型可包括与权重相对应的多个神经元,这些神经元可以基于反馈被训练(例如,可以学习、被加权,等等),从而使得输出对应于期望的结果。一旦权重被训练,AI模型就可以基于输入做出决策以生成输出。为了训练基于AI的模型,训练数据可以用来教导基于AI的模型如何基于输入数据生成期望的输出。训练数据越稳健,基于AI的模型在被训练之后就越稳健。

技术实现思路

[0003]本公开的一个方面提供了一种装置。该装置包括:接口;指令;以及处理器电路,该处理器电路执行指令以:确定包括数据集的数据点的仓库的间接质量;确定包括数据集的数据点的仓库的直接质量;基于仓库的间接质量和仓库的直接质量来确定数据集质量;并且当质量不满足阈值时,过滤掉数据点的子集以使得数据集准备好支持神经网络的训练。
[0004]本公开的另一方面提供了一种改善数据质量的方法。该方法包括:通过利用一个或多个处理器执行指令,来确定对数据集的数据点作出贡献的仓库的间接质量;通过利用一个或多个处理器执行指令,来确定对数据集的数据点作出贡献的仓库的直接质量;通过利用一个或多个处理器执行指令,来基于仓库的间接质量和仓库的直接质量来确定数据集质量;并且通过利用一个或多个处理器执行指令,来移除数据点的子集以调整质量。
[0005]本公开的另一方面提供了一种机器可读介质,其上存储有代码,代码当被执行时使得机器执行上述改善数据质量的方法。
[0006]本公开的另一方面提供了一种设备,包括用于执行上述改善数据质量的方法的装置。
附图说明
[0007]图1图示了示例计算设备,用来确定示例使用环境中示出的数据的质量。
[0008]图2是图1的数据质量分析电路的示例实现方式的框图。
[0009]图3

图6的流程图代表了代表可被示例处理器电路执行来实现图1和/或图2的数据质量分析电路的示例机器可读指令。
[0010]图7是包括被构造来执行图3

图6的示例机器可读指令以实现图1的示例计算设备的处理器电路的示例处理器平台的框图。
[0011]图8是图7的处理器电路的示例实现方式的框图。
[0012]图9是图7的处理器电路的另一示例实现方式的框图。
[0013]图10是示例软件分发平台(例如,一个或多个服务器)的框图,用于将软件(例如,与图3

图6的示例机器可读指令相对应的软件)分发到与最终用户和/或消费者(例如,用于许可、销售和/或使用)、零售商(例如,用于销售、再销售、许可和/或次级许可)和/或原始设备制造商(OEM)(例如,用于包括在要被分发到例如零售商和/或诸如直接购买客户之类的其他最终用户的产品中)相关联的客户端设备。
具体实施方式
[0014]附图不是按比例的。相反,在附图中可放大层或区域的厚度。如本文所使用的,对连接的提及(例如,附着、耦合、连接、接合)可包括由该对连接的提及所提及的元素之间的中间构件和/或这些元素之间的相对运动,除非另有指示。因此,对连接的提及不一定推理出两个元素是直接连接的和/或彼此之间有固定关系。如本文所使用的,叙述任何部件与另一部件“接触”,被定义为意指在这两个部件之间没有中间部件。
[0015]除非另有具体声明,否则本文使用诸如“第一”、“第二”、“第三”之类的描述语,而不输入或以其他方式指示出任何优先级、物理顺序、在列表中的排列和/或以任何方式排序的含义,而只是用作标签和/或任意名称来区分元素,以便易于理解所公开的示例。在一些示例中,描述语“第一”在具体实施方式中可用于提及某一元素,而同一元素在权利要求中可以用不同的描述语来提及,例如“第二”或“第三”。在这种情况下,应当理解,这种描述语仅仅用于明确地标识那些元素,这些元素例如可能在其他情况下共享同一名称。如本文所使用的,“大致”和“大约”指的是由于制造容差和/或其他现实世界不完美而可能不确切的尺寸。如本文所使用的,“基本上实时”指的是以近乎瞬时的方式发生,承认现实世界中可能存在计算时间、传输等等方面的延迟。从而,除非另有指明,否则“基本上实时”指的是实时+/

1秒。如本文所使用的,短语“与
……
通信”——包括其变体——涵盖了直接通信和/或通过一个或多个中间组件进行的间接通信,而不要求直接物理(例如,有线)通信和/或不断的通信,而是还包括按周期性间隔、排定的间隔、非周期性间隔和/或一次性事件的选择性通信。如本文所使用的,“处理器电路”被定义为包括(i)一个或多个专用电气电路,其被构造为执行(一个或多个)特定的操作,并且包括一个或多个基于半导体的逻辑器件(例如,由一个或多个晶体管实现的电气硬件),和/或(ii)一个或多个通用的基于半导体的电气电路,其被用指令编程以执行特定操作,并且包括一个或多个基于半导体的逻辑器件(例如,由一个或多个晶体管实现的电气硬件)。处理器电路的示例包括编程的微处理器、可实例化指令的现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器单元(Central Processor Unit,CPU)、图形处理器单元(Graphics Processor Unit,GPU)、数字信号处理器(Digital Signal Processor,DSP)、XPU、或者微控制器和集成电路,例如专用集成电路(Application Specific Integrated Circuit,ASIC)。例如,XPU可以由异构计算系统实现,该计算系统包括多种类型的处理器电路(例如,一个或多个FPGA、一个或多个CPU、一个或多个GPU、一个或多个DSP,等等,和/或这些的组合)以及(一个或多个)应用编程接口(application programming interface,API),这些API可以将(一个或多个)计算任务指派给该多种类型的处理电路中最适于执行该(一个或多个)计算任务的任何一个(或多个)。
[0016]AI模型,例如机器学习模型、深度学习模型、神经网络等等,用于执行任务(例如,
对数据进行分类)。实现AI模型可包括促进训练阶段,以使用地面真实数据(例如,用特定分类来正确标记的训练数据)训练基于AI的模型。在训练期间,训练数据的一部分可用于调谐基于AI的模型,以基于输入输出期望的结果。例如,基于AI的模型获得包括输入和预分类的输出的数据,并且基于AI的模型可以基于数据的模式调谐权重,以使得基于AI的模型将基于输入数据输出期望的输出。此外,基于AI的模型可以使用训练数据的不同部分来测试模型,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种支持训练神经网络的装置,该装置包括:接口;指令;以及处理器电路,该处理器电路执行所述指令以:确定包括数据集的数据点的仓库的间接质量;确定包括所述数据集的数据点的所述仓库的直接质量;基于所述仓库的间接质量和所述仓库的直接质量来确定数据集质量;并且当所述质量不满足阈值时,过滤掉所述数据点的子集以使得所述数据集准备好支持所述神经网络的训练。2.如权利要求1所述的装置,其中,所述处理器电路:基于与所述仓库相对应的元数据中的至少一者来确定所述间接质量;并且基于(a)包括所述数据集的数据点的仓库的数目与(b)仓库的总数的比例来确定所述直接质量。3.如权利要求2所述的装置,其中,所述元数据包括以下各项中的至少一者:所述仓库的年龄、所述仓库的贡献者的总数、提交的总数、所述仓库中的代码行的数目、开放问题的总数、封闭问题的总数、所述代码中的单元测试的存在、所述代码中的文档的存在、完全持续集成和交付(CI/CD)运行风格检查的数目、或者CI/CD运行单元测试的数目。4.如权利要求1所述的装置,其中,所述处理器电路基于包括所述数据点的仓库的平均仓库质量来确定所述数据点的质量,所述平均仓库质量是基于所述间接质量和所述直接质量的。5.如权利要求1所述的装置,其中,所述处理器电路基于所述数据集中包括的数据点的平均数据点质量来确定所述数据集质量。6.如权利要求1到5中任一项所述的装置,其中,所述数据点的子集对所述数据集质量产生负面影响。7.如权利要求1到5中任一项所述的装置,其中,所述数据点的子集对所述数据集质量产生正面影响。8.如权利要求1到5中任一项所述的装置,其中,所述质量是第一质量并且所述子集是第一子集,所述处理器电路:在所述第一子集已被过滤掉之后确定所述数据集的第二质量;并且响应于所述第二质量不满足所述阈值,过滤掉所述数据点的第二子集以调整所述第二质量。9.如权利要求1到5中任一项所述的装置,其中,所述处理器电路向基于人工智能的模型应用所述子集已被过滤掉之后的所述数据集,以训练所述基于人工智能的模型。10.一种改善数据质量的方法,该方法包括:通过利用一个或多个处理器执行...

【专利技术属性】
技术研发人员:尼兰詹
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1