调试深度神经网络制造技术

技术编号:26033844 阅读:45 留言:0更新日期:2020-10-23 21:11
调试深度神经网络。提供了用于调试深度神经网络的方法、计算机系统和计算机程序产品。本发明专利技术可包括自动识别与深度学习DL模型设计/代码相关联的一个或多个调试层,其中所识别的一个或多个调试层包括一个或多个错误,其中对于所识别的一个或多个调试层引入反向操作。然后,本发明专利技术可包括基于至少一个中断条件向用户呈现调试输出,其中响应于确定满足至少一个中断条件,触发要呈现给用户的调试输出,其中所呈现的调试输出包括对DL模型设计/代码中的所识别的一个或多个调试层的修复以及至少一个可行的洞察。

【技术实现步骤摘要】
调试深度神经网络
本专利技术总体上涉及计算领域,并且更具体地涉及通用编程集成开发环境(IDE)。
技术介绍
深度神经网络已经在计算机视觉和图像处理、自然语言处理(NLP)和语音任务中变得无处不在。尽管深度神经网络可能胜过大多数其他问题解决技术,但训练深度神经网络可能被认为是困难的过程,对于经验不足的用户,其难度非线性地增加。诸如权重初始化、学习率和动量之类的因素可能会极大地影响训练过程,在该训练过程中,即使在定义这些超参数中的任意超参数时的小故障也可能导致网络学习的次优权重。
技术实现思路
本专利技术的实施例公开了一种用于调试(debug)深度神经网络的方法、计算机系统和计算机程序产品。本专利技术可包括自动识别与深度学习DL模型设计/代码相关联的一个或多个调试层,其中所识别的一个或多个调试层包括一个或多个错误,其中对于所识别的一个或多个调试层引入反向操作。然后,本专利技术可以包括基于至少一个中断条件向用户呈现调试输出,其中响应于确定满足所述至少一个中断条件,触发要呈现给用户的调试输出,其中所呈现的调试输出包括对DL模型设计/代码中所识别的一个或多个调试层的修复以及至少一个可行的洞察(insight)。附图说明通过下面结合附图理解的对示例性实施例的详细描述,本专利技术的这些和其他目的、特征和优点将变得明显。附图的各种特征未按比例绘制,因为图示是为了清楚起见,以帮助本领域技术人员结合详细描述来理解本专利技术。在附图中:图1示出根据至少一个实施例的联网计算机环境;图2是示出根据至少一个实施例的用于示例性DNN调试过程200的处理的操作流程图;图3是根据至少一个实施例的图1中描绘的计算机和服务器的内部和外部组件的框图;图4是根据本公开的实施例的包括图1中描绘的计算机系统的说明性云计算环境的框图;以及图5是根据本公开的实施例的图4的说明性云计算环境的功能层的框图。具体实施方式本文中公开了所要求保护的结构和方法的详细实施例;然而,可以理解的是,所公开的实施例仅是可以以各种形式实施的所要求保护的结构和方法的说明。然而,本专利技术可以以许多不同的形式来实施,并且不应被解释为限于本文中阐述的示例性实施例。相反,提供这些示例性实施例以使得本公开将是透彻和完整的,并将向本领域技术人员充分传达本专利技术的范围。在说明书中,可以省略众所周知的特征和技术的细节,以避免不必要地混淆所呈现的实施例。在任何可能的技术细节结合层面,本专利技术可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本专利技术的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。用于执行本专利技术操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”编程语言,Python编程语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本专利技术的各个方面。这里参照根据本专利技术实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本专利技术的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。附图中的流程图和框图显示了根据本专利技术的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:/n自动识别与深度学习DL模型设计/代码相关联的一个或多个调试层,/n其中所识别的一个或多个调试层包括一个或多个错误,/n其中对于所识别的一个或多个调试层引入反向操作;以及/n基于至少一个中断条件向用户呈现调试输出,/n其中响应于确定满足所述至少一个中断条件,触发要呈现给用户的调试输出,/n其中所呈现的调试输出包括对在所述DL模型设计/代码中识别的一个或多个调试层的修复以及至少一个可行的洞察。/n

【技术特征摘要】
20190410 US 16/380,4371.一种计算机实现的方法,包括:
自动识别与深度学习DL模型设计/代码相关联的一个或多个调试层,
其中所识别的一个或多个调试层包括一个或多个错误,
其中对于所识别的一个或多个调试层引入反向操作;以及
基于至少一个中断条件向用户呈现调试输出,
其中响应于确定满足所述至少一个中断条件,触发要呈现给用户的调试输出,
其中所呈现的调试输出包括对在所述DL模型设计/代码中识别的一个或多个调试层的修复以及至少一个可行的洞察。


2.根据权利要求1所述的方法,其中自动识别所述深度学习DL模型设计/代码中的一个或多个层以用于调试还包括:
接收所述DL模型设计/代码以及与接收到的DL模型设计/代码相关联的训练数据;
在接收到的DL模型设计/代码中搜索一个或多个全局调试标志;
在接收到的DL模型设计/代码中识别一个或多个全局调试标志,
其中所识别的一个或多个全局调试标志的存在指示接收到的DL模型设计/代码应开始调试;
响应于确定推荐对接收到的DL模型设计/代码进行调试,从接收到的训练数据创建调试集和较小训练集;以及
为接收到的DL模型设计/代码选择所述至少一个中断条件,
其中所选择的所述至少一个中断条件确定呈现给用户的调试输出。


3.根据权利要求2所述的方法,还包括:
响应于确定存在标准任务和模型架构,根据知识库自动标记所识别的一个或多个调试层,
其中所述知识库包括与具有标准任务的先前训练的标准模型架构相关联的多个先前训练数据,
其中每个先前训练的标准模型架构包括具有调试标记的先前识别的调试层的列表。


4.根据权利要求2所述的方法,还包括:
响应于确定与接收到的DL模型设计/代码相关联的非标准任务和/或模型架构,基于与接收到的训练数据相关联的所创建的调试集和较小训练集来训练接收到的DL模型设计/代码;
根据所训练的DL模型设计/代码的所标记的一个或多个调试层来计算与每个调试层相关联的两组给定权重,
其中所计算的第一组给定权重与针对来自所训练的DL模型设计/代码的所标记的一个或多个调试层中的每个调试层的所创建的调试集相关联,所计算的第二组给定权重与针对来自所训练的DL模型设计/代码...

【专利技术属性】
技术研发人员:R·阿拉里卡特S·G·塔米尔瑟尔瓦姆S·克哈瑞N·潘瓦尔A·桑卡兰S·K·K·玛尼
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1