利用硬性注意力的准确且可解释的分类制造技术

技术编号:25691330 阅读:52 留言:0更新日期:2020-09-18 21:02
总体上,本公开针对新颖的机器学习分类模型,其利用硬性注意力操作以做出离散的注意力动作。本公开还提供了一种自我监督的预训练过程,该过程将模型初始化为具有更频繁奖励的状态。仅给定一组训练输入(例如图像)的真值分类标签,所提出的模型就能够学习离散注意力位置上的策略,该策略标识与分类相关的输入的某些部分(例如图像的块)。以这种方式,模型能够提供高精度的分类,同时还为决策提供了明确且可解释的基础。

【技术实现步骤摘要】
利用硬性注意力的准确且可解释的分类相关申请的交叉引用本申请要求于2019年5月16日提交的美国临时专利申请号62/848,945的优先权。美国临时专利申请号62/848,945的全部内容通过引用合并于此。
本公开总体上涉及机器学习。更具体地,本公开涉及机器学习模型及其训练技术,其能够使用硬性注意力来生成针对输入(例如,图像)的分类,从而提高分类的可解释性。
技术介绍
人工神经网络和其他机器学习模型在包括分类任务在内的许多不同任务上实现了最先进的性能。例如,卷积神经网络(CNN)在许多图像分类任务上都达到了最先进的性能。但是,由于诸如CNN的神经网络计算输入的非线性函数,因此难以解释其决策。因此,尽管卷积神经网络(CNN)在许多计算机视觉任务上取得成功,但主要由于无法解释CNN预测,它们在某些关键应用中被缓慢部署。尤其是,CNN计算其输入的非常复杂的函数,这使得不清楚输入的哪些方面有助于预测。尽管许多研究人员已经尝试设计用于解释CNN和其他机器学习模型决策的方法,但是尚不清楚这些阐释是否忠实地描述了其意图阐释的模型本文档来自技高网...

【技术保护点】
1.一种计算机系统,其利用硬性注意力执行分类,该计算机系统包括:/n机器学习分类模型,包括:/n表示模型,其被配置为接收和处理包括多个部分的输入,以分别为所述输入的多个部分生成多组特征;/n分类模型,其被配置为接收和处理所述多组特征,以为所述输入的多个部分中的每个部分生成相应的分类数据;和/n注意力模型,其被配置为接收和处理所述多组特征,以在一个或多个迭代中的每一个处选择所述输入的多个部分中的被注意部分;/n其中,在一个或多个迭代的每一个处,所述机器学习分类模型被配置为输出相应的预测,该预测包括在这样迭代处由所述注意力模型选择的所述输入的被注意部分的相应分类数据;/n一个或多个处理器;和/n一...

【技术特征摘要】
20190516 US 62/848,9451.一种计算机系统,其利用硬性注意力执行分类,该计算机系统包括:
机器学习分类模型,包括:
表示模型,其被配置为接收和处理包括多个部分的输入,以分别为所述输入的多个部分生成多组特征;
分类模型,其被配置为接收和处理所述多组特征,以为所述输入的多个部分中的每个部分生成相应的分类数据;和
注意力模型,其被配置为接收和处理所述多组特征,以在一个或多个迭代中的每一个处选择所述输入的多个部分中的被注意部分;
其中,在一个或多个迭代的每一个处,所述机器学习分类模型被配置为输出相应的预测,该预测包括在这样迭代处由所述注意力模型选择的所述输入的被注意部分的相应分类数据;
一个或多个处理器;和
一个或多个非暂时性计算机可读介质,其存储指令,所述指令在由所述一个或多个处理器执行时使计算机系统执行操作,其中,这些操作包括:
获得包括多个部分的所述输入;
将所述输入输入到所述机器学习分类模型中;以及
在一个或多个迭代的每一个处,接收相应的预测作为所述机器学习分类模型的输出。


2.根据任一前述权利要求所述的计算机系统,其中,所述操作还包括:
生成最终分类,其中,生成最终分类包括:
对针对一个或多个迭代所接收的各个预测取平均,以获得平均预测;以及
从所述平均预测中选择得分最高的类别作为最终分类。


3.根据任一前述权利要求所述的计算机系统,其中,所述操作还包括:
提供硬性注意力数据以显示给用户,其中所述硬性注意力数据标识在一个或多个迭代的每一个处选择的所述输入的被注意部分。


4.根据任一前述权利要求所述的计算机系统,其中所述注意力模型包括:
注意力网络,其被配置为接收和处理所述多组特征以产生中间注意力表示;和
扫视器单元,其被配置为在一个或多个迭代的每一个处:
获得所述中间注意力表示;
获得与最近迭代相关联的单元状态,其中,所述单元状态标识在先前迭代中已被选择为被注意部分的部分;
组合所述中间注意力表示和与先前迭代相关联的单元状态,以产生在所述输入的多个部分上的位置概率分布;
基于所述位置概率分布选择被注意部分;以及
基于所述被注意部分更新单元状态以用于下一次迭代。


5.根据权利要求4所述的计算机系统,其中,所述注意力网络被配置为:
接收由所述分类模型产生的中间分类表示;以及
至少部分地基于所述多组特征和所述中间分类表示来产生中间注意力表示。


6.根据权利要求4或5所述的计算机系统,其中,所述扫...

【专利技术属性】
技术研发人员:G埃尔赛德S科恩布利思QV勒
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1