【技术实现步骤摘要】
一种运算系统及方法
本申请实施例涉及机器学习领域,尤其涉及一种运算系统及方法。
技术介绍
深度学习运算已经获得了非常成功的应用,并处于迅速发展的过程中。目前主要的方向是反向传播(backpropagation,BP)运算、无监督学习运算和弱监督学习运算等。BP运算可以归纳为,只要有足够多的标记样本,就可以通过自动化的学习运算获得样本所代表的任何复杂的、由一组参数所定义的映射函数。这个运算目前已经比较成功地解决了语音识别、图像分类等经典的曾经被认为是非常困难的人工智能问题,因此近年来推动了技术、应用及投资的普遍热情。但是这个方法需要人工大量标记数据样本,不仅成本高昂,而且由于人工标记的局限性,限制了所获得模型的适应性以及解决更复杂问题的能力。为此,业界已经将重心转移到无监督学习运算和弱监督学习运算的方向上。一种方式是,以无标记的数据样本作为输入,通过运算来学习无标记数据样本所隐含的概念。这类方法通过一个映射(被称为编码器),将显空间的样本矢量转换为隐空间的样本矢量。这个有效的映射可以将显空间的复 ...
【技术保护点】
1.一种运算系统,其特征在于,包括:/n特征提取单元,用于基于环境获取本次数据向量;根据一个或多个数据向量提取本次特征向量,其中,所述一个或多个数据向量包括本次数据向量;以及根据所述一个或多个数据向量和所述本次特征向量优化所述特征提取单元;/n行动产生单元,用于根据所述特征提取单元提取的一个或多个特征向量确定本次行动向量,所述一个或多个特征向量包括本次特征向量;将本次行动向量作用于环境,以便所述特征提取单元基于本次行动向量作用后的环境获取下一次数据向量;基于环境获取本次奖惩反馈,其中,所述本次奖惩反馈为一个或多个行动向量作用于环境产生,所述一个或多个行动向量包括所述本次行动 ...
【技术特征摘要】
1.一种运算系统,其特征在于,包括:
特征提取单元,用于基于环境获取本次数据向量;根据一个或多个数据向量提取本次特征向量,其中,所述一个或多个数据向量包括本次数据向量;以及根据所述一个或多个数据向量和所述本次特征向量优化所述特征提取单元;
行动产生单元,用于根据所述特征提取单元提取的一个或多个特征向量确定本次行动向量,所述一个或多个特征向量包括本次特征向量;将本次行动向量作用于环境,以便所述特征提取单元基于本次行动向量作用后的环境获取下一次数据向量;基于环境获取本次奖惩反馈,其中,所述本次奖惩反馈为一个或多个行动向量作用于环境产生,所述一个或多个行动向量包括所述本次行动向量;以及根据所述本次奖惩反馈优化所述行动产生单元。
2.根据权利要求1所述的系统,其特征在于,所述行动产生单元还用于,根据所述本次奖惩反馈优化所述特征提取单元。
3.根据权利要求2所述的系统,其特征在于,所述特征提取单元按照第一概率优化所述特征提取单元,所述行动产生单元按照第二概率优化所述特征提取单元,所述第一概率与所述第二概率的和为1。
4.根据权利要求1-3任意一项所述的系统,其特征在于,所述特征提取单元还用于,根据一个或多个训练数据向量预先进行学习。
5.根据权利要求4所述的系统,其特征在于,所述行动产生单元还用于,根据所述特征提取单元预先确定的一个或多个训练特征向量预先进行学习。
6.根据权利要求5所述的系统,其特征在于,所述特征提取单元与所述行动产生单元在时间上单独进行学习;或者,所述特征提取单元与所述行动产生单元在时间上同时进行学习。
7.根据权利要求1-6任意一项所述的系统,其特征在于,所述系统包括一个或多个子系统,每个子系统分别包括特征提取单元和行动产生单元;子系统在运行过程中根据环境的奖惩反馈确定奖惩累计值,其中,若本次奖惩反馈为奖励则增加所述奖惩累计值,若本次奖惩反馈为惩罚则减少奖惩累计值;奖惩累计值高于第一阈值的子系统被复制;奖惩累计值低于第二阈值的子系统被淘汰。
8.根据权利要求1所述的系统,其特征在于,所述特征提取单元具体用于,根据一个或多个数据向量通过第一运算提取本次特征向量;以及根据所述本次特征向量通过第二运算生成数据向量,根据生成的数据向量与所述一个或多个数据向量的误差优化所述第一运算和所述第二运算。
9.根据权利要求8所述的系统,其特征在于,所述行动产生单元具体用于,根据所述特征提取单元提取的一个或多个特征向量通过第三运算映射得到本次行动向量;基于环境获取本次奖惩反馈,并根据本次奖惩反馈映射得到本次奖惩值;以及根据所述本次奖惩值优化所述第三运算和所述第一运算。
10.根据权利要求9所述的系统,其特征在于,所述第三运算包括通过神经网络的运算以及选择运算,所述神经网络运算用于将所述特征提取单元提取的一个或多个特征向量映射多个待定行动向量,所述选择运算用于从所述多个待定行动向量中选择最优的一个为本次行动向量。
11.根据权利要求10所述的系统,其特征在于,所述选择运算还包括搜索运算。
12.根据权利要求11所述的系统,其特征在于,所述搜索运算具体用于,从所述多个待定行动向量中进行多次选择,分别选择一个行动向量并进行模拟运行,选择模拟运行结果中最优的一个行动向量作为本次行动向量。
13.根据权利要求9-12任意一项所述的系统,其特征在于,所述第一运算、第二运算或第三运算包括通过循环神经网络RNN的运算。
14.根据权利要求1-13任意一项所述的系统,其特征在于,所述行动产生单元还用于,根据本次行动向量调整优化所述特征提取单元或者优化所述行动产生单元的方式。
15.根据权利要求1-14任意一项所述的系统,所述系统应用于相机、机器人或者自动驾驶工具。
16.一种运算方法,所述方法适用于运算系统,其特征在于,包括:
基于环境获取本次数据向量;
根据一个或多个数据向量提取本次特征向量,其中,所述一个或多个数据向量包括本次数据向量;
根据所述一个或多个数据向量和所述本次特征向量优化特征向量提取的方式;
根据一个或多个特征向量确定本次行动向量,所述一个或多个特征向量包括本次特征向量;
将本次行动向量作用于环境,以便所述特征提取单元基于本次行动向量作用后的环境获取下一次数据向量;
基于环境获取本次奖惩反馈,其中,所述本次奖惩反馈为一个或多个行动向量作用于环境产生,所述一个或多个行动向量包括所述本次行动向量;
根据所述本次奖惩反馈优化行动向量确定方式。
17.根据权利要求16所述的方法,其特征在于,还包括:
根据所述本次奖惩反馈优化特征向量提取的方式。
18.根据权利要求17所述的方法,其特征在于,
所述根据所述一个或多个数据向量和所述本次特征向量优化特征向量提取的方式包括:按照第一概率根据所述一个或多个数据向量和所述本次特征向量优化特征向量提取的方式;所述根据所述本次奖惩反馈优化特征向量提取的方式包括:按照第二概率根据所述本次奖惩反馈优化特征向量提取的方式;
其中,所述第一概率与所述第二概率的和为1。
19.根据权利要求16-18任意一项所述的方法,其特征在于,还包括:根据一个或多个训练数据向量预先进行学习。
20.根据权利要求19所述的方法,其特征在...
【专利技术属性】
技术研发人员:费旭东,邹斯骋,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。