A handwritten numeral recognition method based on deep Q learning strategy belongs to the field of artificial intelligence and pattern recognition, and it has low recognition accuracy for handwritten digital standard object MNIST database. First of all, the use of depth from the encoder (Deep Auto Encoder, DAE) of the original signal abstract feature extraction, Q learning algorithm encoding characteristics of the original signal as the current state of DAE. Then, the current state is classified and recognized, a reward value is obtained, and the reward value is returned to the Q learning algorithm for iterative updating. By maximizing the reward value, high accurate recognition of handwritten digits is accomplished. The invention has the ability to perceive deep learning and reinforcement learning together with decision-making ability, through the depth from the encoder and Q learning algorithm is combined with the depth of Q (Q DBN) belief network, improve the recognition accuracy, and shorten the recognition time.
【技术实现步骤摘要】
本专利技术属于人工智能和模式识别领域,涉及一种基于深度Q学习策略的手写数字识别方法,是一种深度学习和强化学习相结合的创新性应用技术。
技术介绍
近年来,随着人工智能技术和模式识别技术的不断发展,手写数字识别被广泛的应用于邮政邮件分拣、医疗数据处理以及其他计算视觉等领域。由于带有大量不同的手写点和笔迹类别,手写数字识别是一项具有挑战性的工作。现阶段,有很多模式识别方法被应用于手写数字识别中,例如基于深度学习模型的分类方法、人工神经网络方法以及支持向量机分类器等。在这些现有的识别方法中,基于深度学习模型的深度信念网络具有相对较高的识别精度,因为深度学习模型具有像人脑分层处理信息一样的数据处理能力。手写数字识别要求识别方法同时具有较强的特征提取能力和识别决策能力。尽管深度信念网络具有较强的分层特征提取能力,但是其识别精度仍然无法满足人们的要求,并且识别时间较长。为了获得决策能力较强的手写数字识别方法,人们开始研究机器人理论中的强化学习,并模仿具有较强决策能力的AlphaGo。通过研究人们发现,AlphaGo采用的学习方法主要是无监督的深层循环学习,即“自己跟自己学习” ...
【技术保护点】
一种基于深度强化学习策略的手写数字识别方法,其特征在于包括以下步骤:步骤A:根据深度学习模型分层特征学习的特点,顺序叠加若干个受限玻尔兹曼机RBM构造深度自编码器DAE,并利用DAE对手写数字图像进行分层抽象与关键特征提取;其中,DAE的特征学习是通过逐层训练每个RBM来实现;步骤B:计算DAE的最后一个RBM隐含层状态与原始输入图像数据的重构误差Re‑Error,并设置基于重构误差的特征提取衡量标准;然后所设置的特征提取衡量标准确定最终提取到的特征;步骤C:将最终确定提取到的关键特征向量F=[f1,f2,…,fl]作为强化学习中Q学习算法的初始状态,手写数字的10种识别结 ...
【技术特征摘要】
1.一种基于深度强化学习策略的手写数字识别方法,其特征在于包括以下步骤:步骤A:根据深度学习模型分层特征学习的特点,顺序叠加若干个受限玻尔兹曼机RBM构造深度自编码器DAE,并利用DAE对手写数字图像进行分层抽象与关键特征提取;其中,DAE的特征学习是通过逐层训练每个RBM来实现;步骤B:计算DAE的最后一个RBM隐含层状态与原始输入图像数据的重构误差Re-Error,并设置基于重构误差的特征提取衡量标准;然后所设置的特征提取衡量标准确定最终提取到的特征;步骤C:将最终确定提取到的关键特征向量F=[f1,f2,…,fl]作为强化学习中Q学习算法的初始状态,手写数字的10种识别结果作为Q学习算法的输出状态,然后进行Q算法寻优决策迭代;其中,f1,f2,…,fl分别表示最后一个RBM隐含层中各个神经元的状态值,l是隐含层...
【专利技术属性】
技术研发人员:乔俊飞,王功明,李文静,韩红桂,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。