当前位置: 首页 > 专利查询>余利专利>正文

基于用户体验分析的深度强化学习式智能门锁系统及装置制造方法及图纸

技术编号：20162010 阅读：22 留言：0更新日期：2019-01-19 00:14

本发明专利技术公开了一种基于用户体验分析的深度强化学习式智能门锁系统及装置。首先，我们设计出智能门锁系统的强化学习模型，并提出改进的线上线下强化学习算法，该算法对用户体验质量(QoE)分析，通过分析将搜索空间的状态‑行为对降维；其次，为克服强化学习带有的延迟奖励或者惩罚，而影响到后续学习过程，为此，我们采用带有临时记录功能的资格迹进行信用评分，从而避免强化学习中具有的延迟赏罚的弊端。最后，该算法作为核心模块，设计出智能门锁系统的装置，从而实现多元化、智能化学习式的开/关锁系统。避免了用户用人脸/指纹/密码开锁的费时费心的操作，增强门锁的智能化和人性化。

全部详细技术资料下载

【技术实现步骤摘要】
基于用户体验分析的深度强化学习式智能门锁系统及装置
本专利技术涉及一种基于用户体验分析的深度强化学习式智能门锁系统及装置，尤其涉及无人工参与下的智能学习式门锁开关系统，属于人工智能决策领域。
技术介绍
随着5G无线系统的发展和应用，机器-对-机器(machinetomachine)的世界也即将在强“人工智能+”时代的催生下涌现在人们的日常生活中如：智能家居、车联网、无人机、时控机器人等，无线世界已经实现了与人类的互联互通，自动化和智能化已被视为是面向行业应用一种新趋势。例如，由谷歌深灵(DeepMind)公司打造出的具有深度强化学习技术的围棋冠军AlphaGo，其智能化的学习技术为人工智能时代带来新的契机，其实现了类似人脑的功能：智能的实现学习。因此这种学习式的方法对智能门锁系统展现出巨大的潜力和应用价值。目前，现有的门锁系统有存的弊端如下：(1)采用钥匙手动开锁的门锁系统，本身不依赖与电子系统，使用的时间较长，然而，其潜藏着钥匙易丢、易盗和易复制的安全隐患，是安全系数较低的一种锁具，并且用户出门携带钥匙，用户体验质量较差。随着科技化、智能化的逆袭，以及人们对家居智能化的体验要求与日俱增，因此此种门锁系统将会逐渐淡出应用市场。(2)采用人脸识别/指纹/密码手动开锁的门锁系统，此种形式的门锁系统已经在市场上屡见不鲜，但目前的人脸识别或指纹或密码的形式开锁仍然需要门锁主人或者预先设定的门锁家属或者已知密码的家人手动开锁，其仍然具有手动性质即：开锁者需要点击相应的锁具开锁按钮，人为的参与其识别验证等开锁过程，并且若为密码验证，还需要记住设定的密码等，这种形式的门...

【技术保护点】
1.基于用户体验分析的深度强化学习式智能门锁系统及装置，其特征在于，包括微处理器、环境识别模块、智能学习模块、供电模块、语音通信模块、带人脸/指纹/密码锁芯、步进电机和反锁臂。所述的环境识别模块，用于对环境的感知和检测，如开锁人的人脸、语音以及指纹等信息的识别和记录，以及周围环境的探测，将开锁人的行为传入到智能学习模块。

【技术特征摘要】
1.基于用户体验分析的深度强化学习式智能门锁系统及装置，其特征在于，包括微处理器、环境识别模块、智能学习模块、供电模块、语音通信模块、带人脸/指纹/密码锁芯、步进电机和反锁臂。所述的环境识别模块，用于对环境的感知和检测，如开锁人的人脸、语音以及指纹等信息的识别和记录，以及周围环境的探测，将开锁人的行为传入到智能学习模块。2.根据权利要求1所述的基于用户体验分析的深度强化学习式智能门锁系统及装置，其特征在于，所述的智能学习模块包括深度强化学习单元和用户体验质量分析决策单元构成。其采用深度强化学习机制，通过用户行为、当前时刻门锁系统的状态和移动边缘云的状态，即学习环境的Q函数值，反馈给深度强化学习单元，根据用户对所采取的行为(开/关锁)反馈，采用线上线下学习算法对下一时刻的动作进行预测评估，如下次智能开/关门锁会得到期望的回报，通过在经验池中经验数据的搜索学习，找到最优的Q函数值，从而对打开/关闭门锁进行决策，并将信息反馈给微处理器，由微处理器发出指令，驱动步进电机，由电机执行开/关门锁的动作。3.根据权利要求1所述的基于用户体验分析的深度强化学习式智能门锁系统及装置，其特征在于，所述的Q函数值,即强化学习中的Q学习的函数值，其目标是在某个策略(学习机制)π下，将学习环境的状态转换成最优的行为，从而对不同用户的状态，在这种状态-动作空间做出开/关锁的智能决策，Q函数目标函数值表示为式(1)：其中，θ表示QΩ(s,a)函数的权重，QΩ(s,a)表示改进的低维度的Q函数，表示矩阵转置，s表示系统当前的状态，a表示系统执行的动作，在式(1)中，θ由改进的权重式(2)计算得出：其中，ξ是Q函数更新的学习率，ξ∈[0,1)，其根据经典的贝尔曼方程(3)可以得到ξ的经验值，ξ＝0.99。E[.]表示从长期看，所获得的期望的奖励；R是在下一时刻(t+1)的立即回报，s′是下一状态；Pr(.)是转移概率；Q函数是当系统处于状态s，采用相应的行为a的期望折扣累计代价(或者回报)；和分别是状态和行为的可行解集；β是折扣因子，表示其学习率，其范围是[0,1)；Q函数学习的最优策略通过式(4)获得。所述的(2)式中δ表示：时间差分误差(TDerror)，即下一时刻的近似Q函数的近似值与当前值的差，其通常用式(5)进行估计：所述的(2)式中的表示资格迹函数。由于强化学习具有延迟赏罚的特点，即时收益R，在所有后续时隙中，当前行为可能对当前即刻奖赏(惩罚)和后续的奖赏(惩罚)有影响。因此，我们引入一个资格迹的方法。该方法通过对先前已达的状态和行为分配信用或者惩罚，临时记录已达到的Q函数的历史，从而提供更高效的权值参考。其原理是：资格迹的每一步都积累已达的状态和行为，若该步的状态值已达到Q值，则资格迹增加；若该步的状态值未达到Q值，则资格迹将会逐渐下降，意味着当前已达的状态和行为更有资格参加学习过程；我们用表示在瞬时t时刻关于U个用户资格迹的特征向量，资格迹的更新方程如式(6)表示，其中，l∈[0,1)，表示迹-延迟参数，...

【专利技术属性】
技术研发人员：张智慧，李曼，白燕青，余利，徐立，孙爱芬，
申请(专利权)人：余利，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人