当前位置: 首页 > 专利查询>余利专利>正文

基于用户体验分析的深度强化学习式智能门锁系统及装置制造方法及图纸

技术编号:20162010 阅读:22 留言:0更新日期:2019-01-19 00:14
本发明专利技术公开了一种基于用户体验分析的深度强化学习式智能门锁系统及装置。首先,我们设计出智能门锁系统的强化学习模型,并提出改进的线上线下强化学习算法,该算法对用户体验质量(QoE)分析,通过分析将搜索空间的状态‑行为对降维;其次,为克服强化学习带有的延迟奖励或者惩罚,而影响到后续学习过程,为此,我们采用带有临时记录功能的资格迹进行信用评分,从而避免强化学习中具有的延迟赏罚的弊端。最后,该算法作为核心模块,设计出智能门锁系统的装置,从而实现多元化、智能化学习式的开/关锁系统。避免了用户用人脸/指纹/密码开锁的费时费心的操作,增强门锁的智能化和人性化。

【技术实现步骤摘要】
基于用户体验分析的深度强化学习式智能门锁系统及装置
本专利技术涉及一种基于用户体验分析的深度强化学习式智能门锁系统及装置,尤其涉及无人工参与下的智能学习式门锁开关系统,属于人工智能决策领域。
技术介绍
随着5G无线系统的发展和应用,机器-对-机器(machinetomachine)的世界也即将在强“人工智能+”时代的催生下涌现在人们的日常生活中如:智能家居、车联网、无人机、时控机器人等,无线世界已经实现了与人类的互联互通,自动化和智能化已被视为是面向行业应用一种新趋势。例如,由谷歌深灵(DeepMind)公司打造出的具有深度强化学习技术的围棋冠军AlphaGo,其智能化的学习技术为人工智能时代带来新的契机,其实现了类似人脑的功能:智能的实现学习。因此这种学习式的方法对智能门锁系统展现出巨大的潜力和应用价值。目前,现有的门锁系统有存的弊端如下:(1)采用钥匙手动开锁的门锁系统,本身不依赖与电子系统,使用的时间较长,然而,其潜藏着钥匙易丢、易盗和易复制的安全隐患,是安全系数较低的一种锁具,并且用户出门携带钥匙,用户体验质量较差。随着科技化、智能化的逆袭,以及人们对家居智能化的体验要求与日俱增,因此此种门锁系统将会逐渐淡出应用市场。(2)采用人脸识别/指纹/密码手动开锁的门锁系统,此种形式的门锁系统已经在市场上屡见不鲜,但目前的人脸识别或指纹或密码的形式开锁仍然需要门锁主人或者预先设定的门锁家属或者已知密码的家人手动开锁,其仍然具有手动性质即:开锁者需要点击相应的锁具开锁按钮,人为的参与其识别验证等开锁过程,并且若为密码验证,还需要记住设定的密码等,这种形式的门锁系统,不免有费时费心之嫌,用户体验质量的评价自然不高。(3)采用WIFI的远程控制终端APP进行开锁的门锁系统,此种形式因为需要周期性的更换电池或者给电池充电,一定程度上依赖于装有开锁APP的设备。在断网的情况下遥控开锁或者远程终端开锁则在系统上不起作用,并且仍然需要用户随身携带和保管,易丢失和窃取之嫌。用户体验质量自然会大打折扣。目前,没有相关工作考虑带有用户体验质量(QoE)分析的智能学习式的开/关门锁系统及装置。该系统是具有QoE分析的线上线下式的学习算法,实现了智能学习式开关锁系统,避免了人工干预的开锁的繁琐过程。
技术实现思路
技术问题:本专利技术针对上述方案中尚存的空白,提出了一种基于用户体验分析的深度强化学习式智能门锁系统及装置。该系统是具有用户体验质量(QoE)分析的线上线下式的学习算法,对用户行为进行综合判断,智能决策,并设计出智能门锁系统的装置,从而实现多元化、智能化学习式的开/关锁系统。增强用户的体验质量。技术方案:本专利技术提出一种基于用户体验分析的深度强化学习式智能门锁系统及装置。首先,我们设计智能门锁系统的强化学习模型,并提出改进的线上线下强化学习算法,该算法对用户的QoE分析,通过分析将搜索空间:状态-行为对的空间降维;此外,为克服强化学习带有的延迟奖励或者惩罚,而影响到后续学习过程,即根据此奖励或者惩罚计算下一时刻状态的值函数或者根据此奖励或者惩罚决定下一时刻行为的选择,为此,我们采用带有临时记录功能的资格迹进行信用评分,从而避免强化学习中具有的延迟赏罚的弊端。最后,该算法作为核心模块,设计出智能门锁系统的装置,从而实现多元化、智能化学习式的开/关锁系统。增强用户的体验质量。进一步地,所述的强化学习模型,其是在没有指导的情况下,通过探索和利用进行不断地累计经验的学习,尽管会遇到各种环境的各种不确定性。整个学习过程是通过经验回放池对经验数据进行存储,从而增加先验知识。这个过程也称为带有延迟奖励或者惩罚的试错学习。所述的基于用户体验分析的深度强化学习式智能门锁系统及装置,包括微处理器、环境识别模块、智能学习模块、供电模块、语音通信模块、带人脸/指纹/密码锁芯、步进电机和反锁臂。其特征在于:环境识别模块,用于对环境的感知和检测,如开锁人的人脸、语音以及指纹等信息的识别和记录,以及周围环境的探测,将开锁人的行为传入到智能学习模块。所述的智能学习模块,包括深度强化学习单元和用户体验质量分析决策单元构成。其采用深度强化学习机制,通过用户行为、当前时刻门锁系统的状态和移动边缘云的状态,即学习环境的Q函数值,反馈给深度强化学习单元,根据用户对所采取的行为(开/关锁)反馈,采用线上线下学习算法对下一时刻的动作进行预测评估,如下次智能开/关门锁会得到期望的回报,通过在经验池中经验数据的搜索学习,找到最优的Q函数值,从而对打开/关闭门锁进行决策,并将信息反馈给微处理器,由微处理器发出指令,驱动步进电机,由电机执行开/关门锁的动作。所述的Q函数值,即强化学习中的Q学习的函数值,其目标是在某个策略(学习机制)π下,将学习环境的状态转换成最优的行为,从而对不同用户的状态,在这种状态-动作空间做出开/关锁的智能决策。Q函数目标函数值表示为式(1):其中,θ表示QΩ(s,a)函数的权重,QΩ(s,a)表示改进的低维度的Q函数,表示矩阵转置。s表示系统当前的状态,a表示系统执行的动作。在式(1)中,θ由改进的权重式(2)计算得出:其中,ξ是Q函数更新的学习率,ξ∈[0,1),其根据经典的贝尔曼方程(3)可以得到ξ的经验值,ξ=0.99。E[.]表示从长期看,所获得的期望的奖励。R是在下一时刻(t+1)的立即回报,s′是下一状态。Pr(.)是转移概率。Q函数是当系统处于状态s,采用相应的行为a的期望折扣累计代价(或者回报)。和分别是状态和行为的可行解集。β是折扣因子,表示其学习率,其范围是[0,1)。Q函数学习的最优策略通过式(4)获得。所述的(2)式中δ表示:时间差分误差(TDerror),即下一时刻的近似Q函数的近似值与当前值的差,其通常用式(5)进行估计:所述的(2)式中的表示资格迹函数。由于强化学习具有延迟赏罚的特点,即时收益R,在所有后续时隙中,当前行为可能对当前即刻奖赏(惩罚)和后续的奖赏(惩罚)有影响。因此,我们引入一个资格迹的方法。该方法通过对先前已达的状态和行为分配信用或者惩罚,临时记录已达到的Q函数的历史,从而提供更高效的权值参考。其原理是:资格迹的每一步都积累已达的状态和行为,若该步的状态值已达到Q值,则资格迹增加;若该步的状态值未达到Q值,则资格迹将会逐渐下降,意味着当前已达的状态和行为更有资格参加学习过程。我们用表示在瞬时t时刻关于U个用户资格迹的特征向量。资格迹的更新方程如式(6)表示,其中,l∈[0,1),表示迹-延迟参数。l=0,它将更新为当前达到的Q值。所述的改进的线上线下学习算法的步骤如下:1)线上学习阶段:S1:初始化参数S2:若t<T;其中T表示一个周期,即最大的时隙数,t∈{1,2,…,T};若成立,则转T3,若不成立,则转T8,S3:利用概率ε贪婪选择下一时刻的行为。获得相应的回报和下一时刻的状态信息;S4:观测学习环境状态和即刻代价或者回报R(t);S5:将四元组(s,a,R(t),s′)保存到经验回放池;S6:判断Q函数是否收敛,若没有收敛,则根据式(7)更新Q函数,转S7;若收敛,则转到R1;S7:返回Q函数值;S8:从新进入下一周期。2)线下学习阶段:R1:权重参数赋初值;R2:计算MEC本文档来自技高网
...

【技术保护点】
1.基于用户体验分析的深度强化学习式智能门锁系统及装置,其特征在于,包括微处理器、环境识别模块、智能学习模块、供电模块、语音通信模块、带人脸/指纹/密码锁芯、步进电机和反锁臂。所述的环境识别模块,用于对环境的感知和检测,如开锁人的人脸、语音以及指纹等信息的识别和记录,以及周围环境的探测,将开锁人的行为传入到智能学习模块。

【技术特征摘要】
1.基于用户体验分析的深度强化学习式智能门锁系统及装置,其特征在于,包括微处理器、环境识别模块、智能学习模块、供电模块、语音通信模块、带人脸/指纹/密码锁芯、步进电机和反锁臂。所述的环境识别模块,用于对环境的感知和检测,如开锁人的人脸、语音以及指纹等信息的识别和记录,以及周围环境的探测,将开锁人的行为传入到智能学习模块。2.根据权利要求1所述的基于用户体验分析的深度强化学习式智能门锁系统及装置,其特征在于,所述的智能学习模块包括深度强化学习单元和用户体验质量分析决策单元构成。其采用深度强化学习机制,通过用户行为、当前时刻门锁系统的状态和移动边缘云的状态,即学习环境的Q函数值,反馈给深度强化学习单元,根据用户对所采取的行为(开/关锁)反馈,采用线上线下学习算法对下一时刻的动作进行预测评估,如下次智能开/关门锁会得到期望的回报,通过在经验池中经验数据的搜索学习,找到最优的Q函数值,从而对打开/关闭门锁进行决策,并将信息反馈给微处理器,由微处理器发出指令,驱动步进电机,由电机执行开/关门锁的动作。3.根据权利要求1所述的基于用户体验分析的深度强化学习式智能门锁系统及装置,其特征在于,所述的Q函数值,即强化学习中的Q学习的函数值,其目标是在某个策略(学习机制)π下,将学习环境的状态转换成最优的行为,从而对不同用户的状态,在这种状态-动作空间做出开/关锁的智能决策,Q函数目标函数值表示为式(1):其中,θ表示QΩ(s,a)函数的权重,QΩ(s,a)表示改进的低维度的Q函数,表示矩阵转置,s表示系统当前的状态,a表示系统执行的动作,在式(1)中,θ由改进的权重式(2)计算得出:其中,ξ是Q函数更新的学习率,ξ∈[0,1),其根据经典的贝尔曼方程(3)可以得到ξ的经验值,ξ=0.99。E[.]表示从长期看,所获得的期望的奖励;R是在下一时刻(t+1)的立即回报,s′是下一状态;Pr(.)是转移概率;Q函数是当系统处于状态s,采用相应的行为a的期望折扣累计代价(或者回报);和分别是状态和行为的可行解集;β是折扣因子,表示其学习率,其范围是[0,1);Q函数学习的最优策略通过式(4)获得。所述的(2)式中δ表示:时间差分误差(TDerror),即下一时刻的近似Q函数的近似值与当前值的差,其通常用式(5)进行估计:所述的(2)式中的表示资格迹函数。由于强化学习具有延迟赏罚的特点,即时收益R,在所有后续时隙中,当前行为可能对当前即刻奖赏(惩罚)和后续的奖赏(惩罚)有影响。因此,我们引入一个资格迹的方法。该方法通过对先前已达的状态和行为分配信用或者惩罚,临时记录已达到的Q函数的历史,从而提供更高效的权值参考。其原理是:资格迹的每一步都积累已达的状态和行为,若该步的状态值已达到Q值,则资格迹增加;若该步的状态值未达到Q值,则资格迹将会逐渐下降,意味着当前已达的状态和行为更有资格参加学习过程;我们用表示在瞬时t时刻关于U个用户资格迹的特征向量,资格迹的更新方程如式(6)表示,其中,l∈[0,1),表示迹-延迟参数,...

【专利技术属性】
技术研发人员:张智慧李曼白燕青余利徐立孙爱芬
申请(专利权)人:余利
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1