【技术实现步骤摘要】
本专利技术涉及Web用户的主动式检索
,尤其涉及一种基于强化学习的网页页面主动式检索系统,用于实现对Web用户进行最能体现用户兴趣模式的Web页面推荐。
技术介绍
马尔科夫决策过程包含一个环境状态集S,方法行为集合A,奖赏函数R和状态转移函数P。奖赏函数R(s,a,s')是在状态s的情形下采用动作a,环境状态转移到s'获得的瞬时奖赏值;记P(s, a, s')在状态s的情形下采用动作a使环境状态转移到s'的概率。马尔科夫决策过程的本质是当前状态向下一状态转移的概率和奖赏值只和当前状态以及当前状态下选择的动作有关,而与以前的历史状态以及历史动作无关。因此在状态转移概率函数P和奖赏函数R都已经确定的环境模型的知识框架下,动态规划的技术可以用来求解最优策略。然而在现实世界中的大部分情况下,状态转移概率函数P和奖赏函数R的环境模型却难以确定,强化学习主要是着重研究奖赏函数和状态转移函数未知的情况下,如何学习最优行为策略。 强化学习(reinforcement learning,又称再励学习,评价学习)是机器学习方法的一个重要的分支,在智能控制机器人及分析预测等领域 ...
【技术保护点】
一种基于强化学习的网页页面主动式检索系统,其特征在于,该系统包括:Web搜索Agent模块,用于接收用户的初始请求,并且将用户请求进行分析,利用相关主题分析下载Web页面,将结果提交至Web过滤Agent模块;Web过滤Agent模块,用于实现对信息搜索Agent搜索获取的页面进行内容分析,利用强化学习中的Q学习系统对各个Web页面进行Q学习中值函数计算,并将结果提供Web接口Agent模块;Web接口Agent模块用于提供用户推荐Web页面,记录用户浏览行为,并将结果提交给用户信息学习Agent模块;用户信息学习Agent模块,用于利用强化学习中的TD学习算法对用户的兴趣 ...
【技术特征摘要】
一种基于强化学习的网页页面主动式检索系统,其特征在于,该系统包括Web搜索Agent模块,用于接收用户的初始请求,并且将用户请求进行分析,利用相关主题分析下载Web页面,将结果提交至Web过滤Agent模块;Web过滤Agent模块,用于实现对信息搜索Agent搜索获取的页面进行内容分析,利用强化学习中的Q学习系统对各个Web页面进行Q学习中值函数计算,并将结果提供Web接口Agent模块;Web接口Agent模块用于提供用户推荐Web页面,记录用户浏览行为,并将结果提交给用户信息学习Agent模块;用户信息学习Agent模块,用于利用强化学习中的TD学习算法对用户的兴趣模型进行更新和改进,根据Web接口Agent模块所完成的对用户浏览页面行为的记录,生成获取到的用户的反馈值,由兴趣度计算和更新模块不断对用户的兴趣进行更新,利用TD学习算法对用户的兴趣模式进行计算,最终达到用户信息模型的最佳权重分布。2. 根据权利要求1所述的基于强化学习的网页页面主动式检索系统,其特征在于,该Web搜索Agent模块由信息搜索、Web页面分析以及Web页面下载这几个功能模块组成,用于实现与用户兴趣主题相关的搜索、网页内容分析和页面的下载功能;由用户先输入原始的请求,根据搜索引擎进行初始页面的获取,并且将页面上的相关链接提取并存放到一个缓冲区,页面下载模块将根据链接URL地址访问相应的网页,同时按照主题关键词分类保存。3. 根据权利要求1所述的基于强化学习的网页页面主动式检索系统,其特征在于,该...
【专利技术属性】
技术研发人员:杨彦武,张文生,李益群,肖宪,刘琰琼,梁玉旋,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。