当前位置: 首页 > 专利查询>山东大学专利>正文

一种众智网络智能数体需求匹配策略优化方法及系统技术方案

技术编号:21915122 阅读:25 留言:0更新日期:2019-08-21 12:46
本发明专利技术公开了一种众智网络智能数体需求匹配策略优化方法及系统,包括:构建信息空间智能主体所对应的智能数体分布;根据收集到的智能主体与众智网络进行供需匹配的历史数据,通过智能主体的历史行为,学习出其内在的奖赏函数;利用强化学习的方法,学习出智能主体的行为策略;对智能数体实施投放不同的排序策略,根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表,设置总成交量作为评估指标,确定每项排序策略的优劣。本发明专利技术有益效果:智能数体可以在信息空间真实地反映智能主体的需求意图,通过计算智能数体的行为策略,获得与智能主体同步的行为模式,为智能主体提供交易服务的推荐排序,大大节省了探索的成本。

An Optimal Method and System for Demand Matching Strategy of Intelligent Digital Agents in Popular Intelligence Network

【技术实现步骤摘要】
一种众智网络智能数体需求匹配策略优化方法及系统
本专利技术属于众智科学、人工智能
,尤其涉及一种众智网络智能数体需求匹配策略优化方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。众智网络系统是现代服务业及未来网络化众智型经济和社会的主要形态。如大型电子商务平台、微信、维基、网络大选等都是典型实例。物理空间的自然人、企业、政府部门等机构、各类智能装备与物品等,随着大数据技术和智能技术的普及应用,变得越发智能,我们将物理空间这些人、企业、机构和物品称之为智能主体。众多智能主体连同他们各自意识空间的思想,借助网络和数据,能够被统一映射到信息空间中各自的镜像,我们称这些众多智能主体的映射为信息空间的智能数体,这些信息空间的智能数体实时反映出物理空间智能主体的行为及其各自的心理意识,并通过网络互连、智能搜索、互动交互、交易撮合等操作(借助智能软件算法)实现精准、适时、动态互联,并能产生各类相互作用的行为,这样就形成了万物互联的众智网络。专利技术人发现,众智网络中的任何智能主体之间均为某种意义上的供需关系,其基本行为均可归结为某种意义上的交易活动。智能主体在众智网络发布需求,众多供应方响应需求,为需求者提供方案,众智网络需要根据智能主体的喜好提供一个供应方的排序策略,以期增加交易的成交量等,获得更好的供需匹配结果。若直接将排序策略实施投放在众智网络,策略探索的成本会比较昂贵,一次策略的评估可能对应着巨大的经济损失。
技术实现思路
为了解决上述问题,本专利技术提出一种众智网络智能数体需求匹配策略优化方法及系统,通过计算智能主体的历史交易记录获得智能主体的意图函数,将智能主体映射到信息空间,即智能数体,利用智能数体训练搜索排序策略,以达到优化供需匹配的目的。在一些实施方式中,采用如下技术方案:一种众智网络智能数体需求匹配策略优化方法,包括:收集智能主体的基本信息集,构建信息空间智能主体所对应的智能数体分布;根据收集到的智能主体与众智网络进行供需匹配的历史数据,通过智能主体的历史行为,学习出其内在的奖赏函数;利用强化学习的方法,学习出智能主体的行为策略;对智能数体实施投放不同的排序策略,根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表,设置总成交量作为评估指标,确定每项排序策略的优劣。作为进一步地改进,所述收集智能主体的基本信息集,具体为:所述基本信息集划分为描述信息DM和行为信息DB;将智能主体的基本信息集对应到信息空间,构成智能数体的特征向量<DM,DB>;每个智能数体的特征向量与物理空间的智能主体一一对应,生成智能数体分布。作为进一步地改进,根据生成的智能数体分布以及智能主体与众智网络进行供需匹配的历史数据,使用M=<S,A,t,R,P>代表智能数体供需匹配的马尔科夫过程;其中,S为状态空间,A为动作空间,t是转移函数,R是奖励函数,P是智能数体的分布;把奖赏函数定义为生成数据和真实数据的不可区分度,最大化奖赏函数,尽量生成和真实数据不可取分的数据;从生成的数据中采样,更新奖赏函数;用强化学习的方法优化智能数体行为策略。作为进一步地改进,定义智能主体与众智网络的历史交互数据为τ;初始化用户策略的参数K和奖赏函数的参数F;初始化模拟器策略π以及判别器函数RF;根据转移函数,得到:π(s,a)=π(<s,a,n>,a)=π(<s,π(s,·),n>,a);从真实的历史交互数据τ中采样,用梯度方法更新奖赏函数的参数F,通过最大化如下目标函数:Eτ[log(RF(s,a))]+Eτ[log(1-RF(s,a))],更新判别器函数RF,将RF作为强化学习的奖赏函数,用强化学习的方法优化策略,更新π;其中,s表示状态空间的某个状态,a表示动作空间的某个动作,n表示用户浏览第几页,π(s,·)表示动作a对应的用户策略,Eτ为历史交互数据采样优化目标函数,RF(s,a)为奖赏函数;迭代结束后返回智能数体的行为策略。作为进一步地改进,调整历史排序策略作为训练策略投放给智能数体;根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应列表;智能数体根据自己的行为策略选择供应;计算所有智能数体的总成交量;比较历史成交量和所有智能数体的总成交量,确定每项排序策略的优劣。作为进一步地改进,每一个排序策略都使用强化学习进行自我优化,此过程用一个四元组<S,A,R,T>表示,其中,S为状态空间,A为动作空间,R为奖赏函数,T为转移函数,是否采纳或是否浏览对应着不同的奖赏,目标是找到一个自身最优的策略π*,使得它在任意状态s和任意时间步骤t+k下,都能够获得最大的长期累积奖赏。作为进一步地改进,所述策略π*具体为:其中,Eπ表示策略π下的期望值,γk为折扣率,γk∈[0,1),rt+k表示在时间步骤t+k上获得的即时奖赏,St为当前环境状态,s表示状态空间的某个状态。作为进一步地改进,在测试每个排序策略时,系统根据整个需求供应项目集合的查询表单检索一组相关的需求供应项,分配与项目属性对应的权重向量,计算每个项目的权重向量与项目属性的乘积,并选择值最高的前m个供应项目发送给智能数体。在另外一些实施方式中,采用如下技术方案:一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的众智网络智能数体需求匹配策略优化方法。一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行上述的众智网络智能数体需求匹配策略优化方法。与现有技术相比,本专利技术的有益效果是:本专利技术将智能主体的信息和行为映射到信息空间,构建智能数体,与智能主体一一对应。智能数体能真实地反映智能主体的信息以及行为意图。将待测试的供需策略实施投放到众多智能数体中,比较成交总量,调整训练以得到优化的供需策略。智能数体是智能主体在信息空间的映射,可以在信息空间真实地反映智能主体的需求意图,在众智网络中,通过计算智能数体的行为策略,获得与智能主体同步的行为模式,测试排序策略,为智能主体提供交易服务的推荐排序,大大节省了探索的成本。强化学习是求累积回报期望最大时的最优策略,在求解过程中立即回报是人为给定的。然而在很多任务中,立即回报很难指定。其实智能主体在物理世界完成具体任务时有隐形的回报函数,根据逆强化学习的思想,专家在完成某项任务时其策略往往是最优的,将每个智能主体视为专家,通过其历史行为,学习出其内在的回报函数,即智能主体的意图函数,再利用强化学习的方法学习出其行为策略,即构建了智能数体。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为实施例一中智能主体与众智网络交互示意图;图2为实施例一中智能数体生成及意图学习示意图;图3为实施例一中搜索的决策序列示意图。具体实施方式应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本专利技术使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的本文档来自技高网
...

【技术保护点】
1.一种众智网络智能数体需求匹配策略优化方法,其特征在于,包括:收集智能主体的基本信息集,构建信息空间智能主体所对应的智能数体分布;根据收集到的智能主体与众智网络进行供需匹配的历史数据,通过智能主体的历史行为,学习出其内在的奖赏函数;利用强化学习的方法,学习出智能主体的行为策略;对智能数体实施投放不同的排序策略,根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表,设置总成交量作为评估指标,确定每项排序策略的优劣。

【技术特征摘要】
1.一种众智网络智能数体需求匹配策略优化方法,其特征在于,包括:收集智能主体的基本信息集,构建信息空间智能主体所对应的智能数体分布;根据收集到的智能主体与众智网络进行供需匹配的历史数据,通过智能主体的历史行为,学习出其内在的奖赏函数;利用强化学习的方法,学习出智能主体的行为策略;对智能数体实施投放不同的排序策略,根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表,设置总成交量作为评估指标,确定每项排序策略的优劣。2.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法,其特征在于,所述收集智能主体的基本信息集,具体为:所述基本信息集划分为描述信息DM和行为信息DB;将智能主体的基本信息集对应到信息空间,构成智能数体的特征向量<DM,DB>;每个智能数体的特征向量与物理空间的智能主体一一对应,生成智能数体分布。3.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法,其特征在于,根据生成的智能数体分布以及智能主体与众智网络进行供需匹配的历史数据,使用M=<S,A,t,R,P>代表智能数体供需匹配的马尔科夫过程;其中,S为状态空间,A为动作空间,t是转移函数,R是奖励函数,P是智能数体的分布;把奖赏函数定义为生成数据和真实数据的不可区分度,最大化奖赏函数,尽量生成和真实数据不可取分的数据;从生成的数据中采样,更新奖赏函数;用强化学习的方法优化智能数体行为策略。4.如权利要求3所述的一种众智网络智能数体需求匹配策略优化方法,其特征在于,定义智能主体与众智网络的历史交互数据为τ;初始化用户策略的参数K和奖赏函数的参数F;初始化模拟器策略π以及判别器函数RF;根据转移函数,得到:π(s,a)=π(<s,a,n>,a)=π(<s,π(s,.),n>,a);从真实的历史交互数据τ中采样,用梯度方法更新奖赏函数的参数F,通过最大化如下目标函数:Eτ[log(RF(s,a))]+Eτ[log(1-RF(s,a))],更新判别器函数RF,将RF作为强化学习的奖赏函数,用强化学习的方法优化策略,更新π;其中,s表示状态空间...

【专利技术属性】
技术研发人员:崔立真曲喆李庆忠鹿旭东郭伟
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1