一种众智网络智能数体需求匹配策略优化方法及系统技术方案

技术编号：21915122 阅读：25 留言：0更新日期：2019-08-21 12:46

本发明专利技术公开了一种众智网络智能数体需求匹配策略优化方法及系统，包括：构建信息空间智能主体所对应的智能数体分布；根据收集到的智能主体与众智网络进行供需匹配的历史数据，通过智能主体的历史行为，学习出其内在的奖赏函数；利用强化学习的方法，学习出智能主体的行为策略；对智能数体实施投放不同的排序策略，根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表，设置总成交量作为评估指标，确定每项排序策略的优劣。本发明专利技术有益效果：智能数体可以在信息空间真实地反映智能主体的需求意图，通过计算智能数体的行为策略，获得与智能主体同步的行为模式，为智能主体提供交易服务的推荐排序，大大节省了探索的成本。

An Optimal Method and System for Demand Matching Strategy of Intelligent Digital Agents in Popular Intelligence Network

全部详细技术资料下载

【技术实现步骤摘要】
一种众智网络智能数体需求匹配策略优化方法及系统
本专利技术属于众智科学、人工智能
，尤其涉及一种众智网络智能数体需求匹配策略优化方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。众智网络系统是现代服务业及未来网络化众智型经济和社会的主要形态。如大型电子商务平台、微信、维基、网络大选等都是典型实例。物理空间的自然人、企业、政府部门等机构、各类智能装备与物品等，随着大数据技术和智能技术的普及应用，变得越发智能，我们将物理空间这些人、企业、机构和物品称之为智能主体。众多智能主体连同他们各自意识空间的思想，借助网络和数据，能够被统一映射到信息空间中各自的镜像，我们称这些众多智能主体的映射为信息空间的智能数体，这些信息空间的智能数体实时反映出物理空间智能主体的行为及其各自的心理意识，并通过网络互连、智能搜索、互动交互、交易撮合等操作(借助智能软件算法)实现精准、适时、动态互联，并能产生各类相互作用的行为，这样就形成了万物互联的众智网络。专利技术人发现，众智网络中的任何智能主体之间均为某种意义上的供需关系，其基本行为均可归结为某种意义上的交易活动。智能主体在众智网络发布需求，众多供应方响应需求，为需求者提供方案，众智网络需要根据智能主体的喜好提供一个供应方的排序策略，以期增加交易的成交量等，获得更好的供需匹配结果。若直接将排序策略实施投放在众智网络，策略探索的成本会比较昂贵，一次策略的评估可能对应着巨大的经济损失。
技术实现思路
为了解决上述问题，本专利技术提出一种众智网络智能数体需求匹配策略优化方法及系统，通过计算...

【技术保护点】
1.一种众智网络智能数体需求匹配策略优化方法，其特征在于，包括：收集智能主体的基本信息集，构建信息空间智能主体所对应的智能数体分布；根据收集到的智能主体与众智网络进行供需匹配的历史数据，通过智能主体的历史行为，学习出其内在的奖赏函数；利用强化学习的方法，学习出智能主体的行为策略；对智能数体实施投放不同的排序策略，根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表，设置总成交量作为评估指标，确定每项排序策略的优劣。

【技术特征摘要】
1.一种众智网络智能数体需求匹配策略优化方法，其特征在于，包括：收集智能主体的基本信息集，构建信息空间智能主体所对应的智能数体分布；根据收集到的智能主体与众智网络进行供需匹配的历史数据，通过智能主体的历史行为，学习出其内在的奖赏函数；利用强化学习的方法，学习出智能主体的行为策略；对智能数体实施投放不同的排序策略，根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表，设置总成交量作为评估指标，确定每项排序策略的优劣。2.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，所述收集智能主体的基本信息集，具体为：所述基本信息集划分为描述信息DM和行为信息DB；将智能主体的基本信息集对应到信息空间，构成智能数体的特征向量<DM，DB>；每个智能数体的特征向量与物理空间的智能主体一一对应，生成智能数体分布。3.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，根据生成的智能数体分布以及智能主体与众智网络进行供需匹配的历史数据，使用M＝<S，A，t，R，P>代表智能数体供需匹配的马尔科夫过程；其中，S为状态空间，A为动作空间，t是转移函数，R是奖励函数，P是智能数体的分布；把奖赏函数定义为生成数据和真实数据的不可区分度，最大化奖赏函数，尽量生成和真实数据不可取分的数据；从生成的数据中采样，更新奖赏函数；用强化学习的方法优化智能数体行为策略。4.如权利要求3所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，定义智能主体与众智网络的历史交互数据为τ；初始化用户策略的参数K和奖赏函数的参数F；初始化模拟器策略π以及判别器函数RF；根据转移函数，得到：π(s，a)＝π(<s，a，n>，a)＝π(<s，π(s，.)，n>，a)；从真实的历史交互数据τ中采样，用梯度方法更新奖赏函数的参数F，通过最大化如下目标函数：Eτ[log(RF(s，a))]+Eτ[log(1-RF(s，a))]，更新判别器函数RF，将RF作为强化学习的奖赏函数，用强化学习的方法优化策略，更新π；其中，s表示状态空间...

【专利技术属性】
技术研发人员：崔立真，曲喆，李庆忠，鹿旭东，郭伟，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人