【技术实现步骤摘要】
基于强化学习的信息处理方法、装置、设备和存储介质
本申请涉及数据分析
,尤其涉及一种基于强化学习的信息处理的方法、装置、设备和存储介质。
技术介绍
目前,人工智能已经被广泛应用于生产生活的各个领域,计算机可以利用强化学习、深度学习和神经网络等方式对信息进行处理,从而提出最优方案以解决复杂问题。然而,单一的利用强化学习模型对信息进行处理,然后得到最终方案,存在着准确性低,收敛速度慢等缺点,无法应用到复杂信息处理场景。
技术实现思路
基于此,针对单一的利用强化学习模型对信息进行处理,然后得到最终方案,存在着准确性低,收敛速度慢等缺点,无法应用到复杂信息处理场景的问题,提供一种基于强化学习的信息处理方法、装置、设备和存储介质。一种基于强化学习的信息处理方法,包括如下步骤:获取原始数据并对所述原始数据进行预处理,得到样本数据;获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权 ...
【技术保护点】
1.一种基于强化学习的信息处理方法,其特征在于,包括:/n获取原始数据并对所述原始数据进行预处理,得到样本数据;/n获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;/n获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;/n根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;/n根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选 ...
【技术特征摘要】
1.一种基于强化学习的信息处理方法,其特征在于,包括:
获取原始数据并对所述原始数据进行预处理,得到样本数据;
获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
2.根据权利要求1所述的基于强化学习的信息处理方法,其特征在于,所述获取原始数据并对所述原始数据进行预处理,得到样本数据,包括:
对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
3.根据权利要求1所述的基于强化学习的信息处理的方法,其特征在于,所述获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重,包括:
采用实体抽取技术抽取所述样本数据中的实体名称信息,并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段;
从所述信息字段中提取出所述目标值;
将所述目标值和所述实际值入参到预设的奖惩函数进行计算,得到所述实际值的评分权重,其中,评分权重的计算公式为:
r(St+1)=a[sgn(A-St+1)]+b(St-St+1),
式子中,r(St+1)为第t+1个实际值的评分权重,a,b为平衡常数0≤a≤1、0≤b≤1,sgn()为符号函数,A为目标值,St为第t个实际值,St+1为第t+1个实际值。
4.根据权利要求1所述的基于强化学习的信息处理方法,其特征在于,所述将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分,包括:
根据所述评分权重,生成所述强化学习模型中参数的初始奖励权重;
将各所述备选方案数据和所述实际值的评分权重导入到所述强化学习模型,获取所述强化学习模型的实时状态,将所述实时状态与状态库中的状态进行匹配,得到所述实时状态的贡献值;
根据所述实时状态的贡献值,对所述初始奖励权重进行修正后,得到最终奖励权重;
根据所述最终奖励权重,对各所述备选方案数据进行评分后,得到各所述备选方案数据的初始评分。
5.根据权利要求1所述的基于强化学习的信息处理方法,其特征在于,所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分,包括:
获取...
【专利技术属性】
技术研发人员:刘卓,孙行智,赵惟,徐卓扬,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。