一种基于强化学习的网络服务选择方法、介质及系统技术方案

技术编号：39148232 阅读：9 留言：0更新日期：2023-10-23 14:57

本发明专利技术提供了一种基于强化学习的网络服务选择方法、介质及系统，属于网络服务推荐技术领域，该基于强化学习的网络服务选择方法包括以下步骤：获取待选择渠道商的当前订单数据，对当前订单数据进行预处理，得到当前订单特征向量；获取各类渠道商的历史订单数据，对历史订单数据进行所述预处理，得到历史订单特征向量；建立上下文感知多臂老虎机模型，初始化上下文感知多臂老虎机模型信息；对初始化后的上下文感知多臂老虎机模型进行动作选择，得到渠道商推荐结果；依据渠道商推荐结果，更新上下文感知多臂老虎机模型的参数，直至上下文感知多臂老虎机模型对渠道商动作选择完毕。感知多臂老虎机模型对渠道商动作选择完毕。感知多臂老虎机模型对渠道商动作选择完毕。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的网络服务选择方法、介质及系统

[0001]本专利技术属于网络服务选择
，具体而言，涉及一种基于强化学习的网络服务选择方法、介质及系统。

技术介绍

[0002]网络营销服务商一般是指以互联网为平台，在深入分析企业现状、产品特点和行业特征的基础上，为企业量身定制个性化的高性价比网络营销方案，全面负责方案的有效实施。对网络营销效果进行跟踪监控，并定期为企业提供效果分析报告。对营销服务提供商来讲，渠道商的网络服务至关重要，而各渠道商在各项服务指标上均存在较为明显的差异。因此，如何在多个渠道商中选出当前综合指标最高的渠道商，是营销服务提供商提高收益的关键问题。
[0003]目前传统的解决方案之一是人工统计历史数据制定方案，现有方法存在两个主要问题：
[0004]1.渠道服务商的服务能力具有动态性，服务能力由渠道商的实时负载决定。因为渠道商同时向多家客户提供服务，网络营销服务商无法实时获取当前各个渠道商的服务水平，在动态复杂多变的服务环境下，采用固定的解决方案可能出现不与环境匹配的情况导致收益难以满足预期。
[0005]2.大规模订单有待实时处理，对处理方法的运算效率有着较高要求。

技术实现思路

[0006]有鉴于此，本专利技术提供一种基于强化学习的网络服务选择方法、介质及系统，能够解决上述
技术介绍
中提出的技术问题。
[0007]本专利技术是这样实现的：
[0008]本专利技术的第一方面提供一种基于强化学习的网络服务选择方法，其中，包括以下步骤：r/>[0009]S10：获取待选择渠道商的当前订单数据；
[0010]S20：对订单数据进行所述预处理，得到订单特征向量；
[0011]S30：建立上下文感知多臂老虎机模型，根据上下文老虎机的参数是否为空值来判断是否存在冷启动问题，如果存在则转入步骤S40，否则转入步骤S70。
[0012]S40：上下文感知多臂老虎机模型从大数据平台取得历史订单数据，并使用步骤S20中一致的方法进行预处理，得到订单的特征向量。
[0013]S50：将上下文感知多臂老虎机模型的臂记为a∈A
t
，初始化每个臂a的参数：A
a
＝I
d
、b
a
＝0
d
×1、x
t，a
∈R
d
；其中，A
t
为臂的集合、I
d
为d维单位向量、0
d
×1为d
×
1维的零向量、R
d
为d维实向量；A
a
与b
a
为通过岭回归的方式估计期望收益与上下文环境信息的系数时，方便参数的更新而简记的两个乘积，即时，方便参数的更新而简记的两个乘积，即D
a
为用户总特征矩阵，c
a
为臂a前m次的收益；x
t，a
为每个臂
的上下文向量，定义并初始化时刻变量t＝1。
[0014]S60：使用历史订单数据离线地训练模型；逐步输入历史订单数据，模拟充值过程并更新上下文感知多臂老虎机模型每个臂的参数A
a
与b
a
，按照如下规则：
[0015]对t时刻的各个臂α
t
∈A
t
，
[0016]其中，为上下文环境信息，r
t
为获取的奖励反馈值；计算每个臂a在1
‑
δ的置信度下，期望收益的最大置信上界度下，期望收益的最大置信上界其中δ为人工设定的显著性水平；
[0017]S70：使用ε
‑
Greedy策略进行动作选择，即以ε的概率进行探索、(1
‑
ε)的概率进行利用：生成0
‑
1之间的随机小数r，当r≤ε时进行探索，上下文感知多臂老虎机模型随机选择一个渠道商作为推荐结果；当r＞ε时，选择上下文感知多臂老虎机模型中最大置信上界p
t，a
最大的臂对应的渠道商作为推荐结果。
[0018]S80：通过上下文感知多臂老虎机模型对话费订单计算后，对动作a
t
进行选择，获取所述话费订单在生产环境中来自用户的奖励反馈值r
t
，与上下文环境信息一并发送至上下文感知多臂老虎机模型中。
[0019]S90：更新上下文感知多臂老虎机模型中每个臂的参数A
a
和b
a
，按如下规则：
[0020]并根据公式计算每个臂a的最大置信上界更新时刻数t＝t+1，若上下文感知多臂老虎机模型对渠道商动作选择未完成，则返回步骤S10重新循环。
[0021]在上述技术方案的基础上，本专利技术的一种网络服务选择方法还可以做如下改进：
[0022]其中，所述订单数据包括订单号、充值金额、用户所在省份、用户号码所属运营商、订单创建时间、订单状态。
[0023]其中，所述预处理使用多层感知机算法对订单数据进行特征向量提取。
[0024]本专利技术的第二方面提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有程序指令，用于上述的一种基于强化学习的网络服务选择方法。
[0025]本专利技术的第三方面提供一种网络服务选择系统，其中，包含上述的计算机可读存储介质。
[0026]与现有技术相比较，本专利技术提供的一种基于强化学习的网络服务选择方法、介质及系统有益效果是：
[0027]1.本专利技术基于上下文多臂老虎机，将订单特征与上下文环境信息结合起来加以充分利用，有效避免了传统方案不与环境相匹配的问题，在最大化累计回报的同时保证了推荐渠道商的有效性与准确性。
[0028]2.上下文多臂老虎机采用LinUCB算法，该算法计算复杂度与臂的数量成线性关系，因此在实时计算方面具有优越性，显著地提高了效率；该算法还支持动态增删臂的集合，解决了现有技术中固定臂集合的不足。
[0029]3.使用历史数据进行上下文多臂老虎机参数的初始化，解决了冷启动问题，避免
了盲目探索导致的经济损失；配合具有在线学习功能的LinUCB算法，可以保存并异步增量更新参数。
附图说明
[0030]为了更清楚地说明本专利技术实施例的技术方案，下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0031]图1为一种网络服务选择方法的步骤流程图；
[0032]图2为一种网络服务选择系统的数据传输示意图。
具体实施方式
[0033]为使本专利技术实施方式的目的、技术方案和优点更加清楚，下面将结合本专利技术实施方式中的附图，对本专利技术实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本专利技术一部分实施方式，而不是全部的实施方式。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的网络服务选择方法，其特征在于，包括以下步骤：S10：获取待选择渠道商的当前订单数据；S20：对订单数据进行所述预处理，得到订单特征向量；S30：建立上下文感知多臂老虎机模型，根据上下文老虎机的参数是否为空值来判断是否存在冷启动问题，如果存在则转入步骤S40，否则转入步骤S70；S40：上下文感知多臂老虎机模型从大数据平台取得历史订单数据，并使用步骤S20中一致的方法进行预处理，得到订单的特征向量；S50：将上下文感知多臂老虎机模型的臂记为a∈A
t
，初始化每个臂a的参数：A
a
＝I
d
、b
a
＝0
d
×1、x
t，a
∈R
d
；其中，A
t
为臂的集合、I
d
为d维单位向量、0
d
×1为d
×
1维的零向量、R
d
为d维实向量；A
a
与b
a
为通过岭回归的方式估计期望收益与上下文环境信息的系数时，方便参数的更新而简记的两个乘积，即时，方便参数的更新而简记的两个乘积，即D
a
为用户总特征矩阵，c
a
为臂a前m次的收益；x
t，a
为每个臂的上下文向量，定义并初始化时刻变量t＝1；S60：使用历史订单数据离线地训练模型；逐步输入历史订单数据，模拟充值过程并更新上下文感知多臂老虎机模型每个臂的参数A
a
与b
a
，按照如下规则：对t时刻的各个臂α
t
∈A
t
，其中，为上下文环境信息，r

【专利技术属性】
技术研发人员：李振宇，田景瑞，周书田，洪锋，薛雁，王炳文，彭晓彬，
申请(专利权)人：青岛网信信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人