构建满意度预估模型的方法、计算机设备及介质技术

技术编号:37257817 阅读:17 留言:0更新日期:2023-04-20 23:33
本发明专利技术涉及构建满意度预估模型的方法、实施该方法的计算机设备及计算机存储介质。按照本发明专利技术的一个方面的构建满意度预估模型的方法包括下列步骤:获取历史订单的特征信息和历史订单的满意度标签作为训练数据并使用所述训练数据对神经网络模型进行训练以确定满意度预估智能体;利用所述满意度预估智能体对当前订单的满意度进行预估以生成当前订单的预估满意度;基于所述当前订单的预估满意度与当前订单的满意度标签之间的相似度确定第一奖励信号;以及以使得所述第一奖励信号最大化为第一训练目标对所述满意度预估智能体进行强化学习的训练以构建满意度预估模型。化学习的训练以构建满意度预估模型。化学习的训练以构建满意度预估模型。

【技术实现步骤摘要】
构建满意度预估模型的方法、计算机设备及介质


[0001]本专利技术涉及人工智能
,并且更具体地涉及构建满意度预估模型的方法、实施该方法的计算机设备及计算机存储介质。

技术介绍

[0002]用户服务平台为了对平台内用户提供更优质的服务,通常需要对平台内的用户订单进行满意度预估。
[0003]目前,满意度预估方法主要基于传统机器学习模型或深度学习模型来实现,即根据用户历史订单的离线数据集进行监督学习并基于当前订单特征一次性预测满意度。然而,该满意度预估方法忽略了由于用户使用服务平台的体验过程和场景的不断变化而引起的满意度变化,导致预估的满意度的准确率较低。
[0004]鉴于此,期望提出一种改进的满意度预估方案。

技术实现思路

[0005]为了解决或至少缓解以上问题中的一个或多个,提供了以下技术方案。
[0006]按照本专利技术的第一方面,提供一种构建满意度预估模型的方法,所述方法包括下列步骤:获取历史订单的特征信息和历史订单的满意度标签作为训练数据并使用所述训练数据对神经网络模型进行训练以确定满意度预估智能体;利用所述满意度预估智能体对当前订单的满意度进行预估以生成当前订单的预估满意度;基于所述当前订单的预估满意度与当前订单的满意度标签之间的相似度确定第一奖励信号;以及以使得所述第一奖励信号最大化为第一训练目标对所述满意度预估智能体进行强化学习的训练以构建满意度预估模型。
[0007]根据本专利技术一实施例所述的构建满意度预估模型的方法,其中确定所述第一奖励信号进一步包括:确定所述当前订单的预估满意度与所述当前订单的满意度标签之间的差值绝对值;以及将所述差值绝对值的倒数确定为所述第一奖励信号。
[0008]根据本专利技术一实施例或以上任一实施例的所述的构建满意度预估模型的方法,其中所述特征信息包括下列中的一项或多项:用户信息、资源信息和场景信息。
[0009]根据本专利技术一实施例或以上任一实施例的所述的构建满意度预估模型的方法,其中通过下列方式获得所述满意度标签:基于先验专家知识以量化形式标注订单中用户反馈的表征满意度的信息。
[0010]根据本专利技术一实施例或以上任一实施例的所述的构建满意度预估模型的方法,其中使用所述训练数据对神经网络模型进行训练以确定满意度预估智能体包括:使用所述训练数据对第一神经网络模型进行训练以得到策略函数,其中所述策略函数用于建立订单的特征信息与基于订单的特征信息预估订单的满意度的动作之间的映射关系;以及基于所述策略函数来确定满意度预估智能体。
[0011]根据本专利技术一实施例或以上任一实施例的所述的构建满意度预估模型的方法,其
中使用所述训练数据对神经网络模型进行训练以确定满意度预估智能体包括:使用所述训练数据对第二神经网络模型进行训练以得到价值函数,其中所述价值函数用于确定在多次执行基于订单的特征信息预估订单的满意度的动作后累计获得的奖励值;以及基于所述价值函数来确定满意度预估智能体。
[0012]根据本专利技术一实施例或以上任一实施例的所述的构建满意度预估模型的方法,其中所述方法还包括:响应于所述当前订单的预估满意度低于阈值满意度而生成用于提升满意度的调整策略;响应于执行所述调整策略而将所述第一奖励信号更新为第二奖励信号;以及以使得所述第二奖励信号最大化为第二训练目标对所述满意度预估智能体进行强化学习的训练以完善满意度预估模型。
[0013]根据本专利技术一实施例或以上任一实施例的所述的构建满意度预估模型的方法,其中订单包括用于车辆补能的订单。
[0014]按照本专利技术的第二方面,提供一种构建满意度预估模型的计算机设备,所述系统包括:存储器;处理器;以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述计算机程序的运行使得执行根据本专利技术第一方面所述的构建满意度预估模型的方法的步骤。
[0015]根据本专利技术的第三方面,提供一种计算机存储介质,所述计算机存储介质包括指令,所述指令在运行时执行根据本专利技术第一方面所述的构建满意度预估模型的方法的步骤。
[0016]根据本专利技术的一个或多个实施例的构建满意度预估模型的方案能够利用强化学习来实现满意度预估模型的自主学习过程,基于用户实时反馈与预估满意度的动态变化来快速、实时优化满意度预估模型,从而提高模型预估准确性。
附图说明
[0017]本专利技术的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解,附图中相同或相似的单元采用相同的标号表示。在所述附图中:图1为按照本专利技术的一个或多个实施例的强化学习的模型示意图。
[0018]图2为按照本专利技术的一个或多个实施例的构建满意度预估模型的方法的流程图。
[0019]图3为按照本专利技术的一个或多个实施例的构建满意度预估模型的计算机设备的示意框图。
具体实施方式
[0020]以下具体实施方式的描述本质上仅仅是示例性的,并且不旨在限制所公开的技术或所公开的技术的应用和用途。此外,不意图受在前述

技术介绍
或以下具体实施方式中呈现的任何明示或暗示的理论的约束。
[0021]在实施例的以下详细描述中,阐述了许多具体细节以便提供对所公开技术的更透彻理解。然而,对于本领域普通技术人员显而易见的是,可以在没有这些具体细节的情况下实践所公开的技术。在其他实例中,没有详细描述公知的特征,以避免不必要地使描述复杂化。
[0022]诸如“包含”和“包括”之类的用语表示除了具有在说明书中有直接和明确表述的
单元和步骤以外,本专利技术的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。
[0023]强化学习(Reinforcement Learning,RL)是机器学习的范式和方法论之一,用于描述和解决智能体(Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是一种不需要先验知识、数据的无监督学习方法,其通过接收环境对动作的奖励获得学习信息并更新模型参数。
[0024]在下文中,将参考附图详细地描述根据本专利技术的各示例性实施例。
[0025]图1为按照本专利技术的一个或多个实施例的强化学习的模型示意图。
[0026]在图1所示的强化学习的模型中,智能体120处于环境110中,能够对环境110的状态进行感知并且能够通过动作来影响环境110。智能体120与环境110之间的具体交互过程如下:智能体120对环境110的当前状态S
t
进行感知,按策略执行动作作用于环境110,环境110接受该动作后状态发生变化(例如,从S
t
变化为S
t+1
),同时产生一个表示奖励或惩罚的回报R
t+1
反馈给智能体120,随后智能体120根据回报R
t+1
和环境状态S
t+1
再选择下一个动作,选择的原则是使受本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建满意度预估模型的方法,其特征在于,所述方法包括下列步骤:获取历史订单的特征信息和历史订单的满意度标签作为训练数据,使用所述训练数据对神经网络模型进行训练以确定满意度预估智能体;利用所述满意度预估智能体对当前订单的满意度进行预估以生成当前订单的预估满意度;基于所述当前订单的预估满意度与当前订单的满意度标签之间的相似度确定第一奖励信号;以及以使得所述第一奖励信号最大化为第一训练目标对所述满意度预估智能体进行强化学习的训练以构建满意度预估模型。2. 根据权利要求1所述的方法,其中确定所述第一奖励信号进一步包括:确定所述当前订单的预估满意度与所述当前订单的满意度标签之间的差值绝对值;以及将所述差值绝对值的倒数确定为所述第一奖励信号。3.根据权利要求1所述的方法,其中所述特征信息包括下列中的一项或多项:用户信息、资源信息和场景信息。4.根据权利要求1所述的方法,其中通过下列方式获得所述满意度标签:基于先验专家知识以量化形式标注订单中用户反馈的表征满意度的信息。5. 根据权利要求1所述的方法,其中使用所述训练数据对神经网络模型进行训练以确定满意度预估智能体包括:使用所述训练数据对第一神经网络模型进行训练以得到策略函数,其中所述策略函数用于建立订单的特征信息与基于订单的特征信息预估订...

【专利技术属性】
技术研发人员:黄俊超后士浩潘鹏举
申请(专利权)人:蔚来汽车科技安徽有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1