一种基于同态加密和强化学习的服务质量评估系统及方法技术方案

技术编号:39896253 阅读:11 留言:0更新日期:2023-12-30 13:09
本发明专利技术公开了一种基于同态加密和强化学习的服务质量评估系统及方法,包括系统初始化模型训练参数及公私钥对;采集服务评估对象的各项支撑数据和经验数据;运用同态加密算法加密采集的数据;从同态密文数据提取出状态数据并向量化;基于分层经验回放机制和环境模型交替训练优化策略网络和价值网络;结合奖励反馈生成密文服务质量评估及优化建议;使用同态加密算法私钥解密获得最终的服务质量评估及优化建议;本发明专利技术在同态加密技术和深度强化学习融合驱动下,保证了客户敏感数据安全和隐私的同时,通过策略网络和价值网络与环境模型的交互,设计保护隐私的自适应深度强化学习服务质量评估系统,实现了高效准确

【技术实现步骤摘要】
一种基于同态加密和强化学习的服务质量评估系统及方法


[0001]本专利技术涉及电子商务
,具体为一种基于同态加密和强化学习的服务质量评估系统及方法


技术介绍

[0002]随着市场竞争的加剧和用户对服务质量的要求不断提高,服务质量评估已经成为保证企业可持续发展的关键因素之一

服务质量评估可以帮助企业及时了解用户对服务质量的反馈和需求,进而改善服务质量,提升用户满意度和忠诚度

同时,服务质量评估还可以促进公平竞争,推动行业自律和规范化

因此,服务质量评估的真实性对于企业获得更好的市场竞争力和长期发展至关重要

另一方面,在当前信息技术日益普及和应用的背景下,个人隐私面临着越来越大的泄露风险

数据滥用和泄露不仅会侵犯个人隐私权利,还会影响消费者的信任感和企业形象

因此在进行服务质量评估时,如何确保用户数据的安全性和隐私性,增强用户信任感和满意度也是非常重要的

[0003]现有的服务质量评估,常常采用基于专家经验

统计学建模和大数据分析等方式,即基于从业者经验

历史数据趋势和大数据,通过选取部分服务质量评估支撑指标分配以权重填充到经验模型或者对大量的服务数据进行分析和挖掘建立服务质量的预测模型,对未来的服务质量进行评估,以帮助企业调整服务策略和优化资源配置

然而采用上述方法不仅会由于难以适应新的需求变化和不确定性因素导致评估误差,而且由于评估过程中未对用户的隐私进行相应的保护,存在用户隐私泄露的风险,为此我们提出一种基于同态加密和强化学习的服务质量评估系统及方法用于解决上述问题


技术实现思路

[0004]本专利技术的目的在于提供一种基于同态加密和强化学习的服务质量评估系统及方法,以解决上述
技术介绍
中提出的问题

[0005]为实现上述目的,本专利技术提供如下技术方案:预先训练预测环境中的状态转移和服务效益的基于环境的神经网络模型和深度强化学习模型,深度强化学习模型包括策略网络模型和价值网络模型,基于同态加密和强化学习的服务质量评估包括如下步骤:
[0006]步骤
S1、
设置策略网络模型和价值网络模型的参数,定义系统状态空间和动作空间,以及公私钥对;
[0007]步骤
S2、
采集服务质量评估的支撑数据和经验数据;
[0008]步骤
S3、
对步骤
S2
采集的数据进行加密,得到密文数据;
[0009]步骤
S4、
通过分层经验回放从不同客户等级的加密经验数据组中随机抽取一批数据;
[0010]步骤
S5、
密文数据中提取当前状态数据,并转化为当前状态向量;
[0011]步骤
S6、
以当前状态向量和当前选择的服务策略为信息,预测出新的状态向量和服务效益;
[0012]步骤
S7、
计算当前状态向量下策略网络的服务策略概率分布与实际服务策略的差异,然后通过策略梯度法使累积服务效益最大化,进而更新策略网络的参数,输出优化后的服务策略;
[0013]步骤
S8、
估算优化后的服务策略的服务效益,更新价值网络的参数;
[0014]步骤
S9、
执行优化后的服务策略,得到新的状态

服务效益,将当前状态

优化后的服务策略

服务效益

新的状态添加至经验数据中;
[0015]步骤
S10、
若策略网络模型和价值网络模型其中一个模型未达到预设的最大迭代次数或满足收敛条件,重复执行步骤
S4
到步骤
S9
,直到策略网络模型和价值网络模型都收敛;反之,则执行后续步骤

[0016]步骤
S11、
使用训练好的深度强化学习模型,对服务质量进行评估;
[0017]步骤
S12、
验证服务提供者向第三方权威机构提出私钥的申请,若申请通过,服务提供者通过数据解密模块对密文服务质量评估结果完成解密,得到最终的结果,并调整服务策略

[0018]优选的,步骤
S1
中的具体步骤如下:
[0019]步骤
S1001、
第三方权威机构生成若干个同态加密算法的公私钥对
{pk
he
,sk
he
}
,并公布公钥
pk
he

[0020]步骤
S1002、
第三方权威机构存储若若干公私钥对
{pk
he
,sk
he
}

[0021]步骤
S1003、
初始化策略网络模型和价值网络模型的学习率

折扣因子和最大迭代次数;
[0022]步骤
S1004、
定义系统的状态空间,状态空间包括客户的等级

客户的需求

服务人员的配置

服务的等级;
[0023]步骤
S1005、
定义系统的动作空间,动作空间包括服务人员提供特定服务

调整服务策略

[0024]优选的,步骤
S2
中的支撑数据和经验数据具体包括如下:
[0025]支撑数据:服务本身的多维度数据

服务提供者的相关数据和消费者的评价数据;
[0026]经验数据:当前状态
s
t

服务策略
a
t

服务效益和新的状态
s
t+1

[0027]优选的,步骤
S3
的具体步骤如下:
[0028]步骤
S3001、
支撑数据和经验数据构成相关数据集合;
[0029]步骤
S3002、
相关数据集合通过公私钥对中的公钥进行加密,得到密文数据

[0030]优选的,步骤
S4
的具体步骤如下:
[0031]步骤
S4001、
将加密后的经验数据根据客户等级分成若干数据组;
[0032]步骤
S4002、
从不同数据组中随机进行采样

[0033]优选的,步骤
S5
的具体步骤如下:
[0034]步骤
S5001、
将密文数据进行数据清洗

特征选择和特征缩放;
[0035]步骤
S5002、
提取当前本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于同态加密和强化学习的服务质量评估方法,其特征在于:预先训练预测环境中的状态转移和服务效益的基于环境的神经网络模型和深度强化学习模型,深度强化学习模型包括策略网络模型和价值网络模型,基于同态加密和强化学习的服务质量评估包括如下步骤:步骤
S1、
设置策略网络模型和价值网络模型的参数,定义系统状态空间和动作空间,以及公私钥对;步骤
S2、
采集服务质量评估的支撑数据和经验数据;步骤
S3、
对步骤
S2
采集的数据进行加密,得到密文数据;步骤
S4、
通过分层经验回放从不同客户等级的加密经验数据组中随机抽取一批数据;步骤
S5、
密文数据中提取当前状态数据,并转化为当前状态向量;步骤
S6、
以当前状态向量和当前选择的服务策略为信息,预测出新的状态向量和服务效益;步骤
S7、
计算当前状态向量下策略网络的服务策略概率分布与实际服务策略的差异,然后通过策略梯度法使累积服务效益最大化,进而更新策略网络的参数,输出优化后的服务策略;步骤
S8、
估算优化后的服务策略的服务效益,更新价值网络的参数;步骤
S9、
执行优化后的服务策略,得到新的状态

服务效益,将当前状态

优化后的服务策略

服务效益

新的状态添加至经验数据中;步骤
S10、
若策略网络模型和价值网络模型其中一个模型未达到预设的最大迭代次数或满足收敛条件,重复执行步骤
S4
到步骤
S9
,直到策略网络模型和价值网络模型都收敛;反之,则执行后续步骤

步骤
S11、
使用训练好的深度强化学习模型,对服务质量进行评估;步骤
S12、
验证服务提供者向第三方权威机构提出私钥的申请,若申请通过,服务提供者通过数据解密模块对密文服务质量评估结果完成解密,得到最终的结果,并调整服务策略
。2.
根据权利要求1所述的一种基于同态加密和强化学习的服务质量评估方法,其特征在于:步骤
S1
中的具体步骤如下:步骤
S1001、
第三方权威机构生成若干个同态加密算法的公私钥对,并公布公钥;步骤
S1002、
第三方权威机构存储若若干公私钥对;步骤
S1003、
初始化策略网络模型和价值网络模型的学习率

折扣因子和最大迭代次数;步骤
S1004、
定义系统的状态空间,状态空间包括客户的等级

客户的需求

服务人员的配置

服务的等级;步骤
S1005、
定义系统的动作空间,动作空间包括服务人员提供特定服务

调整服务策略
。3.
根据权利要求1所述的一种基于同态加密和强化学习的服务质量评估方法,其特征在于:步骤
S2
中的支撑数据和经验数据具体包括如下:支撑数据:服务本身的多维度数据

服务提供者的相关数据和消费者的评价数据;经验数据:当前状态

服务策略

服务效益和新的状态...

【专利技术属性】
技术研发人员:张峰石建戴鹏董建阔韩朝阳刘运杰
申请(专利权)人:杭州后量子密码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1