一种调查问卷分配方法及相关装置制造方法及图纸

技术编号：39250268 阅读：10 留言：0更新日期：2023-10-30 12:02

本发明专利技术公开了一种调查问卷分配方法及相关装置，本发明专利技术通过多智能体强化学习算法，可以通过序列的决策来进行问卷分配，可以将调查问卷分配给当前最合适的用户，并且考虑平台的长期收益。本发明专利技术通过随机加入已知答案的问题，获取更精准的用户完成质量评分。本发明专利技术面向用户特征推送定制调查问卷，提高问卷有效性，确保调查问卷适合用户。本发明专利技术利用多智能体强化学习算法，找到纳什均衡，可以防止被“恶意”用户迷惑导致做出错误的决策，从而减少平台总体成本。台总体成本。台总体成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种调查问卷分配方法及相关装置

[0001]本专利技术涉及一种调查问卷分配方法及相关装置，属于网络

技术介绍

[0002]在大多数的问卷系统中，调查问卷会随机的发送给用户，然后由用户完成，并给用户适当的分配一些奖励(如积分、奖品、红包等)，这种分配方式无法将调查问卷分配给最合适的用户，调查有效性较差。

技术实现思路

[0003]本专利技术提供了一种调查问卷分配方法及相关装置，解决了
技术介绍
中披露的问题。
[0004]为了解决上述技术问题，本专利技术所采用的技术方案是：
[0005]一种调查问卷分配方法，包括：
[0006]根据当前调查问卷和当前用户，生成当前调查问卷的特征向量和当前用户的特征向量；
[0007]根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数，获取调查问卷分配结果；其中，平台马尔科夫决策模型为以平台为智能体构建的马尔科夫决策模型，平台为分配当前调查问卷的平台，平台马尔科夫决策模型的状态包括调查问卷特征向量和用户特征向量，平台马尔科夫决策模型的动作包括是否分配调查问卷和奖励的数值，奖励的数值为用户完成调查问卷后平台给予用户奖励的数值，平台马尔科夫决策模型的反馈包括用户完成调查问卷的评分和对平台决策过程的反馈。
[0008]训练的平台马尔科夫决策模型的策略函数，包括：
[0009]以平台为智能体构建平台马尔科夫决策模型，以用户为智能体构建用户马尔科夫决策模型；其中，用户马尔科夫决策模型的状态包...

【技术保护点】

【技术特征摘要】
1.一种调查问卷分配方法，其特征在于，包括：根据当前调查问卷和当前用户，生成当前调查问卷的特征向量和当前用户的特征向量；根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数，获取调查问卷分配结果；其中，平台马尔科夫决策模型为以平台为智能体构建的马尔科夫决策模型，平台为分配当前调查问卷的平台，平台马尔科夫决策模型的状态包括调查问卷特征向量和用户特征向量，平台马尔科夫决策模型的动作包括是否分配调查问卷和奖励的数值，奖励的数值为用户完成调查问卷后平台给予用户奖励的数值，平台马尔科夫决策模型的反馈包括用户完成调查问卷的评分和对平台决策过程的反馈。2.根据权利要求1所述的调查问卷分配方法，其特征在于，训练的平台马尔科夫决策模型的策略函数，包括：以平台为智能体构建平台马尔科夫决策模型，以用户为智能体构建用户马尔科夫决策模型；其中，用户马尔科夫决策模型的状态包括调查问卷特征向量，用户马尔科夫决策模型的动作包括是否完成问卷和投入的精力，用户马尔科夫决策模型的奖赏包括得到的奖赏/投入的精力；采用探索与利用累积训练样本；其中，训练样本为(o
p
、a
p
、r
p
、o
′
p
、o
u
、a
u
、r
u
、o
u
′
)，o
p
、a
p
、r
p
分别为平台马尔科夫决策模型的状态、动作和奖赏，o
′
p
为经过动作a
p
后的下一状态，o
u
、a
u
、r
u
分别为用户马尔科夫决策模型的状态、动作和奖赏，o
u
′
为经过动作a
u
后的下一状态；随机抽样一个批次训练样本进行平台马尔科夫决策模型的策略函数训练。3.根据权利要求2所述的调查问卷分配方法，其特征在于，训练样本中，状态对应的调查问卷为加入若干已知答案问题的调查问卷。4.根据权利要求1所述的调查问卷分配方法，其特征在于，当前调查问卷为加入若干已知答案问题的调查问卷、或没有加入若干已知答案问题的调查问卷。5.一种调查问卷分配装置，其特征在于，包括：向量生成模块，用以根据当前调查问卷和当前用户，生成当前调查问卷的特征向量和当前用户的特征向量；问卷分配模块，用以根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数，获取调...

【专利技术属性】
技术研发人员：张伯雷，邹程萱，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人