一种调查问卷分配方法及相关装置制造方法及图纸

技术编号:39250268 阅读:10 留言:0更新日期:2023-10-30 12:02
本发明专利技术公开了一种调查问卷分配方法及相关装置,本发明专利技术通过多智能体强化学习算法,可以通过序列的决策来进行问卷分配,可以将调查问卷分配给当前最合适的用户,并且考虑平台的长期收益。本发明专利技术通过随机加入已知答案的问题,获取更精准的用户完成质量评分。本发明专利技术面向用户特征推送定制调查问卷,提高问卷有效性,确保调查问卷适合用户。本发明专利技术利用多智能体强化学习算法,找到纳什均衡,可以防止被“恶意”用户迷惑导致做出错误的决策,从而减少平台总体成本。台总体成本。台总体成本。

【技术实现步骤摘要】
一种调查问卷分配方法及相关装置


[0001]本专利技术涉及一种调查问卷分配方法及相关装置,属于网络


技术介绍

[0002]在大多数的问卷系统中,调查问卷会随机的发送给用户,然后由用户完成,并给用户适当的分配一些奖励(如积分、奖品、红包等),这种分配方式无法将调查问卷分配给最合适的用户,调查有效性较差。

技术实现思路

[0003]本专利技术提供了一种调查问卷分配方法及相关装置,解决了
技术介绍
中披露的问题。
[0004]为了解决上述技术问题,本专利技术所采用的技术方案是:
[0005]一种调查问卷分配方法,包括:
[0006]根据当前调查问卷和当前用户,生成当前调查问卷的特征向量和当前用户的特征向量;
[0007]根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数,获取调查问卷分配结果;其中,平台马尔科夫决策模型为以平台为智能体构建的马尔科夫决策模型,平台为分配当前调查问卷的平台,平台马尔科夫决策模型的状态包括调查问卷特征向量和用户特征向量,平台马尔科夫决策模型的动作包括是否分配调查问卷和奖励的数值,奖励的数值为用户完成调查问卷后平台给予用户奖励的数值,平台马尔科夫决策模型的反馈包括用户完成调查问卷的评分和对平台决策过程的反馈。
[0008]训练的平台马尔科夫决策模型的策略函数,包括:
[0009]以平台为智能体构建平台马尔科夫决策模型,以用户为智能体构建用户马尔科夫决策模型;其中,用户马尔科夫决策模型的状态包括调查问卷特征向量,用户马尔科夫决策模型的动作包括是否完成问卷和投入的精力,用户马尔科夫决策模型的奖赏包括得到的奖赏/投入的精力;
[0010]采用探索与利用累积训练样本;其中,训练样本为(o
p
、a
p
、r
p
、o

p
、o
u
、a
u
、r
u
、o
u

),o
p
、a
p
、r
p
分别为平台马尔科夫决策模型的状态、动作和奖赏,o

p
为经过动作a
p
后的下一状态,o
u
、a
u
、r
u
分别为用户马尔科夫决策模型的状态、动作和奖赏,o
u

为经过动作a
u
后的下一状态;
[0011]随机抽样一个批次训练样本进行平台马尔科夫决策模型的策略函数训练。
[0012]训练样本中,状态对应的调查问卷为加入若干已知答案问题的调查问卷。
[0013]当前调查问卷为加入若干已知答案问题的调查问卷、或没有加入若干已知答案问题的调查问卷。
[0014]一种调查问卷分配装置,包括:
[0015]向量生成模块,用以根据当前调查问卷和当前用户,生成当前调查问卷的特征向
量和当前用户的特征向量;
[0016]问卷分配模块,用以根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数,获取调查问卷分配结果;其中,平台马尔科夫决策模型为以平台为智能体构建的马尔科夫决策模型,平台为分配当前调查问卷的平台,平台马尔科夫决策模型的状态包括调查问卷特征向量和用户特征向量,平台马尔科夫决策模型的动作包括是否分配调查问卷和奖励的数值,奖励的数值为用户完成调查问卷后平台给予用户奖励的数值,平台马尔科夫决策模型的反馈包括用户完成调查问卷的评分和对平台决策过程的反馈。
[0017]还包括训练模块,配置为:
[0018]以平台为智能体构建平台马尔科夫决策模型,以用户为智能体构建用户马尔科夫决策模型;其中,用户马尔科夫决策模型的状态包括调查问卷特征向量,用户马尔科夫决策模型的动作包括是否完成问卷和投入的精力,用户马尔科夫决策模型的奖赏包括得到的奖赏/投入的精力;
[0019]采用探索与利用累积训练样本;其中,训练样本为(o
p
、a
p
、r
p
、o

p
、o
u
、a
u
、r
u
、o
u

),o
p
、a
p
、r
p
分别为平台马尔科夫决策模型的状态、动作和奖赏,o

p
为经过动作a
p
后的下一状态,o
u
、a
u
、r
u
分别为用户马尔科夫决策模型的状态、动作和奖赏,o
u

为经过动作a
u
后的下一状态;
[0020]随机抽样一个批次训练样本进行平台马尔科夫决策模型的策略函数训练。
[0021]训练模块的训练样本中,状态对应的调查问卷为加入若干已知答案问题的调查问卷。
[0022]向量生成模块的当前调查问卷为加入若干已知答案问题的调查问卷、或没有加入若干已知答案问题的调查问卷。
[0023]一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行调查问卷分配方法。
[0024]一种计算机设备,包括一个或多个处理器、以及一个或多个存储器,一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行调查问卷分配方法的指令。
[0025]本专利技术所达到的有益效果:本专利技术通过马尔科夫决策模型实现了序列的分配策略,可以将调查问卷分配给当前最合适的用户,增强了调查有效性。
附图说明
[0026]图1为调查问卷分配方法的流程图;
[0027]图2为多智能体强化学习环境;
[0028]图3为累积训练样本的流程图;
[0029]图4为多智能体强化学习算法进行平台策略函数优化的流程图。
具体实施方式
[0030]下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术
的技术方案,而不能以此来限制本专利技术的保护范围。
[0031]如图1所示,一种调查问卷分配方法,包括以下步骤:
[0032]步骤1,根据当前调查问卷和当前用户,生成当前调查问卷的特征向量和当前用户的特征向量。
[0033]步骤2,根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数,获取调查问卷分配结果;其中,平台马尔科夫决策模型为以平台为智能体构建的马尔科夫决策模型,平台为分配当前调查问卷的平台,平台马尔科夫决策模型的状态包括调查问卷特征向量和用户特征向量,平台马尔科夫决策模型的动作包括是否分配调查问卷和奖励的数值,奖励本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种调查问卷分配方法,其特征在于,包括:根据当前调查问卷和当前用户,生成当前调查问卷的特征向量和当前用户的特征向量;根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数,获取调查问卷分配结果;其中,平台马尔科夫决策模型为以平台为智能体构建的马尔科夫决策模型,平台为分配当前调查问卷的平台,平台马尔科夫决策模型的状态包括调查问卷特征向量和用户特征向量,平台马尔科夫决策模型的动作包括是否分配调查问卷和奖励的数值,奖励的数值为用户完成调查问卷后平台给予用户奖励的数值,平台马尔科夫决策模型的反馈包括用户完成调查问卷的评分和对平台决策过程的反馈。2.根据权利要求1所述的调查问卷分配方法,其特征在于,训练的平台马尔科夫决策模型的策略函数,包括:以平台为智能体构建平台马尔科夫决策模型,以用户为智能体构建用户马尔科夫决策模型;其中,用户马尔科夫决策模型的状态包括调查问卷特征向量,用户马尔科夫决策模型的动作包括是否完成问卷和投入的精力,用户马尔科夫决策模型的奖赏包括得到的奖赏/投入的精力;采用探索与利用累积训练样本;其中,训练样本为(o
p
、a
p
、r
p
、o

p
、o
u
、a
u
、r
u
、o
u

),o
p
、a
p
、r
p
分别为平台马尔科夫决策模型的状态、动作和奖赏,o

p
为经过动作a
p
后的下一状态,o
u
、a
u
、r
u
分别为用户马尔科夫决策模型的状态、动作和奖赏,o
u

为经过动作a
u
后的下一状态;随机抽样一个批次训练样本进行平台马尔科夫决策模型的策略函数训练。3.根据权利要求2所述的调查问卷分配方法,其特征在于,训练样本中,状态对应的调查问卷为加入若干已知答案问题的调查问卷。4.根据权利要求1所述的调查问卷分配方法,其特征在于,当前调查问卷为加入若干已知答案问题的调查问卷、或没有加入若干已知答案问题的调查问卷。5.一种调查问卷分配装置,其特征在于,包括:向量生成模块,用以根据当前调查问卷和当前用户,生成当前调查问卷的特征向量和当前用户的特征向量;问卷分配模块,用以根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数,获取调...

【专利技术属性】
技术研发人员:张伯雷邹程萱
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1