【技术实现步骤摘要】
一种调查问卷分配方法及相关装置
[0001]本专利技术涉及一种调查问卷分配方法及相关装置,属于网络
技术介绍
[0002]在大多数的问卷系统中,调查问卷会随机的发送给用户,然后由用户完成,并给用户适当的分配一些奖励(如积分、奖品、红包等),这种分配方式无法将调查问卷分配给最合适的用户,调查有效性较差。
技术实现思路
[0003]本专利技术提供了一种调查问卷分配方法及相关装置,解决了
技术介绍
中披露的问题。
[0004]为了解决上述技术问题,本专利技术所采用的技术方案是:
[0005]一种调查问卷分配方法,包括:
[0006]根据当前调查问卷和当前用户,生成当前调查问卷的特征向量和当前用户的特征向量;
[0007]根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数,获取调查问卷分配结果;其中,平台马尔科夫决策模型为以平台为智能体构建的马尔科夫决策模型,平台为分配当前调查问卷的平台,平台马尔科夫决策模型的状态包括调查问卷特征向量和用户特征向量,平台马尔科夫决策模型的动作包括是否分配调查问卷和奖励的数值,奖励的数值为用户完成调查问卷后平台给予用户奖励的数值,平台马尔科夫决策模型的反馈包括用户完成调查问卷的评分和对平台决策过程的反馈。
[0008]训练的平台马尔科夫决策模型的策略函数,包括:
[0009]以平台为智能体构建平台马尔科夫决策模型,以用户为智能体构建用户马尔科夫决策模型;其中,用户马尔科夫决策模型的状态包 ...
【技术保护点】
【技术特征摘要】
1.一种调查问卷分配方法,其特征在于,包括:根据当前调查问卷和当前用户,生成当前调查问卷的特征向量和当前用户的特征向量;根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数,获取调查问卷分配结果;其中,平台马尔科夫决策模型为以平台为智能体构建的马尔科夫决策模型,平台为分配当前调查问卷的平台,平台马尔科夫决策模型的状态包括调查问卷特征向量和用户特征向量,平台马尔科夫决策模型的动作包括是否分配调查问卷和奖励的数值,奖励的数值为用户完成调查问卷后平台给予用户奖励的数值,平台马尔科夫决策模型的反馈包括用户完成调查问卷的评分和对平台决策过程的反馈。2.根据权利要求1所述的调查问卷分配方法,其特征在于,训练的平台马尔科夫决策模型的策略函数,包括:以平台为智能体构建平台马尔科夫决策模型,以用户为智能体构建用户马尔科夫决策模型;其中,用户马尔科夫决策模型的状态包括调查问卷特征向量,用户马尔科夫决策模型的动作包括是否完成问卷和投入的精力,用户马尔科夫决策模型的奖赏包括得到的奖赏/投入的精力;采用探索与利用累积训练样本;其中,训练样本为(o
p
、a
p
、r
p
、o
′
p
、o
u
、a
u
、r
u
、o
u
′
),o
p
、a
p
、r
p
分别为平台马尔科夫决策模型的状态、动作和奖赏,o
′
p
为经过动作a
p
后的下一状态,o
u
、a
u
、r
u
分别为用户马尔科夫决策模型的状态、动作和奖赏,o
u
′
为经过动作a
u
后的下一状态;随机抽样一个批次训练样本进行平台马尔科夫决策模型的策略函数训练。3.根据权利要求2所述的调查问卷分配方法,其特征在于,训练样本中,状态对应的调查问卷为加入若干已知答案问题的调查问卷。4.根据权利要求1所述的调查问卷分配方法,其特征在于,当前调查问卷为加入若干已知答案问题的调查问卷、或没有加入若干已知答案问题的调查问卷。5.一种调查问卷分配装置,其特征在于,包括:向量生成模块,用以根据当前调查问卷和当前用户,生成当前调查问卷的特征向量和当前用户的特征向量;问卷分配模块,用以根据当前调查问卷的特征向量、当前用户的特征向量和预先训练的平台马尔科夫决策模型的策略函数,获取调...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。