【技术实现步骤摘要】
一种基于贝叶斯的开放性答案决策方法
本专利技术涉及一种基于贝叶斯的开放性答案决策方法,属于计算机程序
技术介绍
现实生活中往往存在一些计算机难以处理或者处理效果不佳的问题,如给图像打标签、衡量两个记录是不是同一个实体、评价一个商品等。这类机器难以处理的问题可以借助于众包来完成。众包直接将任务发布到互联网上,通过集合互联网上的未知大众来解决传统计算机单独难以处理的问题。由于工人来自不同的地域,年龄和文化背景不尽相同,回答问题的质量难以保证。众包平台的任务发布者希望通过冗余的方式得到一个更可信的答案,因此会将任务发布给多个工人进行回答,根据多个工人的答案推测出最终的结果。众包的一个重要技术挑战是在众包工人可能给出错误答案的情况下,如何进行高质量的答案决策。此外,众包平台上的任务类型是多种多样的,有填空题、选择题(分单选题和多选题)、选择和填空的混合等类型,目前众包技术中的答案决策算法主要是基于单选题类型提出的,不能兼容多种任务类型,尤其无法处理包含填空等开放性答案的任务类型。近年来,国内外学者对答案的决策算法进行了大量的研究。FengA.等人于2011年提出了MV方法,它考虑每个候选答案的工人个数,主要思想是少数服从多数,但是众包中不同工人的经验水平是不同的,MV方法没有考虑工人质量,因此它决策出来的答案不可靠。XuanLiu等人于2012年提出基于贝叶斯的决策模型,它将工人的准确性考虑到答案决策过程中,根据工人回答问题的准确性以及答案,计算每个候选答案的后验概率分布,后验概率最大的答案作为决策答案,该方法对工人质量采用的是固定策略,实质上工人的质量 ...
【技术保护点】
1.一种基于贝叶斯的开放性答案决策方法,其特征在于含有以下步骤:利用工人以往表现,建立工人质量模型;先验概率预处理步骤:通过对填空内容的预处理,当填空内容的加入使得候选答案个数增加后,需要对所有候选答案的先验概率重新计算,保障答案决策更加准确;贝叶斯决策步骤:对多选题的答案决策算法进行优化,给出时间复杂度较低的近似算法;收到工人的答案及质量后,先对问题候选答案及先验概率进行预处理,得到处理结果后根据工人对问题的回答情况,建立贝叶斯概率模型,得出问题候选答案的后验概率分布;更新工人质量模型步骤:工人质量模型随工人回答问题数量的变化而动态更新,建立更新工人质量模型,保障工人的质量在答案决策过程中是可信的。
【技术特征摘要】
1.一种基于贝叶斯的开放性答案决策方法,其特征在于含有以下步骤:利用工人以往表现,建立工人质量模型;先验概率预处理步骤:通过对填空内容的预处理,当填空内容的加入使得候选答案个数增加后,需要对所有候选答案的先验概率重新计算,保障答案决策更加准确;贝叶斯决策步骤:对多选题的答案决策算法进行优化,给出时间复杂度较低的近似算法;收到工人的答案及质量后,先对问题候选答案及先验概率进行预处理,得到处理结果后根据工人对问题的回答情况,建立贝叶斯概率模型,得出问题候选答案的后验概率分布;更新工人质量模型步骤:工人质量模型随工人回答问题数量的变化而动态更新,建立更新工人质量模型,保障工人的质量在答案决策过程中是可信的。2.一种基于贝叶斯的开放性答案决策方法,其特征在于含有以下步骤:步骤(1)、建立工人质量模型:获取工人准确性:输入工人答案以及工人质量模型,获取工人回答问题的准确性;步骤(2)、扩展候选答案:根据接收的工人答案情况,对候选答案进行扩展;步骤(3)、先验概率预处理:根据扩展的结果以及任务类型即填空/单选/多选/混合,计算答案的先验概率;步骤(4)、贝叶斯答案决策:将工人答案、先验概率及工人准确性作为贝叶斯决策算法的输入,计算所有候选答案的后验概率分布;步骤(5)、更新工人质量模型:对比工人提供的答案及决策得到的答案,更新工人质量模型;步骤(6)、返回步骤1替代工人质量模型。3.根据权利要求2所述的一种基于贝叶斯的开放性答案决策方法,其特征在于步骤(2)的扩展候选答案,含有以下步骤:对候选答案进行扩展步骤:对于包含开放性答案的任务,首先根据填空内容的相似情况对候选答案进行扩展,增加候选答案的个数,保证决策算法可以综合处理多种任务类型;定义1:s1、s2分别为两个工人填写的任务内容,s1与s2的相似度,记为γs1,s2,可以通过公式(1)计算得到;其中,s1、s2为工人填写的内容,m为s1与s2中匹配的字符数,t是经换位后匹配的字符的数目,L是前缀部分完全匹配的长度,P是用来调整前缀匹配的权值;考虑到相似度较大的一组答案很可能为相同的答案,因此把答案间的相互影响考虑到答案决策过程中,通过Jaro–Winklerdistance的方法,利用递归的思想计算工人填写的答案是否相同,若两个答案的相似度值为1,则扩展为一个候选答案,同时记录选择各个扩展项的工人个数,否则,扩展出多个选项,并记录各个选项间的相似度的值;多选题步骤:从整体的角度进行答案聚合,多选题存在以下两种情形,(1)决策为单选:工人认为多个候选答案中的任何一个都有可能是真实答案,也可以选择填写候选答案中没有的答案,最终只能决策出一个答案;(2)决策为多选:工人从候选答案中选择多个答案作为问题的答案,也可以选择填写候选答案中没有的答案,最终决策出多个答案。4.根据权利要求2所述的一种基于贝叶斯的开放性答案决策方法,其特征在于步骤(3)的先验概率预处理,含有以下步骤:决策为单选步骤:这种情况包括单选题以及工人选择多个选项但决策为单选这两种任务类型;其先验概率的计算是按已有的候选答案集的个数与扩展出的候选答案集的个数的比例分配先验概率值,已有的候选答案集topN中的答案按机器给出的先验知识进行分配,扩展出的候选答案集ExN中的答案根据选择每个答案的工人个数进行分配;定义2:已知工人的质量以及选择的答案情况,可得到问题i的所有答案的先验概率分布,记为{P(Ti=r),r∈Ni};其中,Top(r)为机器算法给出的候选答案r的先验知识,mr为选择扩展选项r的工人数,h为机器算法给出的候选答案个数,m为扩展的候选答案个数,Ansfill(Qi)表示为问题i中回答为填空内容的工人集合,topN为机器算法给出的候选答案集合,ExN为扩展答案集合;决策为多选步骤:答案发生的概率与工人是否选择了答案以及回答问题的工人质量有着密切关系,一般情况下,选择一个答案的工人个数越多且工人质量越高,这个答案是真实答案的可能性便越大;因此,根据工人是否选择了这个答案进行分组,得到两个集合,其中Ai表示为所有工人回答问题i的答案集合,表示为未被工人选择的候选答案的集合;工人平均质量的不同,对集合中答案的先验概率有着不同的影响;当工人的平均质量大于等于0.5时,认为工人对Ai集合的先验概率有提升的作用,工人选择的答案的先验概率应高于未被选择的答案,在选择的答案集合中,根据选择每个答案的工人个数的比例进行答案先验概率的计算,认为选择一个答案的工人个数越多,其先验概率越大;当工人的平均质量小于0.5时,工人选择的答案的先验概率应低于未选择的答案的部分;假设ρ表示为集合Ai中所有答案的先验概率之和,则(1-ρ)为中所有答案的先验概率之和;由于只知道机器算法给出的几个候选答案的先验知识,而组合答案的先验概率知识未知,因此,需要对2n-1个组合答案先验概率重新计算;先验概率计算如公式(3)所示,其中a、b是两个1*|Ni|的向量,Ni表示为问题i的所有组合答案的集合,Ai表示为所有工人回答问题i的答案集合,表示为未被工人选择的候选答案的集合,ρ*a表示为集合Ai中的答案的先验概率分布情况,(1-ρ)*b表示为集合中的答案的先验概率分布情况;{P(Ti=r),r∈Ni}=ρ*a+(1-ρ)*b(3)通过选择集合Ai中每个答案的工人个数与回答问题工人总数的比值对ρ进行分配,因此向量a表示为选择集合Ai中每个答案的工人个数与回答问题工人总数的比值情况;当候选答案不属于集合Ai中的元素时,其对应值为0;a中元素的计算如公式(4)所示,其中ej表示选择对应答案的工人个数,Ans(Qi)表示回答问题i的工人集合,有其中ej表示选择对应答案的工人个数,Ans(Qi)表示回答问题i的工人集合,Ni表示为问题i的所有组合答案的集合,Ai表示为所有工人回答问题i的答案集合,表示为未被工人选择的候选答案的集合;同理,向量b表示为集合中的答案在(1-ρ)上的分配情况,因此当候选答...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。