一种基于贝叶斯的开放性答案决策方法技术

技术编号:19060372 阅读:31 留言:0更新日期:2018-09-29 12:52
一种基于贝叶斯的开放性答案决策方法,属于计算机程序技术领域。利用工人以往表现,建立工人质量模型;先验概率预处理步骤:通过对填空内容的预处理,当填空内容的加入使得候选答案个数增加后,需要对所有候选答案的先验概率重新计算,保障答案决策更加准确;贝叶斯决策步骤;对多选题的答案决策算法进行优化,给出时间复杂度较低的近似算法;收到工人的答案及质量后,先对问题候选答案及先验概率进行预处理,得到处理结果后根据工人对问题的回答情况,建立贝叶斯概率模型,得出问题候选答案的后验概率分布;更新工人质量模型步骤:工人质量模型随工人回答问题数量的变化而动态更新,建立更新工人质量模型,保障工人的质量在答案决策过程中是可信的。

【技术实现步骤摘要】
一种基于贝叶斯的开放性答案决策方法
本专利技术涉及一种基于贝叶斯的开放性答案决策方法,属于计算机程序

技术介绍
现实生活中往往存在一些计算机难以处理或者处理效果不佳的问题,如给图像打标签、衡量两个记录是不是同一个实体、评价一个商品等。这类机器难以处理的问题可以借助于众包来完成。众包直接将任务发布到互联网上,通过集合互联网上的未知大众来解决传统计算机单独难以处理的问题。由于工人来自不同的地域,年龄和文化背景不尽相同,回答问题的质量难以保证。众包平台的任务发布者希望通过冗余的方式得到一个更可信的答案,因此会将任务发布给多个工人进行回答,根据多个工人的答案推测出最终的结果。众包的一个重要技术挑战是在众包工人可能给出错误答案的情况下,如何进行高质量的答案决策。此外,众包平台上的任务类型是多种多样的,有填空题、选择题(分单选题和多选题)、选择和填空的混合等类型,目前众包技术中的答案决策算法主要是基于单选题类型提出的,不能兼容多种任务类型,尤其无法处理包含填空等开放性答案的任务类型。近年来,国内外学者对答案的决策算法进行了大量的研究。FengA.等人于2011年提出了MV方法,它考虑每个候选答案的工人个数,主要思想是少数服从多数,但是众包中不同工人的经验水平是不同的,MV方法没有考虑工人质量,因此它决策出来的答案不可靠。XuanLiu等人于2012年提出基于贝叶斯的决策模型,它将工人的准确性考虑到答案决策过程中,根据工人回答问题的准确性以及答案,计算每个候选答案的后验概率分布,后验概率最大的答案作为决策答案,该方法对工人质量采用的是固定策略,实质上工人的质量应该随着工人回答问题个数的变化而动态改变。AmazonMechanicalTurk(AMT)是目前国内外应用比较广泛的平台,它根据工人质量以及工人的答案,利用ExpectationMaximization(EM)算法不断迭代更新工人质量和答案后验概率分布,直至后验概率分布收敛为止,得到最终决策的答案,由于EM算法需要大量的迭代,运行时间较长。JianhongFeng等人于2014年提出一个可以在保证决策质量的同时减少运行时间的Inquire方法,该方法对每个工人建立了一个质量模型,用于计算工人回答问题的准确性。Inquire方法的主要思想是:根据第一个工人的准确性以及答案得到候选答案的后验概率分布,将该后验概率作为下一个工人回答该问题的先验概率,进一步计算答案的后验概率,直至回答这个问题的工人个数达到要求为止;在得到最终的后验概率分布后,更新所有工人的质量模型矩阵。JianhongFeng等人通过实验比较了各种方法,结果显示:MV方法的准确性最低,EM算法的运行时间最长,Inquire方法的准确率与EM算法的准确率大致相同,但运行时间减少了很多。此外,在现有的文献中,多选题是通过转换成多个单选题进行决策的,至于填空题,则简单地将与大多数答案都相似的答案作为决策答案。目前众包答案决策算法存在的问题如下:(1)工人回答问题的准确性是不断变化的,以往对工人建立的质量模型矩阵大小是固定的,仅适用于候选答案固定的情况。(2)目前的答案决策方法基于单一任务类型提出,缺少能兼容多种任务类型,并能处理开放性答案的决策方法,且决策的准确性和效率有待提高。
技术实现思路
为了克服现有技术的不足,本专利技术提供一种基于贝叶斯的开放性答案决策方法。本专利技术需要解决的技术问题是:(1)工人的经验水平是在变化的,在具有开放性答案的情况下,如何准确捕捉工人的质量,提高答案决策的可信度。(2)如何使决策算法兼容多种任务类型,并且保证算法决策的准确性。(3)当候选答案个数较多的情况下,如何优化算法,保证算法的执行效率。近年来,随着众包技术的发展,人们倾向于将传统机器方法难以处理的问题以任务的形式发布到互联网上,集合互联网上未知的大众来处理这些任务。但众包工人的经验水平是参次不齐的,众包任务的类型也是多样的,给高质量的答案决策带来了诸多的挑战。基于众包中多任务类型的答案决策,本专利技术的目的是:提出一种可以兼容多种任务类型,并能处理开放性答案的决策算法,该算法同时具有较高的决策准确性和执行效率。一种基于贝叶斯的开放性答案决策方法,含有以下步骤:利用工人以往表现,建立工人质量模型;先验概率预处理步骤:通过对填空内容的预处理,当填空内容的加入使得候选答案个数增加后,需要对所有候选答案的先验概率重新计算,保障答案决策更加准确;贝叶斯决策步骤:对多选题的答案决策算法进行优化,给出时间复杂度较低的近似算法;收到工人的答案及质量后,先对问题候选答案及先验概率进行预处理,得到处理结果后根据工人对问题的回答情况,建立贝叶斯概率模型,得出问题候选答案的后验概率分布;更新工人质量模型步骤:工人质量模型随工人回答问题数量的变化而动态更新,建立更新工人质量模型,保障工人的质量在答案决策过程中是可信的。本专利技术的优点是:1)提出可以统一处理多种众包任务类型的答案决策框架,任务类型包括填空题、单选题、多选题以及选择和填空混合的复杂任务类型。2)提出对众包任务中包含开放性答案的填空内容进行预处理,将填空内容扩展为候选答案。在扩展过程中,考虑填空内容之间的相似性,将相似度较高的一组答案当做相同的答案,根据预先给出的top-k个答案的先验概率以及扩展答案的情况,更新各个候选答案的先验知识,提高了最终答案决策的准确度。3)多选题的答案决策过程是一个NP-hard问题,本专利技术通过剪枝策略优化算法,减少了需要计算后验概率值的候选答案个数,使得算法可以在多项式时间内完成,提高了算法的运行效率。本专利技术提出一种可以兼容多种任务类型,并能处理开放性答案的决策算法,该算法同时具有较高的决策准确性和执行效率。首先,根据工人以往表现建立基于工人累积贡献的质量模型,该模型与候选答案的个数无关,并随着工人回答问题数量的变化而动态更新,保障工人的质量在答案决策过程中是可信的。其次,对于开放性答案,利用对短文本相似度计算可靠性较高的Jaro-WinklerDistance算法计算填空内容间的相似度,以此来扩展问题候选答案的个数,使得决策算法可以统一处理多种任务类型。本专利技术将答案间的相似性考虑到决策中,根据预先给出的top-k个答案的先验概率以及扩展答案的情况,更新各个候选答案的先验知识,提高了答案决策的准确性。最后,本专利技术通过剪枝策略优化算法,减少了需要计算后验概率值的候选答案个数,使得算法可以在多项式时间内完成,提高了算法的运行效率。附图说明当结合附图考虑时,通过参照下面的详细描述,能够更完整更好地理解本专利技术以及容易得知其中许多伴随的优点,但此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定,如图其中:图1为本专利技术的处理流程图。图2为本专利技术的填空题的预处理过程图。图3为本专利技术的决策为单选示意图。图4为本专利技术的决策为多选示意图。图5为本专利技术的多选题预处理过程图。图6为本专利技术的先验概率计算流程图。图7为本专利技术的基于贝叶斯的开放性答案决策流程图。图8为本专利技术的多选题决策优化算法流程图。下面结合附图和实施例对本专利技术进一步说明。具体实施方式显然,本领域技术人员基于本专利技术的宗旨本文档来自技高网
...

【技术保护点】
1.一种基于贝叶斯的开放性答案决策方法,其特征在于含有以下步骤:利用工人以往表现,建立工人质量模型;先验概率预处理步骤:通过对填空内容的预处理,当填空内容的加入使得候选答案个数增加后,需要对所有候选答案的先验概率重新计算,保障答案决策更加准确;贝叶斯决策步骤:对多选题的答案决策算法进行优化,给出时间复杂度较低的近似算法;收到工人的答案及质量后,先对问题候选答案及先验概率进行预处理,得到处理结果后根据工人对问题的回答情况,建立贝叶斯概率模型,得出问题候选答案的后验概率分布;更新工人质量模型步骤:工人质量模型随工人回答问题数量的变化而动态更新,建立更新工人质量模型,保障工人的质量在答案决策过程中是可信的。

【技术特征摘要】
1.一种基于贝叶斯的开放性答案决策方法,其特征在于含有以下步骤:利用工人以往表现,建立工人质量模型;先验概率预处理步骤:通过对填空内容的预处理,当填空内容的加入使得候选答案个数增加后,需要对所有候选答案的先验概率重新计算,保障答案决策更加准确;贝叶斯决策步骤:对多选题的答案决策算法进行优化,给出时间复杂度较低的近似算法;收到工人的答案及质量后,先对问题候选答案及先验概率进行预处理,得到处理结果后根据工人对问题的回答情况,建立贝叶斯概率模型,得出问题候选答案的后验概率分布;更新工人质量模型步骤:工人质量模型随工人回答问题数量的变化而动态更新,建立更新工人质量模型,保障工人的质量在答案决策过程中是可信的。2.一种基于贝叶斯的开放性答案决策方法,其特征在于含有以下步骤:步骤(1)、建立工人质量模型:获取工人准确性:输入工人答案以及工人质量模型,获取工人回答问题的准确性;步骤(2)、扩展候选答案:根据接收的工人答案情况,对候选答案进行扩展;步骤(3)、先验概率预处理:根据扩展的结果以及任务类型即填空/单选/多选/混合,计算答案的先验概率;步骤(4)、贝叶斯答案决策:将工人答案、先验概率及工人准确性作为贝叶斯决策算法的输入,计算所有候选答案的后验概率分布;步骤(5)、更新工人质量模型:对比工人提供的答案及决策得到的答案,更新工人质量模型;步骤(6)、返回步骤1替代工人质量模型。3.根据权利要求2所述的一种基于贝叶斯的开放性答案决策方法,其特征在于步骤(2)的扩展候选答案,含有以下步骤:对候选答案进行扩展步骤:对于包含开放性答案的任务,首先根据填空内容的相似情况对候选答案进行扩展,增加候选答案的个数,保证决策算法可以综合处理多种任务类型;定义1:s1、s2分别为两个工人填写的任务内容,s1与s2的相似度,记为γs1,s2,可以通过公式(1)计算得到;其中,s1、s2为工人填写的内容,m为s1与s2中匹配的字符数,t是经换位后匹配的字符的数目,L是前缀部分完全匹配的长度,P是用来调整前缀匹配的权值;考虑到相似度较大的一组答案很可能为相同的答案,因此把答案间的相互影响考虑到答案决策过程中,通过Jaro–Winklerdistance的方法,利用递归的思想计算工人填写的答案是否相同,若两个答案的相似度值为1,则扩展为一个候选答案,同时记录选择各个扩展项的工人个数,否则,扩展出多个选项,并记录各个选项间的相似度的值;多选题步骤:从整体的角度进行答案聚合,多选题存在以下两种情形,(1)决策为单选:工人认为多个候选答案中的任何一个都有可能是真实答案,也可以选择填写候选答案中没有的答案,最终只能决策出一个答案;(2)决策为多选:工人从候选答案中选择多个答案作为问题的答案,也可以选择填写候选答案中没有的答案,最终决策出多个答案。4.根据权利要求2所述的一种基于贝叶斯的开放性答案决策方法,其特征在于步骤(3)的先验概率预处理,含有以下步骤:决策为单选步骤:这种情况包括单选题以及工人选择多个选项但决策为单选这两种任务类型;其先验概率的计算是按已有的候选答案集的个数与扩展出的候选答案集的个数的比例分配先验概率值,已有的候选答案集topN中的答案按机器给出的先验知识进行分配,扩展出的候选答案集ExN中的答案根据选择每个答案的工人个数进行分配;定义2:已知工人的质量以及选择的答案情况,可得到问题i的所有答案的先验概率分布,记为{P(Ti=r),r∈Ni};其中,Top(r)为机器算法给出的候选答案r的先验知识,mr为选择扩展选项r的工人数,h为机器算法给出的候选答案个数,m为扩展的候选答案个数,Ansfill(Qi)表示为问题i中回答为填空内容的工人集合,topN为机器算法给出的候选答案集合,ExN为扩展答案集合;决策为多选步骤:答案发生的概率与工人是否选择了答案以及回答问题的工人质量有着密切关系,一般情况下,选择一个答案的工人个数越多且工人质量越高,这个答案是真实答案的可能性便越大;因此,根据工人是否选择了这个答案进行分组,得到两个集合,其中Ai表示为所有工人回答问题i的答案集合,表示为未被工人选择的候选答案的集合;工人平均质量的不同,对集合中答案的先验概率有着不同的影响;当工人的平均质量大于等于0.5时,认为工人对Ai集合的先验概率有提升的作用,工人选择的答案的先验概率应高于未被选择的答案,在选择的答案集合中,根据选择每个答案的工人个数的比例进行答案先验概率的计算,认为选择一个答案的工人个数越多,其先验概率越大;当工人的平均质量小于0.5时,工人选择的答案的先验概率应低于未选择的答案的部分;假设ρ表示为集合Ai中所有答案的先验概率之和,则(1-ρ)为中所有答案的先验概率之和;由于只知道机器算法给出的几个候选答案的先验知识,而组合答案的先验概率知识未知,因此,需要对2n-1个组合答案先验概率重新计算;先验概率计算如公式(3)所示,其中a、b是两个1*|Ni|的向量,Ni表示为问题i的所有组合答案的集合,Ai表示为所有工人回答问题i的答案集合,表示为未被工人选择的候选答案的集合,ρ*a表示为集合Ai中的答案的先验概率分布情况,(1-ρ)*b表示为集合中的答案的先验概率分布情况;{P(Ti=r),r∈Ni}=ρ*a+(1-ρ)*b(3)通过选择集合Ai中每个答案的工人个数与回答问题工人总数的比值对ρ进行分配,因此向量a表示为选择集合Ai中每个答案的工人个数与回答问题工人总数的比值情况;当候选答案不属于集合Ai中的元素时,其对应值为0;a中元素的计算如公式(4)所示,其中ej表示选择对应答案的工人个数,Ans(Qi)表示回答问题i的工人集合,有其中ej表示选择对应答案的工人个数,Ans(Qi)表示回答问题i的工人集合,Ni表示为问题i的所有组合答案的集合,Ai表示为所有工人回答问题i的答案集合,表示为未被工人选择的候选答案的集合;同理,向量b表示为集合中的答案在(1-ρ)上的分配情况,因此当候选答...

【专利技术属性】
技术研发人员:王宁暴雨晴
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1