【技术实现步骤摘要】
本专利技术涉及人工智能,具体涉及一种基于混合专家结构的问答任务评估方法及系统。
技术介绍
1、随着大语言模型的快速发展,问答(question-answering,qa)任务已成为测试模型理解能力和推理能力的重要基准。早期的问答数据集(如figureqa和dvqa)主要依赖固定答案格式,模型的回答被限制为二分类(“是/否”)或预定义的类别标签。这类任务通常采用基于规则匹配的准确率(accuracy)作为评测指标,直接衡量模型输出与标准答案的匹配程度(参见图1a)。尽管这种评测框架在问答结构化的任务中较为有效,但其固化的评估标准难以适应涉及开放式或数值回答的复杂问答任务。为了解决这一问题,宽松准确率(relaxed-accuracy)方法允许数值答案在一定容差范围内变化,从而提高评测的灵活性。然而,随着问答任务的复杂性不断增加,特别是在具备多样化生成、开放式回答能力的大语言模型出现后,传统的基于规则的方法(包括准确率和宽松准确率)难以对回答的质量进行全面评估。大语言模型生成的回答多样性包括同义改写或语境化解释,这使得基于规则的评测方法难以
...【技术保护点】
1.一种基于混合专家结构的问答任务评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,结合所述问题从该回复中抽取出简短答案,包括:
3.根据权利要求2所述的方法,其特征在于,利用一特定数据集对大语言模型进行微调时,通过最小化预测简短答案与真实简短答案之间的损失来进行学习;其中,计算该损失的损失函数T表示真实简短答案的长度;At为真实简短答案中的第t个词元,Q表示问题,R表示回复,θ表示大语言模型的参数,P表示概率。
4.根据权利要求1所述的方法,其特征在于,使用一基于混合专家结构的评估模型来生成该回复的评
...【技术特征摘要】
1.一种基于混合专家结构的问答任务评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,结合所述问题从该回复中抽取出简短答案,包括:
3.根据权利要求2所述的方法,其特征在于,利用一特定数据集对大语言模型进行微调时,通过最小化预测简短答案与真实简短答案之间的损失来进行学习;其中,计算该损失的损失函数t表示真实简短答案的长度;at为真实简短答案中的第t个词元,q表示问题,r表示回复,θ表示大语言模型的参数,p表示概率。
4.根据权利要求1所述的方法,其特征在于,使用一基于混合专家结构的评估模型来生成该回复的评估得分,包括:
5.根据权利要求4所述的方法,其特征在于,训练所述基于混合专家结构的评估模型时的总损失函数其中,表示交叉熵损失函数,权重衰减系数wmin表示最小权重系数,winitial表示初始权重系数,p是当前迭代周期,p为总迭代周期数量,调节参数c=0.5–f,f是提前调整系数,j为曲线斜率系数,t表...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。