当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于混合专家结构的问答任务评估方法及系统技术方案

技术编号:46560985 阅读:1 留言:0更新日期:2025-10-10 21:14
本发明专利技术公开一种基于混合专家结构的问答任务评估方法及系统,属于人工智能领域,所述方法包括:获取待测大语言模型针对一问题产生的回复,并结合所述问题从该回复中抽取出简短答案;根据预定义匹配规则获取该简短答案与该问题的真实答案之间的匹配结果;在所述匹配结果为完全匹配或者部分匹配且预测答案无超出与错误的情况下,基于预定义匹配规则的评分设定,赋予该回复一评估得分;在所述匹配结果为完全不匹配或者存在错误的情况下,使用一基于混合专家结构的评估模型来生成该回复的评估得分。本发明专利技术在保证对回复评估的高准确率同时,具备较高的成本效益。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体涉及一种基于混合专家结构的问答任务评估方法及系统


技术介绍

1、随着大语言模型的快速发展,问答(question-answering,qa)任务已成为测试模型理解能力和推理能力的重要基准。早期的问答数据集(如figureqa和dvqa)主要依赖固定答案格式,模型的回答被限制为二分类(“是/否”)或预定义的类别标签。这类任务通常采用基于规则匹配的准确率(accuracy)作为评测指标,直接衡量模型输出与标准答案的匹配程度(参见图1a)。尽管这种评测框架在问答结构化的任务中较为有效,但其固化的评估标准难以适应涉及开放式或数值回答的复杂问答任务。为了解决这一问题,宽松准确率(relaxed-accuracy)方法允许数值答案在一定容差范围内变化,从而提高评测的灵活性。然而,随着问答任务的复杂性不断增加,特别是在具备多样化生成、开放式回答能力的大语言模型出现后,传统的基于规则的方法(包括准确率和宽松准确率)难以对回答的质量进行全面评估。大语言模型生成的回答多样性包括同义改写或语境化解释,这使得基于规则的评测方法难以准确捕捉语义等价性。本文档来自技高网...

【技术保护点】

1.一种基于混合专家结构的问答任务评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,结合所述问题从该回复中抽取出简短答案,包括:

3.根据权利要求2所述的方法,其特征在于,利用一特定数据集对大语言模型进行微调时,通过最小化预测简短答案与真实简短答案之间的损失来进行学习;其中,计算该损失的损失函数T表示真实简短答案的长度;At为真实简短答案中的第t个词元,Q表示问题,R表示回复,θ表示大语言模型的参数,P表示概率。

4.根据权利要求1所述的方法,其特征在于,使用一基于混合专家结构的评估模型来生成该回复的评估得分,包括:...

【技术特征摘要】

1.一种基于混合专家结构的问答任务评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,结合所述问题从该回复中抽取出简短答案,包括:

3.根据权利要求2所述的方法,其特征在于,利用一特定数据集对大语言模型进行微调时,通过最小化预测简短答案与真实简短答案之间的损失来进行学习;其中,计算该损失的损失函数t表示真实简短答案的长度;at为真实简短答案中的第t个词元,q表示问题,r表示回复,θ表示大语言模型的参数,p表示概率。

4.根据权利要求1所述的方法,其特征在于,使用一基于混合专家结构的评估模型来生成该回复的评估得分,包括:

5.根据权利要求4所述的方法,其特征在于,训练所述基于混合专家结构的评估模型时的总损失函数其中,表示交叉熵损失函数,权重衰减系数wmin表示最小权重系数,winitial表示初始权重系数,p是当前迭代周期,p为总迭代周期数量,调节参数c=0.5–f,f是提前调整系数,j为曲线斜率系数,t表...

【专利技术属性】
技术研发人员:赵东岩岳潭宋子龙史绪钊
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1