一种大模型用户标注质量计算方法及电子设备技术

技术编号:44076200 阅读:25 留言:0更新日期:2025-01-17 16:11
本申请公开了一种大模型用户标注质量计算方法及电子设备,属于大模型技术领域。该方法包括:目标标注用户执行Z次标注,在所述Z次标注中包括触发了弱模型的N次第一类标注和未触发弱模型的M次正常标注,其中,Z=N+M,且Z、M、N为正整数;所述目标标注用户执行的Z次标注中的每个标注均对应一个标注得分,基于所述标注得分计算出指令得分;基于所述目标标注用户的输入指令内容计算出指令多样性得分;基于所述指令得分和所述指令多样性得分,计算出所述目标标注用户的质量排名得分。本申请极大地提升了质量验证的时效性与准确性,能够及时发现问题并予以纠正,确保标注的准确性和高效性。

【技术实现步骤摘要】

本申请属于大模型,特别涉及一种大模型用户标注质量计算方法及电子设备


技术介绍

1、在人工智能领域,大型语言模型展现出了强大的能力,但评估这些模型并确保其输出与人类偏好保持一致性,仍然是一个巨大的挑战。大模型内容对战评估产品是一个开放的、众包的大模型标注平台,主要的目标是收集人类反馈,并在真实世界场景下评估大模型的能力。

2、大模型内容对战评估产品(chatbot arena)是率先由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡内基梅隆大学合作创立的一个开放数据集、模型、系统和评估工具。通过收集大量人类参与者的反馈和偏好投票来评估模型,该众包的评估方式能够充分利用广大用户的集体智慧,从多个角度对模型进行评价,使评估结果更具代表性和全面性。

3、在现有技术中,大模型内容对战评估类的平台存在明显的不足,首要的问题在于,该平台目前并未对参与众包评测的用户进行排名或单独的人工标注质量检测。这意味着,标注者的专业水平、标注准确性和工作效率无法得到有效地区分和评估;这种情况将会导致标注质量的参差不齐,进而影响大模型评估的准确性和可靠本文档来自技高网...

【技术保护点】

1.一种大模型用户标注质量计算方法,其特征在于,所述方法包括:

2.如权利要求1所述的大模型用户标注质量计算方法,其特征在于,第一类标注的标注得分的获得步骤,包括:

3.如权利要求2所述的大模型用户标注质量计算方法,其特征在于,所述基于所述判定结果确定标注得分,包括:

4.如权利要求1所述的大模型用户标注质量计算方法,其特征在于,所述基于所述标注得分计算出指令得分,包括:

5.如权利要求4所述的大模型用户标注质量计算方法,其特征在于,按照如下公式,所述基于所述目标标注用户的输入指令内容计算出指令多样性得分:

6.如权利要求5所述...

【技术特征摘要】

1.一种大模型用户标注质量计算方法,其特征在于,所述方法包括:

2.如权利要求1所述的大模型用户标注质量计算方法,其特征在于,第一类标注的标注得分的获得步骤,包括:

3.如权利要求2所述的大模型用户标注质量计算方法,其特征在于,所述基于所述判定结果确定标注得分,包括:

4.如权利要求1所述的大模型用户标注质量计算方法,其特征在于,所述基于所述标注得分计算出指令得分,包括:

5.如权利要求4所述的大模型用户标注质量计算方法,其特征在于,按照如下公式,所述基于所述目标标注用户的输入指令内容计算出指令多样性得分:

6.如权利要求5所述的大模型用户标注质量计算方法,其特征在于,计算出所述目标...

【专利技术属性】
技术研发人员:郑靖舒姚金戈玄日成杨熙秦博文何哲琪
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1