【技术实现步骤摘要】
本申请属于大模型,特别涉及一种大模型用户标注质量计算方法及电子设备。
技术介绍
1、在人工智能领域,大型语言模型展现出了强大的能力,但评估这些模型并确保其输出与人类偏好保持一致性,仍然是一个巨大的挑战。大模型内容对战评估产品是一个开放的、众包的大模型标注平台,主要的目标是收集人类反馈,并在真实世界场景下评估大模型的能力。
2、大模型内容对战评估产品(chatbot arena)是率先由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡内基梅隆大学合作创立的一个开放数据集、模型、系统和评估工具。通过收集大量人类参与者的反馈和偏好投票来评估模型,该众包的评估方式能够充分利用广大用户的集体智慧,从多个角度对模型进行评价,使评估结果更具代表性和全面性。
3、在现有技术中,大模型内容对战评估类的平台存在明显的不足,首要的问题在于,该平台目前并未对参与众包评测的用户进行排名或单独的人工标注质量检测。这意味着,标注者的专业水平、标注准确性和工作效率无法得到有效地区分和评估;这种情况将会导致标注质量的参差不齐,进而影响大模
...【技术保护点】
1.一种大模型用户标注质量计算方法,其特征在于,所述方法包括:
2.如权利要求1所述的大模型用户标注质量计算方法,其特征在于,第一类标注的标注得分的获得步骤,包括:
3.如权利要求2所述的大模型用户标注质量计算方法,其特征在于,所述基于所述判定结果确定标注得分,包括:
4.如权利要求1所述的大模型用户标注质量计算方法,其特征在于,所述基于所述标注得分计算出指令得分,包括:
5.如权利要求4所述的大模型用户标注质量计算方法,其特征在于,按照如下公式,所述基于所述目标标注用户的输入指令内容计算出指令多样性得分:
...
【技术特征摘要】
1.一种大模型用户标注质量计算方法,其特征在于,所述方法包括:
2.如权利要求1所述的大模型用户标注质量计算方法,其特征在于,第一类标注的标注得分的获得步骤,包括:
3.如权利要求2所述的大模型用户标注质量计算方法,其特征在于,所述基于所述判定结果确定标注得分,包括:
4.如权利要求1所述的大模型用户标注质量计算方法,其特征在于,所述基于所述标注得分计算出指令得分,包括:
5.如权利要求4所述的大模型用户标注质量计算方法,其特征在于,按照如下公式,所述基于所述目标标注用户的输入指令内容计算出指令多样性得分:
6.如权利要求5所述的大模型用户标注质量计算方法,其特征在于,计算出所述目标...
【专利技术属性】
技术研发人员:郑靖舒,姚金戈,玄日成,杨熙,秦博文,何哲琪,
申请(专利权)人:北京智源人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。