【技术实现步骤摘要】
本公开涉及数据处理,尤其涉及一种文本评测基准构建方法及装置。
技术介绍
1、近年来,随着大语言模型技术以及计算架构的快速发展,以gpt(generative pre-trained transformer,生成式预训练转换器)为代表的各个大语言模型开始支持从4k个token(词元或词块)到256k个token不等的长序列输入输出,从而具备了直接处理超长文本上下文任务的能力。为了客观准确地评价长文本大模型在实际语言理解等任务中的能力水平,业界需要相对应地构建长文本评测基准。
2、大语言模型的评测基准由测试数据集和评测指标组成。然而,相关技术中所提供的长文本评测基准存在以下问题:文本长度有限,无法实现超长文本大语言模型的客观评测;评测基准的设置方式不合理,无法有效对大语言模型的文本理解能力进行客观评测;评测基准的语言类型存在限制,不能满足针对不同语言种类的大语言模型的使用需求。如何解决这些问题,构建出满足当前需要的超长文本数据集是亟待解决的问题。
技术实现思路
1、有鉴于此,本公开
...【技术保护点】
1.一种文本评测基准构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述选择题数据集包括多个选择题样本,各所述选择题样本包括一个选择题文本以及针对所述选择题文本的选择题;
3.根据权利要求2所述的方法,其特征在于,对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本,还包括:
4.根据权利要求1所述的方法,其特征在于,所述问答题数据集包括多文档问答题数据集,所述多文档问答题数据集包括多个问答题文档,各所述问答题文档是根据多个问答题样本形成的文本,每个所述问答题样本包括一个问答题的问答题目和对应的
<...【技术特征摘要】
1.一种文本评测基准构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述选择题数据集包括多个选择题样本,各所述选择题样本包括一个选择题文本以及针对所述选择题文本的选择题;
3.根据权利要求2所述的方法,其特征在于,对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本,还包括:
4.根据权利要求1所述的方法,其特征在于,所述问答题数据集包括多文档问答题数据集,所述多文档问答题数据集包括多个问答题文档,各所述问答题文档是根据多个问答题样本形成的文本,每个所述问答题样本包括一个问答题的问答题目和对应的问答答案;
5.根据权利要求1所述的方法,其特征在于,所述问答题数据集包括法律问答数据集,所述法...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。