文本评测基准构建方法及装置制造方法及图纸

技术编号：41517529 阅读：20 留言：0更新日期：2024-05-30 14:53

本公开涉及数据处理技术领域，尤其涉及一种文本评测基准构建方法及装置。该方法包括获取针对每种预设语言的多个第一数据集，多个第一数据集包括选择题数据集、问答题数据集、论文数据集和小说数据集，预设语言至少包括中文和英文；对各第一数据集中的样本进行编辑处理得到多个样本，以构建出文本数据集；以文本数据集作为测试数据集构建文本评测基准，文本数据集中包括针对每种预设语言的具有多种预设长度的多个样本，每种预设长度均超过阈值长度且每种预设长度的样本的数量大于数量预设值。样本种类丰富，长度分级，可以满足各类长文本模型的对文本长度的需求。构建出的文本评测基准能对模型进行客观、准确的评测。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及数据处理，尤其涉及一种文本评测基准构建方法及装置。

技术介绍

1、近年来，随着大语言模型技术以及计算架构的快速发展，以gpt（generative pre-trained transformer，生成式预训练转换器）为代表的各个大语言模型开始支持从4k个token（词元或词块）到256k个token不等的长序列输入输出，从而具备了直接处理超长文本上下文任务的能力。为了客观准确地评价长文本大模型在实际语言理解等任务中的能力水平，业界需要相对应地构建长文本评测基准。

2、大语言模型的评测基准由测试数据集和评测指标组成。然而，相关技术中所提供的长文本评测基准存在以下问题：文本长度有限，无法实现超长文本大语言模型的客观评测；评测基准的设置方式不合理，无法有效对大语言模型的文本理解能力进行客观评测；评测基准的语言类型存在限制，不能满足针对不同语言种类的大语言模型的使用需求。如何解决这些问题，构建出满足当前需要的超长文本数据集是亟待解决的问题。

技术实现思路

1、有鉴于此，本公开...

【技术保护点】

1.一种文本评测基准构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述选择题数据集包括多个选择题样本，各所述选择题样本包括一个选择题文本以及针对所述选择题文本的选择题；

3.根据权利要求2所述的方法，其特征在于，对各所述第一数据集中的样本进行编辑处理，得到对应的多个样本，还包括：

4.根据权利要求1所述的方法，其特征在于，所述问答题数据集包括多文档问答题数据集，所述多文档问答题数据集包括多个问答题文档，各所述问答题文档是根据多个问答题样本形成的文本，每个所述问答题样本包括一个问答题的问答题目和对应的问答答案；

<...

【技术特征摘要】

1.一种文本评测基准构建方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，对各所述第一数据集中的样本进行编辑处理，得到对应的多个样本，还包括：

5.根据权利要求1所述的方法，其特征在于，所述问答题数据集包括法律问答数据集，所述法...

【专利技术属性】
技术研发人员：代季峰，汪玉，宁雪妃，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人