检索增强生成的教学数据分类方法、系统、装置及介质制造方法及图纸

技术编号：40644654 阅读：5 留言：0更新日期：2024-03-13 21:25

本发明专利技术公开了一种检索增强生成的教学数据分类方法、系统、装置及介质，该方法包括以下步骤：首先根据教学数据在问答库进行问答对检索，得到问答对结果；接着将教学数据和所述问答对结果进行合并，得到课堂提示语；再将课堂提示语输入大语言模型，以使大语言模型学习课堂提示语中问答对结果的特征，并根据学习到的特征对教学数据进行分类预测，得到教学数据的第一标签结果；最后将教学数据输入判别式模型，得到教学数据的多个分类标签以及每个分类标签的分类置信度，并通过多个分类标签的分类置信度对第一标签结果进行验证，得到教学数据的数据分类结果。本发明专利技术通过引入大语言模型和检索增强生成技术，显著提高了教学数据的分类效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据分类，尤其涉及一种检索增强生成的教学数据分类方法、系统、装置及介质。

技术介绍

1、在需要对课堂教学过程进行人工智能辅助分析时，常常需要将课堂中老师教学过程中说的话和提问时学生的回答语句进行分类，即课堂教学场景的数据分类。目前，可以使用人工标注或自然语言理解技术实现数据分类，具体地，在课堂教学场景的数据自动分类中，常常使用判别式模型和生成式模型这两种技术方法。

2、判别式模型是一种监督学习方法，目标是通过学习输入数据和输出数据之间的映射关系，从而对数据进行分类。在课堂教学场景数据自动分类中，判别式模型可以基于深度神经网络的分类器获得，例如卷积神经网络(cnn)、循环神经网络(rnn)或长短时记忆网络(lstm)。由于判别式模型只关注学习输入和输出之间的映射关系，因此，可以判别式模型可以灵活地结合不同类型的特征，具有较好的灵活性，且随着深度学习的兴起，判别式模型在课堂教学场景数据自动分类中得到了广泛的应用。然而，由于判别式模型需要大量的标注数据来训练，往往需要手动选择合适的数据，此时，判别式模型对于课堂教学场景这一复杂变化多样的数据分类时，存在局限性，从而影响数据自动分类的准确率。

3、生成式模型是一种无监督学习方法，目标是通过学习输入数据和输出数据的联合概率分布，生成与输入数据相似的输出数据。在课堂教学场景数据自动分类中，生成式模型可以为变分自编码器(vae)或生成对抗网络(gan)。生成式模型不需要标注大量的数据，可以通过生成新数据来改善模型的性能，具有较好的泛化能力。然而，生成式模型

4、因此，以上技术问题亟需解决。

技术实现思路

1、为了解决上述问题，本专利技术提出了一种检索增强生成的教学数据分类方法、系统、装置及介质，能够提高课堂教学数据的分类效率和准确性。

2、本专利技术实施例第一方面公开了一种检索增强生成的教学数据分类方法，所述方法包括以下步骤：

3、根据教学数据在问答库进行问答对检索，得到问答对结果；

4、将所述教学数据和所述问答对结果进行合并，得到课堂提示语；

5、将所述课堂提示语输入大语言模型，以使大语言模型学习课堂提示语中问答对结果的特征，并根据学习到的特征对教学数据进行分类预测，得到教学数据的第一标签结果；

6、将所述教学数据输入判别式模型，得到教学数据的多个分类标签以及每个分类标签的分类置信度，并通过所述多个分类标签的分类置信度对所述第一标签结果进行验证，得到教学数据的数据分类结果。

7、进一步地，在所述根据教学数据在问答库进行问答对检索，得到问答对结果这一步骤之前，所述检索增强生成的教学数据分类方法还包括以下步骤：

8、获取课堂教学场景的原始数据，所述原始数据包括提问数据和回应数据；

9、根据所述原始数据和课堂通用提问模板，生成通用提问文本和通用回应文本；

10、根据所述通用提问文本和通用回应文本得到问答对，并根据所述问答对得到问答库。

11、进一步地，所述根据教学数据在问答库进行问答对检索，得到问答对结果，包括以下步骤：

12、对所述教学数据进行提取，得到课例特定条件，并根据所述课例特定条件在所述问答库中进行标量检索，得到匹配的教师话语集合，其中，所述课例特定条件包括科目、课型和学段；

13、对所述教师话语集合进行矢量检索，得到问答对结果。

14、进一步地，所述对所述教师话语集合进行矢量检索，得到问答对结果，包括以下步骤：

15、通过向量模型将所述教师话语集合和所述教学数据转换并合并，得到语义向量；

16、根据所述语义向量在所述问答库中进行近似最近邻搜索，得到排名靠前的k个问答对结果，其中，所述问答对结果包括k个相似的通用提问文本和通用回应文本。

17、进一步地，所述将所述教学数据和所述问答对结果进行合并，得到课堂提示语，包括以下步骤：

18、将教学数据填充至提问模板，得到第一提示语；

19、将问答对结果填充至样例模板，得到第二提示语；

20、根据所述第一提示语和所述第二提示语得到课堂提示语。

21、进一步地，所述向大语言模型提问以根据提示结果生成第一标签结果，包括以下步骤：

22、根据教学数据向大语言模型发起提问；

23、将所述课堂提示语输入大语言模型，得到提示结果，并通过所述提示结果对大语言模型进行提示以生成教学数据的第一标签结果。

24、进一步地，所述通过所述多个分类标签的分类置信度对所述第一标签结果进行验证，得到教学数据的数据分类结果，包括以下步骤：

25、将所述第一标签结果与所述多个分类标签的分类置信度进行比较，得到所述第一标签结果在所述多个分类标签的分类置信度中对应的置信度名次；

26、判断所述置信度名次是否在预设置信度名次范围，若是，则将所述第一标签结果作为教学数据的数据分类结果。

27、进一步地，所述通过所述多个分类标签的分类置信度对所述第一标签结果进行验证，得到教学数据的数据分类结果，还包括以下步骤：

28、若所述置信度名次不在所述预设置信度名次范围，则通过硬投票得到教学数据的数据分类结果；

29、其中，通过硬投票得到教学数据的数据分类结果通过以下步骤获得：

30、统计大语言模型学习课堂提示语中问答对结果的所有特征，将出现次数最多的特征作为教学数据的数据分类结果。

31、本专利技术实施例第二方面公开了一种检索增强生成的教学数据分类系统，所述检索增强生成的教学数据分类系统包括：

32、第一模块，用于根据教学数据在问答库进行问答对检索，得到问答对结果；

33、第二模块，用于将所述教学数据和所述问答对结果进行合并，得到课堂提示语；

34、第三模块，用于将所述课堂提示语输入大语言模型，以使大语言模型学习课堂提示语中问答对结果的特征，并根据学习到的特征对教学数据进行分类预测，得到教学数据的第一标签结果；

35、第四模块，用于将所述教学数据输入判别式模型，得到教学数据的多个分类标签以及每个分类标签的分类置信度，并通过所述多个分类标签的分类置信度对所述第一标签结果进行验证，得到教学数据的数据分类结果。

36、本专利技术实施例第三方面公开了一种检索增强生成的教学数据分类装置，所述装置包括：

37、至少一个处理器；

38、至少一个存储器，用于存储至少一个程序；

39、当所述至少一个程序被所述至少一个处理器执行，使得至少一个所述处理器实现如第一方面的任一项所述的检索增强生成的教学数据分类方法。

40、本专利技术实施例第四方面公开了一种计算机存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由所述处理器执行时用于实现如第本文档来自技高网...

【技术保护点】

1.一种检索增强生成的教学数据分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的检索增强生成的教学数据分类方法，其特征在于，在所述根据教学数据在问答库进行问答对检索，得到问答对结果这一步骤之前，所述检索增强生成的教学数据分类方法还包括以下步骤：

3.根据权利要求1所述的检索增强生成的教学数据分类方法，其特征在于，所述根据教学数据在问答库进行问答对检索，得到问答对结果，包括以下步骤：

4.根据权利要求3所述的检索增强生成的教学数据分类方法，其特征在于，所述对所述教师话语集合进行矢量检索，得到问答对结果，包括以下步骤：

5.根据权利要求1所述的检索增强生成的教学数据分类方法，其特征在于，所述将所述教学数据和所述问答对结果进行合并，得到课堂提示语，包括以下步骤：

6.根据权利要求1所述的检索增强生成的教学数据分类方法，其特征在于，所述通过所述多个分类标签的分类置信度对所述第一标签结果进行验证，得到教学数据的数据分类结果，包括以下步骤：

7.根据权利要求6所述的检索增强生成的教学数据分类方法，其特征在于，

8.一种检索增强生成的教学数据分类系统，其特征在于，所述检索增强生成的教学数据分类系统包括：

9.一种检索增强生成的教学数据分类装置，其特征在于，包括：

10.一种计算机存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-7任一项所述的检索增强生成的教学数据分类方法。

...

【技术特征摘要】

1.一种检索增强生成的教学数据分类方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的检索增强生成的教学数据分类方法，其特征在于，所述对所述教师话语集合进行矢量检索，得到问答对结果，包括以下步骤：

【专利技术属性】
技术研发人员：宋宇，王宣皓，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人