用于大语言模型的标注方法、装置、电子设备、介质制造方法及图纸

技术编号：41345138 阅读：20 留言：0更新日期：2024-05-20 10:01

本公开提供了一种用于大语言模型的标注方法、装置、电子设备和介质，涉及人工智能领域，尤其涉及深度学习与大语言模型领域。方法可以包括：获得大语言模型针对请求文本生成的满足差异性要求的多个响应文本；获得与所述多个响应文本对应的多个评分，所述多个评分中的每个评分指示所述多个响应文本中的相应的响应文本与所述请求文本的匹配程度；以及基于所述多个评分获得针对所述多个响应文本中的至少一个响应文本的标注文本，所述标注文本用于对所述大语言模型的参数进行调整。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及深度学习与大语言模型，具体涉及一种用于大语言模型的标注方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术：人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、近来，生成式人工智能取得了长足的进展。大语言模型(llm)可以接收用户的自然语言输入，并且输出自然语言式的回复结果。希望获得针对大语言模型的标注数据。

3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、本公开提供了一种用于大语言模型的标注方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一方面，提供了一种用于大语言模型的标注方法，包括：获得大语言模型针对请求文本生成的满足差异性要求的多个响应文本；获得与所述多个响应文本对应的多个评分，所述多个评分中的每个评分指示所述多个响应文本中的相应的响应文本与所述请求文本的匹配程度；以

3、根据本公开的另一方面，提供了一种用于大语言模型的标注装置，包括：文本获得单元，用于获得大语言模型针对请求文本生成的满足差异性要求的多个响应文本；评分获得单元，用于获得与所述多个响应文本对应的多个评分，所述多个评分中的每个评分指示所述多个响应文本中的相应的响应文本与所述请求文本的匹配程度；以及标注获得单元，用于基于所述多个评分获得针对所述多个响应文本中的至少一个响应文本的标注文本，所述标注文本用于对所述大语言模型的参数进行调整。

4、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据本公开的一个或多个实施例的用于大语言模型的标注方法。

5、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开的一个或多个实施例的用于大语言模型的标注方法。

6、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据本公开的一个或多个实施例的用于大语言模型的标注方法。

7、根据本公开的一个或多个实施例，可以有效地获得大模型的标注数据。

8、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种用于大语言模型的标注方法，包括：

2.根据权利要求1所述的方法，其中，基于所述多个评分获得针对所述多个响应文本中的至少一个响应文本的标注文本包括：

3.根据权利要求2所述的方法，其中，获得与所述多个响应文本对应的多个评分包括：针对所述多个响应文本中的每一个响应文本，获得从预定的多个有序级别中选择的一个级别作为该响应文本的评分，并且

4.根据权利要求1-3中任一项所述的方法，其中，基于所述多个评分获得针对所述多个响应文本中的至少一个响应文本的标注文本包括：

5.根据权利要求1-4中任一项所述的方法，其中，基于所述多个评分获得针对所述多个响应文本中的至少一个响应文本的标注文本包括：

6.根据权利要求1-5中任一项所述的方法，其中，所述差异性要求指示以下中的至少一项：响应文本的分词之间的差异性，基于奖励模型的差异性。

7.根据权利要求1-6中任一项所述的方法，还包括在获得与所述多个响应文本对应的多个评分之前：

8.根据权利要求7所述的方法，其中，获得与所述多个响应文本对应的多个批评数据包括：通过

9.根据权利要求7或8所述的方法，其中，获得与所述多个响应文本对应的多个批评数据包括：通过对所述多个响应文本中的每个响应文本中记载的事实的正确性进行检查，获得所述多个批评数据。

10.根据权利要求7-9中任一项所述的方法，其中，获得与所述多个响应文本对应的多个批评数据包括：通过对所述多个响应文本中的每个响应文本的语言表达进行检查，获得所述多个批评数据。

11.根据权利要求7-10中任一项所述的方法，其中，获得与所述多个响应文本对应的多个批评数据包括：通过对与所述多个响应文本中的每个响应文本的逻辑的正确性进行检查，获得所述多个批评数据。

12.根据权利要求1-11中任一项所述的方法，其中，获得通过大语言模型针对请求文本的满足差异性要求的多个响应文本包括：

13.一种用于大语言模型的标注装置，包括：

14.根据权利要求13所述的装置，其中，所述标注获得单元包括用于以下操作的单元：

15.根据权利要求14所述的装置，其中，所述评分获得单元包括：用于针对所述多个响应文本中的每一个响应文本，获得从预定的多个有序级别中选择的一个级别作为该响应文本的评分的单元，并且

16.根据权利要求13-15中任一项所述的装置，其中，所述标注获得单元包括用于以下操作的单元：

17.根据权利要求13-16中任一项所述的装置，其中，所述标注获得单元包括用于以下操作的单元：

18.根据权利要求13-17中任一项所述的装置，其中，所述差异性要求指示以下中的至少一项：响应文本的分词之间的差异性，基于奖励模型的差异性。

19.根据权利要求13-18中任一项所述的装置，还包括在获得与所述多个响应文本对应的多个评分之前执行以下操作的单元：

20.根据权利要求19所述的装置，其中，获得与所述多个响应文本对应的多个批评数据包括通过对所述多个响应文本中的每个响应文本与所述请求文本的匹配程度进行检查，获得所述多个批评数据。

21.根据权利要求19或20所述的装置，其中，获得与所述多个响应文本对应的多个批评数据包括通过对所述多个响应文本中的每个响应文本中记载的事实的正确性进行检查，获得所述多个批评数据。

22.根据权利要求19-21中任一项所述的装置，其中，获得与所述多个响应文本对应的多个批评数据包括通过对所述多个响应文本中的每个响应文本的语言表达进行检查，获得所述多个批评数据。

23.根据权利要求19-22中任一项所述的装置，其中，获得与所述多个响应文本对应的多个批评数据包括通过对与所述多个响应文本中的每个响应文本的逻辑的正确性进行检查，获得所述多个批评数据。

24.根据权利要求12-23中任一项所述的装置，其中，所述文本获得单元包括用于以下操作的单元：

25.一种电子设备，包括：

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-12中任一项所述的方法。

...

【技术特征摘要】

1.一种用于大语言模型的标注方法，包括：

2.根据权利要求1所述的方法，其中，基于所述多个评分获得针对所述多个响应文本中的至少一个响应文本的标注文本包括：

4.根据权利要求1-3中任一项所述的方法，其中，基于所述多个评分获得针对所述多个响应文本中的至少一个响应文本的标注文本包括：

5.根据权利要求1-4中任一项所述的方法，其中，基于所述多个评分获得针对所述多个响应文本中的至少一个响应文本的标注文本包括：

6.根据权利要求1-5中任一项所述的方法，其中，所述差异性要求指示以下中的至少一项：响应文本的分词之间的差异性，基于奖励模型的差异性。

7.根据权利要求1-6中任一项所述的方法，还包括在获得与所述多个响应文本对应的多个评分之前：

8.根据权利要求7所述的方法，其中，获得与所述多个响应文本对应的多个批评数据包括：通过对所述多个响应文本中的每个响应文本与所述请求文本的匹配程度进行检查，获得所述多个批评数据。

12.根据权利要求1-11中任一项所述的方法，其中，获得通过大语言模型针对请求文本的满足差异性要求的多个响应文本包括：

13.一种用于大语言模型的标注装置，包括：

14.根据权利要求13所述的装置，其中，所述标注获得单元...

【专利技术属性】
技术研发人员：戴岱，吴华，胡刚强，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人