System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向大模型场景的标注内容审核方法、装置、设备、介质及产品制造方法及图纸_技高网

面向大模型场景的标注内容审核方法、装置、设备、介质及产品制造方法及图纸

技术编号:40768147 阅读:5 留言:0更新日期:2024-03-25 20:17
本公开提供了一种面向大模型场景的标注内容审核方法、装置、设备、介质及产品,涉及人工智能领域,尤其涉及大模型、NLP、深度学习领域。具体实现方案为:接收标注终端发送的审核请求,所述审核请求包括训练样本,所述训练样本包括样本数据和所述样本数据的待审核标注内容;基于训练获得的大语言模型,对所述训练样本的样本数据进行标注,获得所述样本数据的模拟标注内容;根据所述模拟标注内容,对所述待审核标注内容进行预审核,获得预审核结果;若所述预审核结果为审核未通过,则对所述待审核标注内容进行人工审核。

【技术实现步骤摘要】

本公开涉及人工智能领域中的大模型、nlp、深度学习等领域,尤其涉及一种面向大模型场景的标注内容审核方法、装置、设备、介质及产品


技术介绍

1、在大语言模型的训练场景中,需要大量的训练样本。训练样本一般可以是指训练数据和标注内容。例如,在问答场景中,训练数据可以是指问题,标注内容可以是指为问题设置的答案。

2、相关技术中,训练样本中的标注内容一般通过标注获得,标注完成之后通过人工审核,并在人工审核通过之后,将训练样本参与到大语言模型的模型训练。但是人工审核标注内容的效率较低。


技术实现思路

1、本公开提供了一种面向大模型场景的标注内容审核方法、装置、设备、介质及产品。

2、根据本公开的第一方面,提供了一种面向大模型场景的标注内容审核方法,包括:

3、接收标注终端发送的审核请求,所述审核请求包括训练样本,所述训练样本包括样本数据和所述样本数据的待审核标注内容;

4、基于训练获得的大语言模型,对所述训练样本的样本数据进行标注,获得所述样本数据的模拟标注内容;

5、根据所述模拟标注内容,对所述待审核标注内容进行预审核,获得预审核结果;

6、若所述预审核结果为审核未通过,则对所述待审核标注内容进行人工审核。

7、根据本公开的第二方面,提供了一种面向大模型场景的标注内容审核装置,包括:

8、请求接收单元,用于接收标注终端发送的审核请求,所述审核请求包括训练样本,所述训练样本包括样本数据和所述样本数据的待审核标注内容;

9、模型标注单元,用于基于训练获得的大语言模型,对所述训练样本的样本数据进行标注,获得所述样本数据的模拟标注内容;

10、自动审核单元,用于根据所述模拟标注内容,对所述待审核标注内容进行预审核,获得预审核结果;

11、人工审核单元,用于若所述预审核结果为审核未通过,则对所述待审核标注内容进行人工审核。

12、根据本公开的第三方面,提供了一种电子设备,包括:

13、至少一个处理器;以及

14、与至少一个处理器通信连接的存储器;其中,

15、存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面的方法。

16、根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行根据第一方面的方法。

17、根据本公开的第五方面,提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行第一方面的方法。

18、根据本公开的技术方案中,使用大语言模型对训练样本中的样本数据重新进行标注,获得模拟标注内容。将模拟标注内容参与待审核标注内容进行审核获得预审核结果。预审核是自动实现的,可以提高审核效率,而在预审核未通过时,可以进行人工审核,通过人工复合确保标注内容的精准性。融合了自动化审核和人工审核的有点,在既提高审核效率的同时又能保证标注内容的审核精度。

19、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种面向大模型场景的标注内容审核方法,包括:

2.根据权利要求1所述的方法,其中,所述对所述待审核标注内容进行人工审核,包括:

3.根据权利要求2所述的方法,其中,所述发送所述人工审核请求至客户端之后,还包括:

4.根据权利要求1-3任一项所述的方法,其中,所述根据所述模拟标注内容,对所述待审核标注内容进行预审核,获得预审核结果,包括:

5.根据权利要求4所述的方法,其中,所述根据所述训练样本的题型,确定为所述题型预先设置的预审核策略,包括:

6.根据权利要求5所述的方法,其中,所述根据至少一个所述评分维度分别对应的模拟内容评分,对至少一个所述评分维度分别对应的审核内容评分进行评测,获得所述预审核结果,包括:

7.根据权利要求4-6任一项所述的方法,其中,所述根据所述训练样本的题型,确定为所述题型预先设置的预审核策略,包括:

8.根据权利要求7所述的方法,其中,所述方法还包括:

9.根据权利要求4-8任一项所述的方法,其中,所述根据所述训练样本的题型,确定为所述题型预先设置的预审核策略,包括:

10.根据权利要求1-9任一项所述的方法,其中,所述确定所述训练样本审核通过之后,还包括:

11.一种面向大模型场景的标注内容审核装置,包括:

12.根据权利要求11所述的装置,其中,所述人工审核单元,包括:

13.根据权利要求12所述的装置,其中,还包括:

14.根据权利要求11-13任一项所述的装置,其中,所述自动审核单元,包括:

15.根据权利要求14所述的装置,其中,所述策略确定模块,包括:

16.根据权利要求15所述的装置,其中,所述评分对照子模块,具体用于:

17.根据权利要求14-16任一项所述的装置,其中,所述策略确定模块,包括:

18.根据权利要求17所述的装置,其中,所述装置还包括:

19.根据权利要求14-18任一项所述的装置,其中,所述策略确定模块,包括:

20.根据权利要求11-19任一项所述的装置,其中,所述装置还包括:

21.一种电子设备,包括:

22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种面向大模型场景的标注内容审核方法,包括:

2.根据权利要求1所述的方法,其中,所述对所述待审核标注内容进行人工审核,包括:

3.根据权利要求2所述的方法,其中,所述发送所述人工审核请求至客户端之后,还包括:

4.根据权利要求1-3任一项所述的方法,其中,所述根据所述模拟标注内容,对所述待审核标注内容进行预审核,获得预审核结果,包括:

5.根据权利要求4所述的方法,其中,所述根据所述训练样本的题型,确定为所述题型预先设置的预审核策略,包括:

6.根据权利要求5所述的方法,其中,所述根据至少一个所述评分维度分别对应的模拟内容评分,对至少一个所述评分维度分别对应的审核内容评分进行评测,获得所述预审核结果,包括:

7.根据权利要求4-6任一项所述的方法,其中,所述根据所述训练样本的题型,确定为所述题型预先设置的预审核策略,包括:

8.根据权利要求7所述的方法,其中,所述方法还包括:

9.根据权利要求4-8任一项所述的方法,其中,所述根据所述训练样本的题型,确定为所述题型预先设置的预审核策略,包括:

10.根据权利要求1-9任一项所述的方法,其中,所述确定所述训练样本审核通过之后,还包...

【专利技术属性】
技术研发人员:赵绪超张昊孙叔琦
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1