一种大模型风险管理框架构建的方法、装置及设备制造方法及图纸

技术编号:39160406 阅读:11 留言:0更新日期:2023-10-23 15:02
本说明书一个或多个实施例公开了一种大模型风险管理框架构建的方法、装置及设备。所述方法包括:基于原始语料集中各个语料类型对应的原始文本语料,确定各个所述语料类型的语料标签和对所述语料标签进行解释的标签定义,基于所述语料标签构建所述大模型风险管理框架的语料标签层;从所述语料类型对应的所述标签定义中,提取标记所述语料类型对应的风险的标签关键词,基于所述标签关键词构建所述大模型风险管理框架的关键词层;根据所述语料标签对应的所述标签定义,生成包含与所述语料标签对应的所述标签关键词的文本语料,基于所述文本语料构建所述大模型风险管理框架的文本语料层。料层。料层。

【技术实现步骤摘要】
一种大模型风险管理框架构建的方法、装置及设备


[0001]本说明书涉及数据处理
,尤其涉及一种大模型风险管理框架构建的方法、装置及设备。

技术介绍

[0002]随着人工智能的发展,大模型被广泛应用于自然语言处理领域的人机交互中。大模型通常根据它在训练数据中学到的上下文来生成回答。训练数据的质量、数量和多样性对于大模型的表现至关重要。如果有足够的多样化数据,大模型就能够生成有用、有趣和正确的回答。
[0003]目前,人们对自己的隐私数据越来越关注,但是如果训练数据中包括了敏感和隐私的个人信息,大模型可能就会在不经意间将这些个人信息转换为生成内容。同样的,如果训练数据中存在意识形态与价值取向、不良信息、虚假信息、歧视等安全缺陷,大模型可能就会在生成内容中重现这些安全缺陷。现有的用于对大模型进行风险管控优化的大模型风险管理框架的难以满足风险管控需求。因此,目前亟需提供一种更优的大模型风险管理框架构建方案。

技术实现思路

[0004]本说明书实施例提供一种大模型风险管理框架构建的方法、装置及设备,以提供一种符合风险防控相关人员预期的大模型风险管理框架构建方案。
[0005]第一方面,本说明书一个或多个实施例提供一种大模型风险管理框架构建的方法,包括:基于原始语料集中各个语料类型对应的原始文本语料,确定各个所述语料类型的语料标签和对所述语料标签进行解释的标签定义,基于所述语料标签构建所述大模型风险管理框架的语料标签层;从所述语料类型对应的所述标签定义中,提取标记所述语料类型对应的风险的标签关键词,基于所述标签关键词构建所述大模型风险管理框架的关键词层;根据所述语料标签对应的所述标签定义,生成包含与所述语料标签对应的所述标签关键词的文本语料,基于所述文本语料构建所述大模型风险管理框架的文本语料层。
[0006]第二方面,本说明书实施例提供了一种大模型风险管理框架构建的装置,包括:基于原始语料集中各个语料类型对应的原始文本语料,确定各个所述语料类型的语料标签和对所述语料标签进行解释的标签定义,基于所述语料标签构建所述大模型风险管理框架的语料标签层;从所述语料类型对应的所述标签定义中,提取标记所述语料类型对应的风险的标签关键词,基于所述标签关键词构建所述大模型风险管理框架的关键词层;根据所述语料标签对应的所述标签定义,生成包含与所述语料标签对应的所述标签关键词的文本语料,基于所述文本语料构建所述大模型风险管理框架的文本语料层。
[0007]第三方面,本说明书实施例提供了一种电子设备,该电子设备包括:基于原始语料集中各个语料类型对应的原始文本语料,确定各个所述语料类型的语料标签和对所述语料标签进行解释的标签定义,基于所述语料标签构建所述大模型风险管理框架的语料标签
层;从所述语料类型对应的所述标签定义中,提取标记所述语料类型对应的风险的标签关键词,基于所述标签关键词构建所述大模型风险管理框架的关键词层;根据所述语料标签对应的所述标签定义,生成包含与所述语料标签对应的所述标签关键词的文本语料,基于所述文本语料构建所述大模型风险管理框架的文本语料层。
[0008]第四方面,本说明书实施例提供一种存储介质,用于存储计算机程序,所述计算机程序能够被处理器执行以实现以下流程:基于原始语料集中各个语料类型对应的原始文本语料,确定各个所述语料类型的语料标签和对所述语料标签进行解释的标签定义,基于所述语料标签构建所述大模型风险管理框架的语料标签层;从所述语料类型对应的所述标签定义中,提取标记所述语料类型对应的风险的标签关键词,基于所述标签关键词构建所述大模型风险管理框架的关键词层;根据所述语料标签对应的所述标签定义,生成包含与所述语料标签对应的所述标签关键词的文本语料,基于所述文本语料构建所述大模型风险管理框架的文本语料层。
附图说明
[0009]为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1是根据本说明书一实施例的一种大模型风险管理框架构建的方法的示意性流程图。
[0011]图2是根据本说明书一实施例的一种大模型风险管理框架构建的方法的应用场景示意图。
[0012]图3是根据本说明书一实施例的一种风险管理四级框架的结构示意图。
[0013]图4是根据本说明书一实施例的一种大模型风险管理框架构建的方法的示意性流程图。
[0014]图5是根据本说明书一实施例的一种大模型风险管理框架构建的装置的结构示意图。
[0015]图6是根据本说明书一实施例的一种电子设备的结构示意图。
具体实施方式
[0016]下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0017]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本说明书的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字
符“/”,一般表示前后关联对象是一种“或”的关系。
[0018]下面结合附图,通过具体的实施例及其应用场景对本说明书实施例提供的大模型风险管理框架构建的方法、装置及设备进行详细地说明。
[0019]大模型可以是模型参数超过预设数量阈值和/或模型结构的复杂度超过预设复杂度阈值的模型,在实际应用中,大模型往往可以是具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(Large Language Model,LLM)、多模态预训练模型(multi

modal pre

training model)等。通常,大模型可以包括对话类大规模语言模型。
[0020]大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。应用于人机交互场景(如智能机器人)时,大模型基于用户给出的指令生成答复。
[0021]目前大模型的训练数据来源是互联网的公开数据,包含海量互联网文本数据、代码、对话等。大模型的数据来源和质量可能影响其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大模型风险管理框架构建的方法,所述大模型风险管理框架用于开发风险管理应用,所述方法,包括:基于原始语料集中各个语料类型对应的原始文本语料,确定各个所述语料类型的语料标签和对所述语料标签进行解释的标签定义,基于所述语料标签构建所述大模型风险管理框架的语料标签层;从所述语料类型对应的所述标签定义中,提取标记所述语料类型对应的风险的标签关键词,基于所述标签关键词构建所述大模型风险管理框架的关键词层;根据所述语料标签对应的所述标签定义,生成包含与所述语料标签对应的所述标签关键词的文本语料,基于所述文本语料构建所述大模型风险管理框架的文本语料层。2.根据权利要求1所述的方法,所述从所述语料类型对应的所述标签定义中,提取标记所述语料类型对应的风险的标签关键词,包括:根据所述标签定义,获取每个所述语料标签对应的主题和对所述主题进行解释的主题定义;从所述主题对应的所述主题定义中,提取标记所述主题对应的风险的主题关键词;所述根据所述语料标签对应的所述标签定义,生成包含与所述语料标签对应的所述标签关键词的文本语料,包括:根据所述主题定义和所述主题定义对应的所述标签定义,生成包含从所述主题定义中提取的所述主题关键词的所述文本语料。3.根据权利要求2所述的方法,所述根据所述标签定义,获取每个所述语料标签对应的主题和对所述主题进行解释的主题定义,包括:基于所述主题,对各个所述语料类型对应的所述原始文本语料进行主题标记处理;对不存在对应的主题的所述原始文本语料,设置至少一个补充主题并进行标记,标记有同一所述补充主题的原始文本语料的补充主题相同;基于标记有同一所述补充主题的所述原始文本语料,确定对所述补充主题进行解释的主题定义。4.根据权利要求2所述的方法,所述从所述主题对应的所述主题定义中,提取标记所述主题对应的风险的主题关键词,包括:从所述原始语料集的所述原始文本语料中,提取标记所述原始文本语料对应的风险的原始关键词;将具有相同所述主题的所述原始文本语料的主题关键词与原始关键词进行比对,得到目标关键词,所述目标关键词为所述主题关键词中不存在且所述原始关键词中存在的关键词;将所述目标关键词作为标记目标主题对应的风险的主题关键词,所述目标主题为所述目标关键词所属的所述原始文本语料对应的主题。5.根据权利要求1所述的方法,在生成文本语料后,所述方法,还包括:根据所述标签定义,对所述原始语料集的每个所述语料标签进行风险等级划分操作;将所述语料标签的风险等级作为具有所述语料标签的所述文本语料的风险等级。6.根据权利要求1所述的方法,所述基于原始语料集中各个语料类型对应的原始文本语料,确定各个所述语料类型的语料标签,包括:
获取所述大模型风险管理框架的应用场景信息;根据所述应用场景信息,从所述原始语料集中筛选出与所述大模型风险管理框架的应用场景相关的目标文本语料;基于所述目标文本语料,确定各个所述语料类型的语料标签。7.根据权利要求1所述的方法,所述根据所述语料标签对应的所述标签定义,生成包含与所述语料标签对应的...

【专利技术属性】
技术研发人员:鲜东曹汉杰张家齐杨舟
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1