【技术实现步骤摘要】
一种基于人工智能大语言模型平台的数据治理方法及系统
[0001]本专利技术涉及大语言模型
,具体地说,涉及一种基于人工智能大语言模型平台的数据治理方法及系统。
技术介绍
[0002]大语言模型是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义,大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
[0003]现有的大语言模型在进行数据采集过程中,虽然能够对数据按照表达方式进行分类处理,但用户在进行检索时,大语言模型会结合用户需求进行目标数据检索,并根据用户对输出结果的限定,对目标数据进行处理,但符合限定的目标数据种类繁多,需要用户自行进行挑选,且检索到的目标数据输出顺序不同,大部分的目标数据的用户选择率偏低,基本不会使用,这就导致大语言模型响应速度降低,且无法对选取率偏低的目标数据进行提前筛分,导致其处理工作量大大增加。
[0004]为了应对上述问题,现亟需一种基于人工智能大语言模型平台的数据治理方法及系统。
技术实现思路
r/>[0005]本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能大语言模型平台的数据治理系统,其特征在于:包括数据采集模块(10)、数据特征识别模块(20)、调用数据选取模块(30)、数据处理平台以及优先级评估模块(70);所述数据采集模块(10)用于采集文本数据,将采集的文本数据通过表达形式进行分类存储;所述数据采集模块(10)输出端与所述数据特征识别模块(20)输入端连接,所述数据特征识别模块(20)用于对分类后的文本数据进行特征识别;所述数据特征识别模块(20)输出端与所述调用数据选取模块(30)输入端连接,所述调用数据选取模块(30)采集用户提供的数据特征检索模式以及使用场景,通过用户提供的数据特征,比对分类后的文本数据,调用比对成功的文本数据作为预选取文本数据;所述调用数据选取模块(30)输出端与所述数据处理平台输入端连接,所述数据处理平台结合用户提供的使用场景,规划不同处理方案,并记录各项处理方案对应的处理流程以及预选取文本数据处理结果,统计相同预选取文本数据中不同处理结果的选取率;所述数据处理平台输出端与所述优先级评估模块(70)输入端连接,所述优先级评估模块(70)结合相同预选取文本数据中不同处理结果的选取率,对相同预选取文本数据中不同处理结果进行优先级评估。2.根据权利要求1所述的基于人工智能大语言模型平台的数据治理系统,其特征在于:所述文本数据包括图像数据、文字数据以及语音数据。3.根据权利要求1所述的基于人工智能大语言模型平台的数据治理系统,其特征在于:所述调用数据选取模块(30)包括特征点比对单元(310)、重合阈值规划单元(320)以及比对数据标记单元(330);所述特征点比对单元(310)结合用户提供的数据特征检索模式,比对文本数据中同类型数据特征,确定各个同类型数据比对的特征重合率;所述特征点比对单元(310)输出端与所述重合阈值规划单元(320)输入端连接,所述重合阈值规划单元(320)规划特征重合率阈值;所述重合阈值规划单元(320)输出端与所述比对数据标记单元(330)输入端连接,所述比对数据标记单元(330)将低于特征重合率阈值的同类型数据剔除,将不低于特征重合率阈值的同类型数据标记为预选取文本数据。4.根据权利要求3所述的基于人工智能大语言模型平台的数据治理系统,其特征在于:所述调用数据选取模块(30)采用阈值比对算法,其算法公式如下:;;;其中为定用户提供的预期数据的各个特征点集合,至为预期数据的各个特征点,为文本数据中与预期数据同类型数据的各个特征点集合,至为同类型数
据的各个特征点,为阈值比对函数,C为重合特征率,为重合特征率阈值,当重合特征率阈值低于重合特征率C时,阈值比对函数输出为0,表明该同类型数据不为预选取文本数据,当重合特征率阈值不低于重合特征率C时,阈值比对函数输出为1,表明该同类型数据为预选取文本数据。5.根据权利要求1所述的基于人工智能大语言模型平台的数据治理系统,其特征在于:所述数据处理平台包括数据处理方案规划模块(40)、处理流程记录模块(50)以及结果选取率计算模块(60);所述数据处理方案规划模块(...
【专利技术属性】
技术研发人员:薛林桐,杨绍杰,罗恒,
申请(专利权)人:北京法伯宏业科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。