一种基于人工智能大语言模型平台的数据治理方法及系统技术方案

技术编号：38346904 阅读：41 留言：0更新日期：2023-08-02 09:27

本发明专利技术涉及大语言模型技术领域，具体地说，涉及一种基于人工智能大语言模型平台的数据治理方法及系统。其包括数据处理平台以及优先级评估模块。本发明专利技术通过数据处理平台接收到预选取文本数据，结合用户提供的使用场景，规划不同处理方案，并记录各项处理方案对应的处理流程以及预选取文本数据处理结果，统计相同预选取文本数据中不同处理结果的选取率，通过优先级评估模块对相同预选取文本数据中不同处理结果进行优先级评估，后期遇到相同数据特征检索模式以及使用场景时，大语言模型会通过优先级给用户顺序推送处理结果，从而减少大语言模型处理方案流程，提高大语言模型响应速度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于人工智能大语言模型平台的数据治理方法及系统

[0001]本专利技术涉及大语言模型
，具体地说，涉及一种基于人工智能大语言模型平台的数据治理方法及系统。

技术介绍

[0002]大语言模型是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义，大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等，是通向人工智能的一条重要途径。
[0003]现有的大语言模型在进行数据采集过程中，虽然能够对数据按照表达方式进行分类处理，但用户在进行检索时，大语言模型会结合用户需求进行目标数据检索，并根据用户对输出结果的限定，对目标数据进行处理，但符合限定的目标数据种类繁多，需要用户自行进行挑选，且检索到的目标数据输出顺序不同，大部分的目标数据的用户选择率偏低，基本不会使用，这就导致大语言模型响应速度降低，且无法对选取率偏低的目标数据进行提前筛分，导致其处理工作量大大增加。
[0004]为了应对上述问题，现亟需一种基于人工智能大语言模型平台的数据治理方法及系统。

技术实现思路
r/>[0005]本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能大语言模型平台的数据治理系统，其特征在于：包括数据采集模块（10）、数据特征识别模块（20）、调用数据选取模块（30）、数据处理平台以及优先级评估模块（70）；所述数据采集模块（10）用于采集文本数据，将采集的文本数据通过表达形式进行分类存储；所述数据采集模块（10）输出端与所述数据特征识别模块（20）输入端连接，所述数据特征识别模块（20）用于对分类后的文本数据进行特征识别；所述数据特征识别模块（20）输出端与所述调用数据选取模块（30）输入端连接，所述调用数据选取模块（30）采集用户提供的数据特征检索模式以及使用场景，通过用户提供的数据特征，比对分类后的文本数据，调用比对成功的文本数据作为预选取文本数据；所述调用数据选取模块（30）输出端与所述数据处理平台输入端连接，所述数据处理平台结合用户提供的使用场景，规划不同处理方案，并记录各项处理方案对应的处理流程以及预选取文本数据处理结果，统计相同预选取文本数据中不同处理结果的选取率；所述数据处理平台输出端与所述优先级评估模块（70）输入端连接，所述优先级评估模块（70）结合相同预选取文本数据中不同处理结果的选取率，对相同预选取文本数据中不同处理结果进行优先级评估。2.根据权利要求1所述的基于人工智能大语言模型平台的数据治理系统，其特征在于：所述文本数据包括图像数据、文字数据以及语音数据。3.根据权利要求1所述的基于人工智能大语言模型平台的数据治理系统，其特征在于：所述调用数据选取模块（30）包括特征点比对单元（310）、重合阈值规划单元（320）以及比对数据标记单元（330）；所述特征点比对单元（310）结合用户提供的数据特征检索模式，比对文本数据中同类型数据特征，确定各个同类型数据比对的特征重合率；所述特征点比对单元（310）输出端与所述重合阈值规划单元（320）输入端连接，所述重合阈值规划单元（320）规划特征重合率阈值；所述重合阈值规划单元（320）输出端与所述比对数据标记单元（330）输入端连接，所述比对数据标记单元（330）将低于特征重合率阈值的同类型数据剔除，将不低于特征重合率阈值的同类型数据标记为预选取文本数据。4.根据权利要求3所述的基于人工智能大语言模型平台的数据治理系统，其特征在于：所述调用数据选取模块（30）采用阈值比对算法，其算法公式如下：；；；其中为定用户提供的预期数据的各个特征点集合，至为预期数据的各个特征点，为文本数据中与预期数据同类型数据的各个特征点集合，至为同类型数
据的各个特征点，为阈值比对函数，C为重合特征率，为重合特征率阈值，当重合特征率阈值低于重合特征率C时，阈值比对函数输出为0，表明该同类型数据不为预选取文本数据，当重合特征率阈值不低于重合特征率C时，阈值比对函数输出为1，表明该同类型数据为预选取文本数据。5.根据权利要求1所述的基于人工智能大语言模型平台的数据治理系统，其特征在于：所述数据处理平台包括数据处理方案规划模块（40）、处理流程记录模块（50）以及结果选取率计算模块（60）；所述数据处理方案规划模块（...

【专利技术属性】
技术研发人员：薛林桐，杨绍杰，罗恒，
申请(专利权)人：北京法伯宏业科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人