一种对大模型微调语料进行数据治理的方法及装置制造方法及图纸

技术编号：41304911 阅读：2 留言：0更新日期：2024-05-13 14:50

本发明专利技术公开一种对大模型微调语料进行数据治理的方法及装置，其中方法包括：收集文档语料，集中进行存储；对于所有待切分语料逐个进行片段切分操作；将切分后的文档片段进行Embedding向量化；向量化后的信息存入向量库；对切分后的文档片段进行相似性分析，标记重复性文档片段；对每个文档片段进行重复次数统计，将该数据暂标为n；对于文档片段进行排重，并对后挂分支的数量进行统计，将该数据暂标为p；根据n和p，对文档片段进行重要性排序；将向量化的文档片段转换为文本，供语料标注人员使用。本发明专利技术一种对大模型微调语料进行数据治理的方法及装置，对语料进行前置数据治理，提升语料质量，降低标注难度，保障微调效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据治理领域，尤其是一种对大模型微调语料进行数据治理的方法及装置。

技术介绍

1、大语言模型llm(large language model)是一种通过海量语料预训练出的巨大参数量的模型，具备思维链能力、内容生成能力。在大语言模型的基础上，可以通过某个行业的标注语料进一步的进行针对性微调，使大语言模型对某个行业的领域知识更加精通，能够更加适配行业应用的需要。

2、llm微调的效果，主要依赖于文本语料的标注质量。但是当前各行业当前语料积累，明显存在三类特征：一是数量巨大，可能有上万、几十万的文档；二是重复率高，有很多文档中都存在高相似性、甚至完全相同的内容片段；三是标注难度高、工作量大，针对行业语料的标注，需要对行业背景和业务特性有比较深入理解的人员才有能力进行准确标注，但是这类人员往往日常工作内容就比较饱满，很难抽出太多时间投入到标注工作中。

3、很明显能看出，上述三大特征里，特征一、二与特征三是主要矛盾点，一方面，语料数量巨大、重复度高，另一方面，对标注人员的要求高，标注工作推进的难度大。所以我们需要在标注工作启动之前，先对语料进行数据治理，提取语料中的关键信息，并分析出优先级与重要度，以便合理的规划标注工作。

技术实现思路

1、为解决现有技术存在的问题，本专利技术提供一种对大模型微调语料进行数据治理的方法及装置，在大模型微调前，对语料进行前置数据治理，提升语料质量，降低标注难度，保障微调效果。

2、为实现上述目的，本专利技术采用下述技术方案：

3、在本专利技术一实施例中，提出了一种对大模型微调语料进行数据治理的方法，该方法包括：

4、s01、收集文档语料，集中进行存储，存储时标记每个文档是否已完成片段切分和语料分析工作；

5、s02、对于所有待切分语料逐个进行片段切分操作；

6、所述s02中根据文档的类型，使用对应切分方案，具体包括：

7、s021、代码性质的文档，根据代码结构切分，如每个函数、每个类切分成一个片段；

8、s022、附带一定内容格式描述的文档，如markdown、xml等，根据内容段落切分成片段；

9、s023、word与pdf文档，先按固定长度切分，再根据文档相似性对已切分的片段进行合并、拆分、收缩、扩展等操作；

10、s024、有刚性格式要求的文档如网络配置脚本等，根据文档特性，定制切分方案。如某厂家出厂的网络设备，配置文件统一使用井号“#”来做段分割符，则切分片段时，直接按厂家指定的分割符进行切分。

11、s03、将切分后的文档片段进行embedding向量化，

12、进一步地，所述s03中向量化的方法包括：word2vec、fasttex t、wordrank，或者自行编码实现；

13、embedding是深度学习中的术语，表示一种将文本转换为数据类模型能进行数学计算的一系列矩阵构建与升降维操作。

14、word2vec、fasttext、wordrank都是业界中常用的，实现embe dding操作的成熟方案。

15、s04、向量化后的信息存入向量库；

16、进一步地，所述s04中向量库选型包括：chroma、faiss、pine cone等；

17、s05、对切分后的文档片段进行相似性分析，将高相似度的文档片段标记为重复性文档片段；

18、进一步地，所述s05中相似性分析使用的方案包括：tf-idf、bm25等，或自行编码实现。

19、tf-idf、bm25都是业界中常用的，进行相似性分析的成熟方案。

20、s06、对每个文档片段进行重复次数统计，将该数据暂标为n；

21、进一步地，所述s06中的重复次数统计采用相似度算法，根据设置阈值判断是否相似。

22、s07、对于文档片段进行排重，并对后挂分支的数量进行统计，将文档片段的后挂分支数暂标为p；

23、进一步地，所述s07中后挂分支为：在原始文档语料中，位置紧挨着当前文档片段之后的下一条文档片段。

24、进一步地，所述s07中后挂分支统计包括：

25、s071、重复性的文档片段，记录一个分支；

26、s072、逐层进行分支数记录，并且给每层的分支数量进行加权计算；

27、s073、将每个文档片段，根据后续各层后挂分支的加权结果进行累加，得到该文档片段的后挂分支数，将该数据暂标为p。

28、s08、根据每个文档片段的重复度n和后挂分支数量p，对文档片段进行重要性排序；

29、进一步地，所述s08包括：

30、s081、对于偏向配置命令生成、代码生成等方向的大模型微调场景，以p为主，计算重要性指标k，进行公式设置；

31、公式可自由设置，目标是根据业务场景需求，以及文档语料本身的特别，将微调时期望能够优先进行标注的语料片段通过重要性指标能够排序筛选出来。

32、s082、对于偏向知识问答、文档辅助生成等方向的大模型微调场景，以n为主计算重要性指标k；

33、s083、将文档片段根据重要性指标k进行排序。

34、s09、将向量化的文档片段转换为文本，供语料标注人员使用。

35、在本专利技术一实施例中，还提出了一种对大模型微调语料进行数据治理的装置，该装置包括：

36、语料收集模块，收集文档语料，集中进行存储，存储时标记每个文档是否已完成片段切分和语料分析工作；

37、文档片段切分模块，对于所有待切分语料逐个进行片段切分操作；

38、文档片段向量化模块，将切分后的文档片段进行embedding向量化；

39、入库模块，向量化后的信息存入向量库；

40、相似性分析模块，对切分后的文档片段进行相似性分析，将高相似度的文档片段标记为重复性文档片段；

41、文档片段重复统计模块，对每个文档片段进行重复次数统计，将该数据暂标为n；

42、后挂分支统计模块，对于文档片段进行排重，并对后挂分支的数量进行统计，将文档片段的后挂分支数暂标为p；

43、文档片段重要性排序模块，根据每个文档片段的重复度n和后挂分支数量p，对文档片段进行重要性排序；

44、语料输出模块，将向量化的文档片段转换为文本，供语料标注人员使用。

45、在本专利技术一实施例中，还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现前述对大模型微调语料进行数据治理的方法。

46、在本专利技术一实施例中，还提出了一种计算机可读存储介质，计算机可读存储介质存储有执行对大模型微调语料进行数据治理的方法的计算机程序。

47、有益效果：

48、本专利技术一种对大模型微调语料进本文档来自技高网...

【技术保护点】

1.一种对大模型微调语料进行数据治理的方法，其特征在于，该方法包括：

2.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述S02中根据文档的类型使用对应切分方案包括：

3.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述S03中向量化的方法包括：word2vec、FastText、wordRank，或者自行编码实现。

4.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述S04中向量库选型包括：Chroma、FAISS、Pinecone。

5.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述S05中相似性分析使用的方案包括：TF-IDF、BM25，或自行编码实现。

6.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述S06中的重复次数统计采用相似度算法，根据设置阈值判断是否相似。

7.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述S07中后挂分支为：在原始文档语料中，

8.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述S07中后挂分支统计包括：

9.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述S08包括：

10.一种对大模型微调语料进行数据治理的装置，其特征在于，该装置包括：

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6任一项所述方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1-6任一项所述方法的计算机程序。

...

【技术特征摘要】

1.一种对大模型微调语料进行数据治理的方法，其特征在于，该方法包括：

2.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述s02中根据文档的类型使用对应切分方案包括：

3.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述s03中向量化的方法包括：word2vec、fasttext、wordrank，或者自行编码实现。

4.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述s04中向量库选型包括：chroma、faiss、pinecone。

5.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述s05中相似性分析使用的方案包括：tf-idf、bm25，或自行编码实现。

6.根据权利要求1所述的对大模型微调语料进行数据治理的方法，其特征在于，所述s06中的重复次数统计...

【专利技术属性】
技术研发人员：毛恒，
申请(专利权)人：中盈优创资讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人