System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种对通信网络设备的配置文件进行标注的方法及装置制造方法及图纸_技高网

一种对通信网络设备的配置文件进行标注的方法及装置制造方法及图纸

技术编号:41142274 阅读:4 留言:0更新日期:2024-04-30 18:11
本发明专利技术公开一种对通信网络设备的配置文件进行标注的方法及装置,其中,该方法包括:收集各通信网络设备厂商的设备说明文档,并使用Langchain框架构建知识库;收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分;使用TF‑IDF算法,提取配置文件涉及的所有指令中的关键字;逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果。该方法及装置可以对配置文件中的配置指令进行详细标注,以支撑通信网络设备配置相关大语言模型的微调。

【技术实现步骤摘要】

本专利技术涉及通信网络领域,尤其是一种对通信网络设备的配置文件进行标注的方法及装置


技术介绍

1、大语言模型llm(large language model)是一种通过海量语料预训练出的巨大参数量的模型,具备思维链能力和内容生成能力。在大语言模型的基础上,可以通过某个行业的标注语料进一步的进行针对性微调,使大语言模型对某个行业的领域知识更加精通,能够更加适配行业应用的需要。

2、对于通信网络设备,根据不同的业务组合,会在配置文件中配置大量的业务指令。如果要微调出一个针对此类配置文件、可自动按需生成配置指令、对配置文件进行增量编辑的大模型,就必须对配置文件进行详细标注。

3、通信网络设备的配置文件,特点有四:一是配置文件非常长,有可能达到上万行配置;二是专业性高,配置指令相似度高,很多业务组合都是用比较接近的配置指令组合实现,必须有很强的专业性,才能确保配置正确;三是配置间相关度高,一个业务功能会涉及多段配置,配置间有很强的依赖;四是基本没有注释,文件中只有配置指令,没有解释信息。

4、目前针对配置文件进行标注,大部分是依靠网络运维业务专家进行人工标注,标注成本非常高,需要一套自动化的手段进行辅助标注,释放大部分人力。


技术实现思路

1、为解决现有技术存在的上述问题,本专利技术提供一种对通信网络设备的配置文件进行标注的方法及装置,可以对配置文件中的配置指令进行详细标注,以支撑通信网络设备配置相关大语言模型的微调。

2、为实现上述目的,本专利技术采用下述技术方案:

3、在本专利技术一实施例中,提出了一种对通信网络设备的配置文件进行标注的方法,该方法包括:

4、收集各通信网络设备厂商的设备说明文档,并使用langchain框架构建知识库;

5、收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分;

6、使用tf-idf算法,提取配置文件涉及的所有指令中的关键字;

7、逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果。

8、进一步地,使用langchain框架构建知识库,包括:

9、对设备说明文档进行切分,切分后的文档片段进行embedding向量化,将结果存入向量库中;

10、选择一个具备对话能力与思维链能力的基础大语言模型进行部署;

11、开放知识检索接口,支持根据接口请求的内容,在向量库中进行检索匹配;

12、通过提示词工程,对知识检索接口的输出进行约束,将检索匹配结果进行总结;

13、将总结结果作为知识背景,重新向知识库提问;

14、将此轮问答结果,组合成多轮问答的格式,作为知识检索接口的输出。

15、进一步地,收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分,包括:

16、收集各通信网络设备的配置文件,集中进行存储;

17、针对通信网络设备的厂商,指定该通信网络设备的配置文件的切分规则;

18、根据切分规则,对配置文件涉及的所有指令进行逐一切分。

19、进一步地,使用tf-idf算法,提取配置文件涉及的所有指令中的关键字;逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果,包括:

20、将切分后的指令块与指令行进行embedding向量化;

21、对配置文件涉及的所有指令内容,使用tf-idf算法进行相似度分析,获取指令中的关键字;

22、对指令块与指令行进行遍历,将指令中的关键字全部取出;

23、调用知识库的知识检索接口,根据关键字从设备说明文档中获取该配置指令的配置规范、配置背景以及应用场景,并转为多轮问答的格式;

24、将多轮问答结果转为json格式;

25、将上述json内容与指令块、指令行合并在一起,组合成正式标注结果。

26、在本专利技术一实施例中,还提出了一种对通信网络设备的配置文件进行标注的装置,该装置包括:

27、知识库构建模块,用于收集各通信网络设备厂商的设备说明文档,并使用langchain框架构建知识库;

28、标注语料构建模块,用于收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分;使用tf-idf算法,提取配置文件涉及的所有指令中的关键字;逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果。

29、进一步地,使用langchain框架构建知识库,包括:

30、对设备说明文档进行切分,切分后的文档片段进行embedding向量化,将结果存入向量库中;

31、选择一个具备对话能力与思维链能力的基础大语言模型进行部署;

32、开放知识检索接口,支持根据接口请求的内容,在向量库中进行检索匹配;

33、通过提示词工程,对知识检索接口的输出进行约束,将检索匹配结果进行总结;

34、将总结结果作为知识背景,重新向知识库提问;

35、将此轮问答结果,组合成多轮问答的格式,作为知识检索接口的输出。

36、进一步地,收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分,包括:

37、收集各通信网络设备的配置文件,集中进行存储;

38、针对通信网络设备的厂商,指定该通信网络设备的配置文件的切分规则;

39、根据切分规则,对配置文件涉及的所有指令进行逐一切分。

40、进一步地,使用tf-idf算法,提取配置文件涉及的所有指令中的关键字;逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果,包括:

41、将切分后的指令块与指令行进行embedding向量化;

42、对配置文件涉及的所有指令内容,使用tf-idf算法进行相似度分析,获取指令中的关键字;

43、对指令块与指令行进行遍历,将指令中的关键字全部取出;

44、调用知识库的知识检索接口,根据关键字从设备说明文档中获取该配置指令的配置规范、配置背景以及应用场景,并转为多轮问答的格式;

45、将多轮问答结果转为json格式;

46、将上述json内容与指令块、指令行合并在一起,组合成正式标注结果。

47、在本专利技术一实施例中,还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述对通信网络设备的配置文件进行标注的方法。

48、在本专利技术一实施例中,还提出了一种计算机可读存储介质,计算机可读存储介质存储有执行对通本文档来自技高网...

【技术保护点】

1.一种对通信网络设备的配置文件进行标注的方法,其特征在于,该方法包括:

2.根据权利要求1所述的对通信网络设备的配置文件进行标注的方法,其特征在于,使用Langchain框架构建知识库,包括:

3.根据权利要求1所述的对通信网络设备的配置文件进行标注的方法,其特征在于,收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分,包括:

4.根据权利要求1所述的对通信网络设备的配置文件进行标注的方法,其特征在于,使用TF-IDF算法,提取配置文件涉及的所有指令中的关键字;逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果,包括:

5.一种对通信网络设备的配置文件进行标注的装置,其特征在于,该装置包括:

6.根据权利要求5所述的对通信网络设备的配置文件进行标注的装置,其特征在于,使用Langchain框架构建知识库,包括:

7.根据权利要求5所述的对通信网络设备的配置文件进行标注的装置,其特征在于,收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分,包括:

8.根据权利要求5所述的对通信网络设备的配置文件进行标注的装置,其特征在于,使用TF-IDF算法,提取配置文件涉及的所有指令中的关键字;逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果,包括:

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4任一项所述方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1-4任一项所述方法的计算机程序。

...

【技术特征摘要】

1.一种对通信网络设备的配置文件进行标注的方法,其特征在于,该方法包括:

2.根据权利要求1所述的对通信网络设备的配置文件进行标注的方法,其特征在于,使用langchain框架构建知识库,包括:

3.根据权利要求1所述的对通信网络设备的配置文件进行标注的方法,其特征在于,收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分,包括:

4.根据权利要求1所述的对通信网络设备的配置文件进行标注的方法,其特征在于,使用tf-idf算法,提取配置文件涉及的所有指令中的关键字;逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果,包括:

5.一种对通信网络设备的配置文件进行标注的装置,其特征在于,该装置包括:

6.根据权利要求5所述的对通信网络设备的配置文件进行标注的装...

【专利技术属性】
技术研发人员:毛恒邱勇
申请(专利权)人:中盈优创资讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1