一种基于大语言模型的多级数据建模方法及系统技术方案

技术编号：41091341 阅读：2 留言：0更新日期：2024-04-25 13:51

本发明专利技术提供了一种基于大语言模型的多级数据建模方法，包括以下步骤：S1.数据标注；S2.数据适配；S3.构建字典库；S4.接入解析；S5.关系抽取；S6.实体转换；S7.标准化处理；S8.融合处理；S9.层级分类；S10.分类计算；S11.聚类计算；S12.逐级生成；S13.完成保存。本发明专利技术还提供了一种基于大语言模型的多级数据建模系统，包括数据标注及训练单元、数据关系抽取单元、数据标准化及融合单元、数据模型分组聚合单元和数据模型分级单元。本发明专利技术能够有效解决从海量的多源异构开源知识数据中进行数据建模时数据模型参数覆盖不完整、数据模型建模过程耗时长的问题，自动完成模型多层分级，提高数据建模效率，有效支撑数据特征分析和知识溯源。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于大语言模型的多级数据建模方法及系统，属于数据处理。

技术介绍

1、互联网中已公开的军事领域目标种类较为丰富，主要包括人物、机构、武器装备、侦察传感器和固定设施等类型，同时随着科学技术的进步全球不断涌现出新研制的新型武器装备，武器装备涉及的平台较为广泛，主流的包括陆基、海基、空基、天基等。根据公开资料记载，全球有多款主流在役武器装备、众多军事单位和准军事组织、数十万名重要人物，细分类别超过万类。如此多类的目标，不但个体性能参数差异较大，而且在互联网中相关的知识数据资料种类繁杂，其结构化程度不统一，在进行开源军事领域研究时，如果使用人工从海量的多源异构数据资料中对目标的参数信息进行体系化的梳理和分析将耗费较多的精力，而运用传统的nlp算法模型对开源军事领域知识数据进行目标知识识别的准确率偏低、为提高识别准确率所需要的模型训练标注数据集样本量非常大，往往导致对应的数据标注工作投入人力成本高。此外同一类型的目标因使用场景的差异以及随着技术发展不断更新迭代，从而衍生出多种具有独有特征的系列型号，如何科学的对目标进行多类多级分组，需要进行大量的数据统计分析工作。

技术实现思路

1、为解决上述技术问题，本专利技术提供了一种基于大语言模型的多级数据建模方法及系统，该基于大语言模型的多级数据建模方法及系统能够有效解决从海量的多源异构开源知识数据中梳理目标数据模型耗时较长的问题以及传统nlp算法模型对知识识别准确率低的问题，同时使用层次聚类算法自动完成对目标模型的多层级分组计算，

2、本专利技术通过以下技术方案得以实现。

3、本专利技术提供的一种基于大语言模型的多级数据建模方法，包括以下步骤：

4、s1.数据标注：定义开源军事领域目标实体及实体关系标签组、关系特征分类标签组，完成目标数据集实体及实体关系标注和实体关系特征分类标注；

5、s2.数据适配：使用开源大语言模型作为基础，通过使用步骤s1中的开源军事领域目标标注数据集进行增量模型训练，完成对原大语言模型的参数微调，形成适用于开源军事领域的增强型大语言算法模型mfllm；

6、s3.构建字典库：构建包括标准化数据模型参数名称、标准化计量单位和标准化数据模型参数统一计量单位的开源军事领域目标数据标准字典库，保存至基础数据存储库；

7、s4.接入解析：将包含多种目标对象的多源异构知识数据资料接入解析，并经过清洗转换为文本格式数据，然后将文本数据结果保存至基础数据存储库；

8、s5.关系抽取：用增强型大语言算法模型mfllm对步骤s4中的文本格式数据进行目标实体抽取和实体关系抽取，得到包含头实体、尾实体、实体关系和来源数据语句的抽取结果，并将抽取结果处理为实体关系三元组聚合集合entryarray；

9、s6.实体转换：对实体关系三元组聚合集合entryarray进行数据结构的转换，得到实体对象数据entryobject；

10、s7.标准化处理：将实体对象数据entryobject转换为实体属性三要素并进行数据标准化处理，得到实体参数模型parametricmodel；

11、s8.融合处理：使用文本相似度计算算法比较实体类型相同的实体名称、实体属性名称、属性值和计量单位，对实体参数模型parametricmodel进行融合处理；

12、s9.层级分类：将实体参数模型parametricmodel按实体类型进行聚簇分组，并为每个实体参数模型增加层级分类信息；

13、s10.分类计算：用增强型大语言算法模型mfllm对实体参数模型parametricmodel中的实体属性进行分类计算并进行实体属性分组，将分组信息添加至实体参数模型parametricmodel中得到实体参数分组模型groupmodel；

14、s11.聚类计算：对实体参数分组模型groupmodel进行相关性分析，并通过层次聚类算法对实体参数分组模型groupmodel进行深度为1级的聚类计算得到下一级聚类簇后，用增强型大语言算法模型mfllm为聚类簇生成名称后，将聚类的结果添加到实体参数分组模型的层级分类信息中；

15、s12.逐级生成：重复步骤s11生成多层级的模型分类，形成具有继承关系的多层级数据模型体系；

16、s13.完成保存：将多层级数据模型体系存入业务数据储存库或保存为配置文件，以供后续业务使用。

17、所述实体及实体关系标签组包含目标实体分类、属性实体分类、实体之间的预定义关系类型和各类标签的描述信息；所述关系特征分类标签组包含关系特征类型和描述信息。

18、所述实体属性三要素为名称、值、计量单位。

19、所述步骤s1具体包括以下步骤：

20、s1.1.选择头实体文本，标注其目标实体类型；

21、s1.2.选择尾实体文本，标注其目标实体类型或属性实体类型；

22、s1.3.如果文本中包含关系名称，则选择关系文本，标注其为自定义关系类型；反之，则直接选择头实体与尾实体之间的预定义关系类型；

23、s1.4.为已标注的关系选择一个所属的特征类型，文本数据与标注数据经过转换合并，形成开源军事领域目标标注数据集，保存至基础数据存储库。

24、所述步骤s3中，标准化数据模型参数名称包括标准化数据模型参数名称paramname及一组与其同义的别名paramname'；标准化计量单位包括标准化计量单位measureunit及一组其同义符号measureunit'；标准化数据模型参数统一计量单位与标准化数据模型参数一一对应。

25、所述步骤s4中，多源异构知识数据资料的来源包括文件、数据库、接口；其中，通过文本读取访问文件内容、通过sql语句查询数据库字段和通过接口对接处理接口输入参数。

26、所述步骤s5中，抽取结果包含头实体、尾实体、实体关系和来源数据语句，形成实体关系三元组散列集合，再将三元组头实体名称和头实体类型都相同的三元组进行分组合并，得到每个实体的关系三元组聚合集合entryarray。

27、所述步骤s7中，数据标准化处理具体包括以下步骤：

28、s7.1.实体属性名称标准化处理：通过对比数据标准字典，找出与实体属性名称完全匹配的预定义数据模型参数别名paramname'，将实体属性名称替换为该别名对应的标准化数据模型参数名称paramname；

29、s7.2.实体属性值与计量单位拆分：当实体属性包含属性值和计量单位时，将属性值与计量单位进行拆分；

30、s7.3.实体属性计量单位标准化处理：通过对比数据标准字典，找出与实体属性计量单位完全匹配的同义符号measureunit'，将实体属性计量单位替换为该同义符号对应的标准化计量单位measureunit；

31、s7.4.实体属性计量本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的多级数据建模方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述实体及实体关系标签组包含目标实体分类、属性实体分类、实体之间的预定义关系类型和各类标签的描述信息；所述关系特征分类标签组包含关系特征类型和描述信息。

3.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述实体属性三要素为名称、值、计量单位。

4.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述步骤S1具体包括以下步骤：

5.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述步骤S3中，标准化数据模型参数名称包括标准化数据模型参数名称paramName及一组与其同义的别名paramName'；标准化计量单位包括标准化计量单位measureUnit及一组其同义符号measureUnit'；标准化数据模型参数统一计量单位与标准化数据模型参数一一对应；

6.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述步骤S5中

7.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述步骤S7中，数据标准化处理具体包括以下步骤：

8.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述步骤S8中的融合处理为，去除冗余的实体参数模型和模型内部冗余的实体属性，集中多个相同实体参数模型的差异实体属性。

9.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述步骤S10中，得到实体参数分组模型groupModel的过程具体包括以下步骤：

10.一种基于大语言模型的多级数据建模系统，其特征在于：包括数据标注及训练单元、数据关系抽取单元、数据标准化及融合单元、数据模型分组聚合单元和数据模型分级单元，用于实现如权利要求1～9中任一项所述的基于大语言模型的多级数据建模方法，其中，

...

【技术特征摘要】

1.一种基于大语言模型的多级数据建模方法，其特征在于：包括以下步骤：

3.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述实体属性三要素为名称、值、计量单位。

4.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述步骤s1具体包括以下步骤：

5.如权利要求1所述的基于大语言模型的多级数据建模方法，其特征在于：所述步骤s3中，标准化数据模型参数名称包括标准化数据模型参数名称paramname及一组与其同义的别名paramname'；标准化计量单位包括标准化计量单位measureunit及一组其同义符号measureunit'；标准化数据模型参数统一计量单位与标准化数据模型参数一一对应；

6.如权利要求1所述的基于大语言模型的多级数据建模方法，...

【专利技术属性】
技术研发人员：彭浩瀚，张婉渝，朱美玲，
申请(专利权)人：成都天奥集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人