一种基于自然语言自动创建数据模型的方法及系统技术方案

技术编号：40577739 阅读：6 留言：0更新日期：2024-03-06 17:19

本发明专利技术提供一种基于自然语言自动创建数据模型的方法及系统，涉及数据处理技术领域，包括：将数据源、行业模型库中所有表名和字段名分别存入第一、第二分词库，进行向量化后分别存入第一、第二向量数据库；将行业模型库中各表存入图数据库；通过第一、第二分词库分别对业务需求信息进行分词处理，提取关键字信息，形成中心词；将中心词进行向量化，然后在第一向量数据库和第二向量数据库中分别检索与中心词匹配的数据源字段信息和行业模型库字段信息，查出数据源中的表信息和行业模型库中的表信息；基于行业模型库字段信息、表信息剔除图数据库中没有关系的部分，得到业务需求信息对应的行业数据模型。本发明专利技术提高了创建数据模型的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，涉及一种基于自然语言自动创建数据模型的方法及系统。

技术介绍

1、目前，人们会通过数据建模工具创建数据仓库，数据仓库中的数据项都是来自各个系统的数据源，通过这些数据源中的数据项根据业务需求加工成新的数据表（指标或者报表数据）存入数据仓库，如图1所示。

2、但是在这个过程必须了解各个系统的数据源中的数据，手工进行创建新的数据表，并且新的数据表要有血缘关系图，如图1中根据应用系统数据源人工创建年度销售报表的过程包括：根据业务需求人工从应用系统数据源中找到所需数据（表（用户信息表、商品信息表）/字段）；根据业务需求将应用系统数据源中的数据进行合并为一个数据集（用户订单表表）；记录年度销售报表中数据的来源信息（数据血缘关系）。

3、人工的方式在应用系统数据源中查找，效率低下，具体表现在：业务需求在撰写时的用词与数据库中的用词不一致，例如数据库中的字段名称为电话号码，需求中用的手机号，该种情况下通过一般搜索的方式是无法找到对应的字段，往往是人工一个一个阅读查找。

4、因此，如何通过自然语言处理加上自动化创建数据模型，提高创建数据模型的效率，快速输出报表模型，成为亟待解决的问题。

技术实现思路

1、针对上述问题，本专利技术提供了一种基于自然语言自动创建数据模型的方法及系统，只需要将业务需求信息录入到系统中，系统根据业务需求描述中的关键信息进行语义的搜索和现有的模型库进行优化输出新的报表模型。

2、为实现上述目的，本专利技术

3、将数据源中所有表名、字段名存入第一分词库，进行向量化后存入第一向量数据库；

4、将行业模型库中所有表名、字段名存入第二分词库，进行向量化后存入所述第二向量数据库，并将所述行业模型库中各表基于表之间的关系存入图数据库，得到行业模型库知识图谱；

5、用户输入业务需求信息，通过第一分词库和第二分词库分别对所述业务需求信息进行分词处理，根据分词结果提取与表名和字段名相关的关键字信息，形成中心词；

6、将所述中心词进行向量化，基于向量化后的中心词，在所述第一向量数据库和第二向量数据库中分别检索相匹配的数据源字段信息和行业模型库字段信息，并反查出数据源中的表信息和行业模型库中的表信息；

7、针对行业模型库字段信息、行业模型库中的表信息在所述行业模型库知识图谱中检索相应的关系，剔除没有关系的部分，得到所述业务需求信息对应的行业数据模型。

8、作为本专利技术的进一步改进，

9、采用词嵌入向量算法模型对存入第一分词库的表名、字段名进行向量化；

10、采用词嵌入向量算法模型对存入第二分词库的表名、字段名进行向量化；

11、采用词嵌入向量算法模型对所述中心词进行向量化。

12、作为本专利技术的进一步改进，通过第一分词库和第二分词库分别对所述业务需求信息进行分词处理，包括：

13、使用第一分词库中的表名、字段名对所述业务需求信息进行分词；

14、使用第二分词库中的表名、字段名对所述业务需求信息进行分词。

15、作为本专利技术的进一步改进，基于向量化后的中心词，在所述第一向量数据库和第二向量数据库中通过词义检索，检索相匹配的数据源字段信息和行业模型库字段信息。

16、作为本专利技术的进一步改进，反查出数据源中的表信息和行业模型库中的表信息，包括：

17、基于数据源字段信息，查询数据源中含有该字段信息的表，得到数据源中的表信息；

18、基于行业模型数据库字段信息，查询行业模型数据库中含有该字段信息的表，得到行业模型数据库中的表信息。

19、作为本专利技术的进一步改进，剔除没有关系的部分，包括：

20、在行业模型库知识图谱中，剔除包含所述行业模型库字段信息，但是独立的表，以及剔除属于行业模型库中的表信息内，但是孤立的表。

21、作为本专利技术的进一步改进，得到所述业务需求信息对应的行业数据模型，包括：

22、采用gpt模型将所述业务需求信息、最终得到的数据源中的表、字段和行业模型库中的表、字段进行汇总，生成所述行业数据模型。

23、作为本专利技术的进一步改进，得到所述业务需求信息对应的行业数据模型，包括：

24、将最终得到的行业模型库中的表、字段作为模板，采用最终得到的数据源中的表、字段对所述模板中的表、字段进行替换，生成所述行业数据模型。

25、作为本专利技术的进一步改进，采用自然语言对所述模板中的表、字段进行替换。

26、本专利技术还提供了一种基于自然语言自动创建数据模型的系统，包括：数据存储及向量化模块、行业模型库知识图谱构建模块、分词及中心词提取模块、相关字段及表信息检索模块和行业数据模型构建模块；

27、所述数据存储及向量化模块，用于：

28、将数据源中所有表名、字段名存入第一分词库，进行向量化后存入第一向量数据库；

29、将行业模型库中所有表名、字段名存入第二分词库，进行向量化后存入所述第二向量数据库；

30、所述行业模型库知识图谱构建模块，用于：

31、将所述行业模型库中各表基于表之间的关系存入图数据库，得到行业模型库知识图谱；

32、所述分词及中心词提取模块，用于：

33、用户输入业务需求信息，通过第一分词库和第二分词库分别对所述业务需求信息进行分词处理，根据分词结果提取与表名和字段名相关的关键字信息，形成中心词；

34、所述相关字段及表信息检索模块，用于：

35、将所述中心词进行向量化，基于向量化后的中心词，在所述第一向量数据库和第二向量数据库中分别检索相匹配的数据源字段信息和行业模型库字段信息，并反查出数据源中的表信息和行业模型库中的表信息；

36、所述行业数据模型构建模块，用于：

37、针对行业模型库字段信息、行业模型库中的表信息在所述行业模型库知识图谱中检索相应的关系，剔除没有关系的部分，得到所述业务需求信息对应的行业数据模型。

38、与现有技术相比，本专利技术的有益效果为：

39、本专利技术通过自然语言处理技术，只需要输入业务需求信息，即可根据业务需求描述中的关键信息进行语义的搜索和现有的模型库进行优化输出，实现自动化创建数据模型，提高了创建数据模型的效率，进而快速输出报表模型；相较于现有技术中采用人工方式在应用系统数据源中查找表及字段，以及手工进行创建新的数据表，本专利技术无需人工一个一个阅读数据源中的表进行查找，也无需人工进行数据模型的合并创建，大大提高了数据模型的创建效率。

本文档来自技高网...

【技术保护点】

1.一种基于自然语言自动创建数据模型的方法，其特征在于，包括：

2.根据权利要求1所述的基于自然语言自动创建数据模型的方法，其特征在于：

3.根据权利要求1所述的基于自然语言自动创建数据模型的方法，其特征在于：通过第一分词库和第二分词库分别对所述业务需求信息进行分词处理，包括：

4.根据权利要求1所述的基于自然语言自动创建数据模型的方法，其特征在于：基于向量化后的中心词，在所述第一向量数据库和第二向量数据库中通过词义检索，检索相匹配的数据源字段信息和行业模型库字段信息。

5.根据权利要求1所述的基于自然语言自动创建数据模型的方法，其特征在于：反查出数据源中的表信息和行业模型库中的表信息，包括：

6.根据权利要求1所述的基于自然语言自动创建数据模型的方法，其特征在于：剔除没有关系的部分，包括：

7.根据权利要求1所述的基于自然语言自动创建数据模型的方法，其特征在于：得到所述业务需求信息对应的行业数据模型，包括：

8.根据权利要求1所述的基于自然语言自动创建数据模型的方法，其特征在于：得到所述业务需求

9.根据权利要求8所述的基于自然语言自动创建数据模型的方法，其特征在于：采用自然语言对所述模板中的表、字段进行替换。

10.一种基于自然语言自动创建数据模型的系统，用于实现如权利要求1~9任一项所述的基于自然语言自动创建数据模型的方法，其特征在于，包括：数据存储及向量化模块、行业模型库知识图谱构建模块、分词及中心词提取模块、相关字段及表信息检索模块和行业数据模型构建模块；

...

【技术特征摘要】

1.一种基于自然语言自动创建数据模型的方法，其特征在于，包括：

2.根据权利要求1所述的基于自然语言自动创建数据模型的方法，其特征在于：

5.根据权利要求1所述的基于自然语言自动创建数据模型的方法，其特征在于：反查出数据源中的表信息和行业模型库中的表信息，包括：

6.根据权利要求1所述的基于自然语言自动创建数据模...

【专利技术属性】
技术研发人员：高炜，王琤，朱金宝，
申请(专利权)人：北京数语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人