数据构造方法、系统及电子设备技术方案

技术编号：40407702 阅读：5 留言：0更新日期：2024-02-20 22:29

本发明专利技术提供了一种数据构造方法、系统及电子设备，涉及数据构造技术领域，在对数据库数据进行标注过程中，首先获取原始数据；其中，原始数据为数据库数据；然后获取数据库数据中对应的领域模式信息，并根据领域模式信息中包含的字段对原始数据进行分组；再利用已分组的原始数据中对应的字段，构建领域模式信息对应的字段虚拟表；最后根据字段虚拟表构建原始数据对应的样例数据，并利用样例数据构造原始数据对应的标注数据。该方案可基于槽值填充方案实现NL2SQL过程，能够有效解决在垂直领域中应用NL2SQL时存在的标注数据缺失的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据构造，尤其是涉及一种数据构造方法、系统及电子设备。

技术介绍

1、在数据库的数据构造过程中，将用户的自然语言转化为可执行的数据库执行语言，是语义分析领域中的一个重要分支，即nl2sql(natural language to sql,自然语言转为sql语言)。现有场景中对于单表的nl2sql技术比较成熟，但针对垂直领域，大量nl2sql训练数据的标注成为制约nl2sql应用的瓶颈，在数据库的语义转换过程中通常出现标注数据缺失等情况，存在着数据标注效果差、效率低的问题。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种数据构造方法、系统及电子设备，该方案可基于槽值填充方案实现nl2sql过程，能够有效解决在垂直领域中应用nl2sql时存在的标注数据缺失的问题。

2、第一方面，本专利技术实施方式提供了一种数据构造方法，该方法包括：

3、获取原始数据；其中，原始数据为数据库数据；

4、获取数据库数据中对应的领域模式信息，并根据领域模式信息中包含的字段对原始数据进行分组；

5、利用已分组的原始数据中对应的字段，构建领域模式信息对应的字段虚拟表；

6、根据字段虚拟表构建原始数据对应的样例数据，并利用样例数据构造原始数据对应的标注数据。

7、在一种实施方式中，获取数据库数据中对应的领域模式信息，并根据领域模式信息中包含的字段对原始数据进行分组的步骤，包括：

8、确定数据库数据中包含的所

9、根据领域模式信息中包含的字段确定字段在数据库数据中同时出现的概率值，并利用概率值对原始数据进行分组。

10、在一种实施方式中，利用已分组的原始数据中对应的字段，构建领域模式信息对应的字段虚拟表的步骤，包括：

11、针对已分组的原始数据中对应的字段，获取字段对应的问题模式数据；

12、利用问题模式数据，构建领域模式信息对应的字段虚拟表。

13、在一种实施方式中，针对已分组的原始数据中对应的字段，获取字段对应的问题模式数据的步骤，包括：

14、根据原始数据中对应的字段的类型，确定字段中对应的单字段和多字段；

15、利用单字段构造单字段问题模式，并利用多字段构造多字段问题模式；

16、利用单字段问题模式和多字段问题模式对应的字段数据确定问题模式数据。

17、在一种实施方式中，利用问题模式数据，构建领域模式信息对应的字段虚拟表的步骤，包括：

18、确定问题模式数据中单字段问题模式对应的单字段数据；

19、确定问题模式数据中多字段问题模式对应的多字段数据；

20、根据单字段数据以及多字段数据对应的数据取值范围，构造领域模式信息对应的字段虚拟表。

21、在一种实施方式中，根据字段虚拟表构建原始数据对应的样例数据，并利用样例数据构造原始数据对应的标注数据的步骤，包括：

22、根据字段虚拟表对应的领域模式信息构建原始数据对应的样例数据；

23、对样例数据进行分组预测得到分组预测数据；并对样例数据进行语义转换得到语义转换数据；

24、根据分组预测数据以及语义转换数据，确定原始数据对应的标注数据。

25、在一种实施方式中，对样例数据进行分组预测得到分组预测数据的过程，包括：

26、将样例数据输入至预设的分组预测模型中；

27、控制分组预测模型生成样例数据对应的词向量、块向量以及位置向量；

28、将词向量、块向量以及位置向量叠加后生成编码层向量，并利用编码层向量生成分组预测数据。

29、在一种实施方式中，对样例数据进行语义转换得到语义转换数据的过程，包括：

30、将样例数据输入至预设的语义转换模型中；

31、控制语义转换模型按照领域模式信息生成样例数据对应的词向量、块向量以及位置向量；

32、将词向量、块向量以及位置向量叠加后生成编码层向量，并利用编码层向量确定语义转换模型中包含的多个预测子任务的损失值；

33、利用预测子任务的损失值确定语义转换数据。

34、第二方面，本专利技术实施方式还提供一种数据构造系统，该系统包括：

35、第一构建单元，用于获取原始数据；其中，原始数据为数据库数据；

36、第二构建单元，用于获取数据库数据中对应的领域模式信息，并根据领域模式信息中包含的字段对原始数据进行分组；

37、第三构建单元，用于利用已分组的原始数据中对应的字段，构建领域模式信息对应的字段虚拟表；

38、第四构建单元，用于根据字段虚拟表构建原始数据对应的样例数据，并利用样例数据构造原始数据对应的标注数据。

39、第三方面，本专利技术实施方式还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现第一方面提供的数据构造方法的步骤。

40、第四方面，本专利技术实施方式还提供一种存储介质，存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现第一方面提供的数据构造方法的步骤。

41、本专利技术实施方式提供的一种数据构造方法、系统及电子设备，在对数据库数据进行标注过程中，首先获取原始数据；其中，原始数据为数据库数据；然后获取数据库数据中对应的领域模式信息，并根据领域模式信息中包含的字段对原始数据进行分组；再利用已分组的原始数据中对应的字段，构建领域模式信息对应的字段虚拟表；最后根据字段虚拟表构建原始数据对应的样例数据，并利用样例数据构造原始数据对应的标注数据。该方案可基于槽值填充方案实现nl2sql过程，能够有效解决在垂直领域中应用nl2sql时存在的标注数据缺失的问题。

42、本专利技术的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

43、为使本专利技术的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

本文档来自技高网...

【技术保护点】

1.一种数据构造方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据构造方法，其特征在于，所述获取所述数据库数据中对应的领域模式信息，并根据所述领域模式信息中包含的字段对所述原始数据进行分组的步骤，包括：

3.根据权利要求1所述的数据构造方法，其特征在于，所述利用已分组的所述原始数据中对应的所述字段，构建所述领域模式信息对应的字段虚拟表的步骤，包括：

4.根据权利要求3所述的数据构造方法，其特征在于，所述针对已分组的所述原始数据中对应的所述字段，获取所述字段对应的问题模式数据的步骤，包括：

5.根据权利要求4所述的数据构造方法，其特征在于，所述利用所述问题模式数据，构建所述领域模式信息对应的所述字段虚拟表的步骤，包括：

6.根据权利要求1所述的数据构造方法，其特征在于，所述根据所述字段虚拟表构建所述原始数据对应的样例数据，并利用所述样例数据构造所述原始数据对应的标注数据的步骤，包括：

7.根据权利要求6所述的数据构造方法，其特征在于，对所述样例数据进行分组预测得到分组预测数据的过程，包括：

<...

【技术特征摘要】

1.一种数据构造方法，其特征在于，所述方法包括：

5.根据权利要求4所述的数据构造方法，其特征在于，所述利用所述问题模式数据，构建所述领域模式信息对应的所述字段虚拟表的步骤，包括：

【专利技术属性】
技术研发人员：吴西庆勇，周汉川，项志坚，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人