System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40028155 阅读:8 留言:0更新日期:2024-01-16 17:49
本申请涉及一种数据处理方法、装置、电子设备及存储介质。上述方法包括获取待处理自然语言文本,待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;以待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,目标预测结果包括目标结构化查询语言语句和目标思维链信息,目标思维链信息基于目标结构化查询语言语句中的关键词构成。本申请有利于兼顾转化自然语言查询为结构化查询语言语句的效率、准确度和可解释性。本申请实施例可应用于云技术、人工智能、智慧交通、智慧娱乐等各种场景。

【技术实现步骤摘要】

本申请涉及互联网通信,尤其涉及一种数据处理方法、装置、电子设备及存储介质


技术介绍

1、一些场景需要利用结构化查询语言(structured query language,sql)语句进行查询,而结构化查询语言语句的构建存在技术门槛。相关技术中,常通过制定规则,并利用所制定的规则将用户输入的自然语言查询进行结构化查询语言语句转化,进而实现相关场景下的查询。然而,制定规则依赖人工,所制定的规则也存在局限性,这影响着所获得的结构化查询语言语句的准确度。因此,需要提供更具准确度的转化自然语言查询为结构化查询语言语句的方案。


技术实现思路

1、为了解决上述提出的至少一个技术问题,本申请提供了一种数据处理方法、装置、电子设备及存储介质:

2、根据本申请的第一方面,提供了一种数据处理方法,其特征在于,所述方法包括:

3、获取待处理自然语言文本,所述待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;

4、以所述待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,所述目标预测结果包括目标结构化查询语言语句和目标思维链信息,所述目标思维链信息基于所述目标结构化查询语言语句中的关键词构成,所述目标预测模型基于多个样本自然语言文本进行训练、并在训练中基于所述样本自然语言文本对应的预测结果和标注数据之间的差异调整预设模型的参数而获得,所述样本自然语言文本对应的标注数据包括所述样本自然语言文本对应的样本结构化查询语言语句和样本思维链信息,所述预设模型包括生成式预训练模型。

5、根据本申请的第二方面,提供了一种数据处理装置,其特征在于,所述装置包括:

6、获取模块:用于获取待处理自然语言文本,所述待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;

7、预测模块:用于以所述待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,所述目标预测结果包括目标结构化查询语言语句和目标思维链信息,所述目标思维链信息基于所述目标结构化查询语言语句中的关键词构成,所述目标预测模型基于多个样本自然语言文本进行训练、并在训练中基于所述样本自然语言文本对应的预测结果和标注数据之间的差异调整预设模型的参数而获得,所述样本自然语言文本对应的标注数据包括所述样本自然语言文本对应的样本结构化查询语言语句和样本思维链信息,所述预设模型包括生成式预训练模型。

8、根据本申请的第三方面,提供了一种电子设备,所述电子设备包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述至少一个处理器加载并执行以实现如第一方面所述的数据处理方法。

9、根据本申请的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的数据处理方法。

10、根据本申请的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的数据处理方法。

11、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。

12、实施本申请,具有以下有益效果:

13、本申请提供了一种转化自然语言查询为结构化查询语言语句的方案。本申请以待处理自然语言文本为输入,利用目标预测模型输出目标结构化查询语言语句和目标思维链信息。目标预测模型基于多个样本自然语言文本训练获得,目标预测模型具有高泛化能力,有利于提高转化自然语言查询为结构化查询语言语句的效率、适应性和可靠性。作为训练的基础的预设模型包括生成式预训练模型,可以借助生成式预训练模型提高训练获得目标预测模型的便捷性,可以提高训练速度,可以在保证训练效果的同时降低对于样本自然语言文本的数量要求。同时,目标思维链信息与目标结构化查询语言语句一道输出,目标思维链信息的存在可以提高目标结构化查询语言语句的可解释性和易读性,这样有助于对目标结构化查询语言语句进行异常分析,进而有助于对模型进行校正。

14、根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。

本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标预测模型通过下述步骤训练获得:

3.根据权利要求2所述的方法,其特征在于,所述预设模型还包括文本处理网络,所述生成式预训练模型采用解码结构,所述以所述样本自然语言文本为输入,利用所述预设模型输出所述样本自然语言文本对应的预测结果,包括:

4.根据权利要求3所述的方法,其特征在于,所述生成式预训练模型包括向量转化层和文本预测层,所述利用所述生成式预训练模型对所述文本向量进行解码,得到所述样本自然语言文本对应的预测结果,包括:

5.根据权利要求2所述的方法,其特征在于,所述获取所述多个样本自然语言文本,包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述以所述待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果之后,所述方法还包括:

8.一种数据处理装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述至少一个处理器加载并执行以实现如权利要求1-7任意一项所述的数据处理方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-7任意一项所述的数据处理方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标预测模型通过下述步骤训练获得:

3.根据权利要求2所述的方法,其特征在于,所述预设模型还包括文本处理网络,所述生成式预训练模型采用解码结构,所述以所述样本自然语言文本为输入,利用所述预设模型输出所述样本自然语言文本对应的预测结果,包括:

4.根据权利要求3所述的方法,其特征在于,所述生成式预训练模型包括向量转化层和文本预测层,所述利用所述生成式预训练模型对所述文本向量进行解码,得到所述样本自然语言文本对应的预测结果,包括:

5.根据权利要求2所述的方法,其特征在于,所述获取所述多个样本自然语言文本,包括:

6.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:骆顺昌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1