表格问答数据处理及模型训练方法、电子设备及存储介质技术

技术编号:35294422 阅读:30 留言:0更新日期:2022-10-22 12:41
本申请实施例提供了一种表格问答数据处理及模型训练方法、电子设备及存储介质,其中,表格问答数据处理方法包括:获取自然语言查询语句对应的第一表征向量;基于问题

【技术实现步骤摘要】
表格问答数据处理及模型训练方法、电子设备及存储介质


[0001]本申请实施例涉及人工智能
,尤其涉及一种表格问答数据处理方法、一种表格问答数据模型训练方法,以及对应的电子设备及计算机存储介质。

技术介绍

[0002]由于数据结构清晰、易于维护,表格/SQL(Structured Query Language,结构化查询语言)数据库成为各行各业应用最普遍的结构化数据,也是智能对话系统和搜索引擎等的重要答案来源。传统表格查询需要专业技术人员撰写查询语句(如SQL语句)来完成,因门槛高,阻碍了表格查询的大规模应用。而表格问答技术(也称为TableQA)通过将自然语言直接转换为SQL语句,允许用户使用自然语言与表格或数据库直接交互,越来越被广泛使用。
[0003]一个表格问答系统主要由三部分组成,包括自然语言理解部分、对话管理部分和自然语言生成部分。其中,自然语言理解部分主要执行语义解析算法,将自然语言问题转为对应可执行的SQL语句;对话管理部分执行多轮的状态跟踪和策略优化;自然语言生成部分则根据解析出的SQL语句和SQL的执行结果生成对应的回复。
[0004]对于自然语言理解部分,目前业界较为通用的方案是先训练一个预训练模型,然后在该预训练模型的基础上,引入下游模型进行text

to

SQL任务微调。并且,在该任务微调过程中,通过一些人为定义的规则形成用于表征数据库模式数据中的模式项与自然语言查询语句中的分词的对应关系的模式链接图,以对模型训练进行引导,使得微调后的模型能够生成较为准确的SQL语句。但是,这种方式却无法捕捉到非规则的、语义关联较强的模式链接信息。例如,其无法找到自然语言问题中的“北京”与模式数据中的“首都”之间的关联关系。从而,导致最终获得的模型在将自然语言转换为SQL语句时,效果不佳。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种表格问答数据处理及其模型训练的方案,以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面,提供了一种表格问答数据处理方法,包括:获取自然语言查询语句对应的第一表征向量;基于问题

模式图获得所述第一表征向量对应的模式项向量,其中,所述问题

模式图用于表征自然语言查询语句中的分词与数据库模式项之间的关联关系,所述问题

模式图至少根据语义关联问题

模式子图预先生成,所述语义关联问题

模式子图为根据对自然语言查询语句样本和对应的数据库模式项数据样本进行掩码处理后获得的、两者之间的语义关联关系生成;基于所述第一表征向量和所述模式项向量获得第二表征向量,并基于所述第二表征向量转换生成对应的数据库查询语句。
[0007]根据本申请实施例的第二方面,提供了一种表格问答数据模型训练方法,包括:基于自然语言查询语句样本和所述自然语言查询语句样本对应的数据库模式项数据样本,生成拼接向量;将所述拼接向量输入所述表格问答数据模型的预训练模型部分,通过所述预训练模型部分对所述拼接向量中的、所述自然语言查询语句样本对应的分词向量进行掩
码,获得掩码向量;基于所述掩码向量进行掩码恢复处理,并根据掩码恢复处理后获得的掩码恢复向量与所述拼接向量之间的差异,确定所述模式项数据样本与所述分词向量对应的分词间的语义关联关系;通过所述表格问答数据模型的问题

模式图层,至少根据所述语义关联关系生成语义关联问题

模式子图;至少根据所述语义关联问题

模式子图和所述拼接向量,对所述表格问题数据模型进行训练。
[0008]根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面所述方法对应的操作。
[0009]根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的方法。
[0010]根据本申请实施例的第五方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如第一方面或第二方面所述方法对应的操作。
[0011]根据本申请实施例提供的方案,在确定自然语言查询语句对应的数据库模式项的模式项向量时,使用了基于语义关联问题

模式子图预先生成的问题

模式图,因语义关联问题

模式子图能够挖掘自然语言查询语句与数据库模式项之间的深层语义关联关系,因此,基于其生成的问题

模式图也可有效表征自然语言查询语句与数据库模式项之间的深层语义关联。由此,即使自然语言查询语句中的用词不够规则,也可准确确定出其对应的数据库模式项。与传统方式中通过人为定义的规则,依靠分词与模式项进行文字匹配生成的问题

模式图相比,本申请实施例中的问题

模式图能够对各种规则或非规则用词的自然语言查询语句进行处理,无需依赖人为定义的规则,既有效降低了模型实现成本,又可有效捕捉到非规则的、语义关联较强的模式链接信息,提高了表格问答数据处理模型将自然语言转换为数据库查询语句的准确度和效率。
附图说明
[0012]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0013]图1为适用本申请实施例方案的示例性系统的示意图;
[0014]图2A为根据本申请实施例一的一种表格问答数据模型训练方法的步骤流程图;
[0015]图2B为图2A所示实施例中的一种表格问答数据模型结构示意图;
[0016]图2C为图2A所示实施例中的一种语义关联关系的确定过程的示意图;
[0017]图3为根据本申请实施例二的一种表格问答数据处理方法的步骤流程图;
[0018]图4为根据本申请实施例三的一种电子设备的结构示意图。
具体实施方式
[0019]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实
施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0020]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0021]图1示出了一种适用本申请实施例方案的示例性系统。如图1所示,该系统100可以包括云服务端102、通信网络104和/本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格问答数据处理方法,包括:获取自然语言查询语句对应的第一表征向量;基于问题

模式图获得所述第一表征向量对应的模式项向量,其中,所述问题

模式图用于表征自然语言查询语句中的分词与数据库模式项之间的关联关系,所述问题

模式图至少根据语义关联问题

模式子图预先生成,所述语义关联问题

模式子图为根据对自然语言查询语句样本和对应的数据库模式项数据样本进行掩码处理后获得的、两者之间的语义关联关系生成;基于所述第一表征向量和所述模式项向量获得第二表征向量,并基于所述第二表征向量转换生成对应的数据库查询语句。2.根据权利要求1所述的方法,其中,所述问题

模式图根据语义关联问题

模式子图和关联匹配问题

模式子图的融合结果生成;所述关联匹配问题

模式子图为根据自然语言查询语句样本中的分词和对应的数据库模式数据样本中的模式项的相似度匹配结果生成;所述语义关联问题

模式子图和所述关联匹配问题

模式子图根据图中节点的节点信息进行融合,以生成所述问题

模式图。3.根据权利要求1或2所述的方法,其中,所述基于问题

模式图获得所述第一表征向量对应的模式项向量,包括:根据所述第一表征向量获得所述自然语言查询语句中的各分词对应的分词向量和各分词向量间的结构关系;根据各分词向量及各分词向量间的结构关系,查找所述问题

模式图,确定各分词向量在所述问题

模式图中对应的分词节点,和,所述各分词向量间的结构关系在所述问题模式图中对应的分词节点之间的边;在所述问题

模式图中,确定与所述分词节点和所述边关联的模式项节点和模式项节点之间的边;根据确定的所述模式项节点和模式项节点之间的边,获得所述第一表征向量对应的模式向量。4.根据权利要求1或2所述的方法,其中,所述基于所述第一表征向量和所述模式向量获得第二表征向量,并基于所述第二表征向量转换生成对应的数据库查询语句,包括:将所述第一表征向量和所述模式向量输入编码器,获得对应的第二表征向量;将所述第二表征向量输入解码器,获得对应的数据库查询语句。5.一种表格问答数据模型训练方法,包括:基于自然语言查询语句样本和所述自然语言查询语句样本对应的数据库模式项数据样本,生成拼接向量;将所述拼接向量输入所述表格问答数据模型的预训练模型部分,通过所述预训练模型部分对所述拼接向量中的、所述自然语言查询语句样本对应的分词向量进行掩码,获得掩码向量;基于所述掩码向量进行掩码恢复处理,并根据掩码恢复处理后获得的掩码恢复向量与所述拼接向量之间的差异,确定所述模式项数据样本与所述分词向量对应的分词间的语义关联关系;通过所述表格问答数据模型的问题

模式图层,至少根据所述语义关联关系生成语义
关联问题

模式子图;至少根据所述语义关联问题

模式子图和所述拼接向量,对所述表格问题数据模型进行训练。6.根据权利要求5所述的方法,其中,所述通过所述预训练模型部分对所述拼接向量中的、所述自然语言查询语句对应的分词向量进行掩码,获得掩码向量,包括...

【专利技术属性】
技术研发人员:惠彬原王李翰秦博文李博文黎槟华李永彬黄非杨敏
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1