【技术实现步骤摘要】
表格问答数据处理及模型训练方法、电子设备及存储介质
[0001]本申请实施例涉及人工智能
,尤其涉及一种表格问答数据处理方法、一种表格问答数据模型训练方法,以及对应的电子设备及计算机存储介质。
技术介绍
[0002]由于数据结构清晰、易于维护,表格/SQL(Structured Query Language,结构化查询语言)数据库成为各行各业应用最普遍的结构化数据,也是智能对话系统和搜索引擎等的重要答案来源。传统表格查询需要专业技术人员撰写查询语句(如SQL语句)来完成,因门槛高,阻碍了表格查询的大规模应用。而表格问答技术(也称为TableQA)通过将自然语言直接转换为SQL语句,允许用户使用自然语言与表格或数据库直接交互,越来越被广泛使用。
[0003]一个表格问答系统主要由三部分组成,包括自然语言理解部分、对话管理部分和自然语言生成部分。其中,自然语言理解部分主要执行语义解析算法,将自然语言问题转为对应可执行的SQL语句;对话管理部分执行多轮的状态跟踪和策略优化;自然语言生成部分则根据解析出的SQL语句和SQL的执行结果生成对应的回复。
[0004]对于自然语言理解部分,目前业界较为通用的方案是先训练一个预训练模型,然后在该预训练模型的基础上,引入下游模型进行text
‑
to
‑
SQL任务微调。并且,在该任务微调过程中,通过一些人为定义的规则形成用于表征数据库模式数据中的模式项与自然语言查询语句中的分词的对应关系的模式链接图,以对模型训练进行引导,使得微调 ...
【技术保护点】
【技术特征摘要】
1.一种表格问答数据处理方法,包括:获取自然语言查询语句对应的第一表征向量;基于问题
‑
模式图获得所述第一表征向量对应的模式项向量,其中,所述问题
‑
模式图用于表征自然语言查询语句中的分词与数据库模式项之间的关联关系,所述问题
‑
模式图至少根据语义关联问题
‑
模式子图预先生成,所述语义关联问题
‑
模式子图为根据对自然语言查询语句样本和对应的数据库模式项数据样本进行掩码处理后获得的、两者之间的语义关联关系生成;基于所述第一表征向量和所述模式项向量获得第二表征向量,并基于所述第二表征向量转换生成对应的数据库查询语句。2.根据权利要求1所述的方法,其中,所述问题
‑
模式图根据语义关联问题
‑
模式子图和关联匹配问题
‑
模式子图的融合结果生成;所述关联匹配问题
‑
模式子图为根据自然语言查询语句样本中的分词和对应的数据库模式数据样本中的模式项的相似度匹配结果生成;所述语义关联问题
‑
模式子图和所述关联匹配问题
‑
模式子图根据图中节点的节点信息进行融合,以生成所述问题
‑
模式图。3.根据权利要求1或2所述的方法,其中,所述基于问题
‑
模式图获得所述第一表征向量对应的模式项向量,包括:根据所述第一表征向量获得所述自然语言查询语句中的各分词对应的分词向量和各分词向量间的结构关系;根据各分词向量及各分词向量间的结构关系,查找所述问题
‑
模式图,确定各分词向量在所述问题
‑
模式图中对应的分词节点,和,所述各分词向量间的结构关系在所述问题模式图中对应的分词节点之间的边;在所述问题
‑
模式图中,确定与所述分词节点和所述边关联的模式项节点和模式项节点之间的边;根据确定的所述模式项节点和模式项节点之间的边,获得所述第一表征向量对应的模式向量。4.根据权利要求1或2所述的方法,其中,所述基于所述第一表征向量和所述模式向量获得第二表征向量,并基于所述第二表征向量转换生成对应的数据库查询语句,包括:将所述第一表征向量和所述模式向量输入编码器,获得对应的第二表征向量;将所述第二表征向量输入解码器,获得对应的数据库查询语句。5.一种表格问答数据模型训练方法,包括:基于自然语言查询语句样本和所述自然语言查询语句样本对应的数据库模式项数据样本,生成拼接向量;将所述拼接向量输入所述表格问答数据模型的预训练模型部分,通过所述预训练模型部分对所述拼接向量中的、所述自然语言查询语句样本对应的分词向量进行掩码,获得掩码向量;基于所述掩码向量进行掩码恢复处理,并根据掩码恢复处理后获得的掩码恢复向量与所述拼接向量之间的差异,确定所述模式项数据样本与所述分词向量对应的分词间的语义关联关系;通过所述表格问答数据模型的问题
‑
模式图层,至少根据所述语义关联关系生成语义
关联问题
‑
模式子图;至少根据所述语义关联问题
‑
模式子图和所述拼接向量,对所述表格问题数据模型进行训练。6.根据权利要求5所述的方法,其中,所述通过所述预训练模型部分对所述拼接向量中的、所述自然语言查询语句对应的分词向量进行掩码,获得掩码向量,包括...
【专利技术属性】
技术研发人员:惠彬原,王李翰,秦博文,李博文,黎槟华,李永彬,黄非,杨敏,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。