【技术实现步骤摘要】
样本数据生成方法、装置、电子设备及存储介质
[0001]本公开涉及自然语言处理
,尤其涉及一种样本数据生成方法、装置、电子设备及存储介质。
技术介绍
[0002]在自然语言处理中,将自然语言转为结构化查询语言SQL语句(Natural Language to Structured Query Language,NL2SQL)是一项表格问答的核心技术,即,将自然语言问题转为数据库上可以执行的SQL查询语句。NL2SQL技术的输入为数据库表格和问句,输出为可执行性的SQL语句。近年来,随着深度学习技术的发展,通常聚焦于采用人工智能模型以解决NL2SQL技术中涉及的问题,包括:基于编码器
‑
解码器(Encoder
‑
Decoder,ED)结构的生成式模型。
[0003]由于人工智能模型的训练依赖大量的高质量的训练用样本数据,相关技术中通常使用基于规则的方法生成海量的样本数据。而基于规则的方法,是通过设置一系列固定规则,来为已知表格生成对应的SQL表达式,而后,根据规则语句模板生成与 ...
【技术保护点】
【技术特征摘要】
1.一种样本数据生成方法,其特征在于,所述方法包括:获取多个初始逻辑语句和初始规则,所述初始规则包括:参数符号和多种表达规则;根据所述多个初始逻辑语句,确定与所述多种表达规则分别对应的多种概率值,其中,所述概率值,描述所述参数符号转移至相应所述表达规则的概率;根据所述多种概率值对所述初始规则进行扩展处理,以得到目标规则;以及根据所述目标规则生成目标逻辑语句,所述目标逻辑语句被用于生成样本数据。2.如权利要求1所述的方法,其特征在于,所述根据所述多个初始逻辑语句,确定与所述多种表达规则分别对应的多种概率值,包括:确定与所述多种表达规则分别对应的多个第一次数,所述第一次数,指示在所述多个初始逻辑语句之中所述参数符号转移至相应所述表达规则的次数;确定与所述多种表达规则分别对应的多个第二次数,所述第二次数,指示在所述多个初始逻辑语句之中所述参数符号转移至其它表达规则的次数;将所述第一次数和对应所述第二次数的比值,作为所述相应表达规则的概率值。3.如权利要求1所述的方法,其特征在于,所述根据所述多种概率值对所述初始规则进行扩展处理,以得到目标规则,包括:从所述多种概率值中,确定大于概率阈值的目标概率值;确定与所述目标概率值对应的目标表达规则,和所述目标表达规则对应的目标参数符号;将所述目标参数符号、所述目标表达规则作为所述目标规则。4.如权利要求3所述的方法,其特征在于,所述根据所述目标规则生成目标逻辑语句,包括:根据所述目标参数符号和所述目标表达规则形成参考逻辑语句;确定与所述目标参数符号对应的多种可选符号值;采用所述多种可选符号值分别对所述参考逻辑语句进行扩展,以得到与所述多种可选符号值分别对应的多种目标逻辑语句。5.如权利要求4所述的方法,其特征在于,所述确定与所述目标参数符号对应的多种可选符号值,包括:获取数据库表格,所述数据库表格包括:多种列字段,和与所述列字段分别对应的多种列值;从所述数据库表格中,确定与所述目标参数符号匹配的目标列字段;将所述目标列字段对应的多种列值作为所述多种可选符号值。6.如权利要求1所述的方法,其特征在于,在所述根据所述目标规则生成目标逻辑语句之后,还包括:将所述目标逻辑语句输入至预训练的语句生成模型之中,以得到所述语句生成模型输出的与所述目标逻辑语句匹配的目标自然问句,其中,所述目标逻辑语句和所述目标自然问句被共同作为所述样本数据。7.一种样本数据生成装置,其特征在于,所述装置包括:获取模块,用于获取多个初始逻辑语句和初始规则,所述初始规则包括:参数符号和多种表达规则;
确定模块,用于根据所述多个初始逻辑语句,确定与所述多种表达...
【专利技术属性】
技术研发人员:刘瑞雪,袁韶祖,祝天刚,陈蒙,
申请(专利权)人:京东科技信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。