一种交互式NL2SQL模型的可视理解与诊断方法技术

技术编号:25948532 阅读:51 留言:0更新日期:2020-10-17 03:40
一种交互式NL2SQL模型的可视理解与诊断方法,包括以下步骤:1)NL2SQL模型数据抽取;2)WikiSQL数据特征提取;3)NL2SQL模型的可视分析:(3‑1)提供初步探索的统计视图;(3‑2)提供详细信息和探索的降维投影视图;(3‑3)展示模型内部得分和原始问句的细节视图;(3‑4)提供参数选择和过滤的控制面板视图;4)基于数据特征提取的模型的视觉诊断。本发明专利技术通过模型分析,融合了特征提取和多维度探索的方法,设计一套交互式可视化分析系统,允许用户交互式探索NL2SQL模型、中间得分数据和模型输入输出数据之间的内在关系,并用WikiSQL数据集进行实证研究来分析系统的有效性和效率。

【技术实现步骤摘要】
一种交互式NL2SQL模型的可视理解与诊断方法
本专利技术涉及一种交互式NL2SQL模型的可视理解与诊断方法。
技术介绍
机器学习模型的外部数据隐含了跟模型相关的语义信息,但由于模型所使用的深度学习网络的复杂性,产生的大量的中间数据并不能直接用于模型解释分析。而且模型中间数据的数据量比较大、维度高、特征多,很难进行可视化。但是目前现有的基于神经网络的NL2SQL模型主要关注模型内部结构的优化,而很少考虑模型输入输出以及中间数据和模型结果之间的关联,这导致机器学习网络内部的运行机理并没有完善的解释,主要还存在以下几点挑战:①、自然语言模型找那个存在大量的自然语言语义信息,在可视化表达和快速发现人类可以理解的规律上比较困难。②、自然语言模型的中间结果存在维度高、特征多等不容易被人类理解的特点,模型的外部数据和模型结果的关联不容易分析,对交互式可视分析也带来了很大的挑战。因此,帮助研究人员理解模型仍然是一个主要的难点。
技术实现思路
为了克服现有技术的不足,本专利技术通过原始数据和模型分析方法获得中间数据,并设计一种交互式NL2SQL模型的可视理解与诊断方法,帮助理解本专利技术的NL2SQL模型中数据存在的内在关系,并且提出一套可视分析系统帮助用户探索和分析NL2SQL模型,通过统计视图,投影视图以及细节视图从模型输入数据、中间数据和模型输出数据三个角度对模型进行深入探索。为了解决上述技术问题,本专利技术提供如下的技术方案:一种交互式NL2SQL模型的可视理解与诊断方法,包括以下步骤:<br>1)NL2SQL模型数据抽取;将原始数据输入NL2SQL模型中,获得训练后的数据,和模型训练中的打分数据;2)WikiSQL数据特征提取;模型对输入数据的响应被认为是影响模型判断的主要因素,所以首先要对这些模型的输入问句进行特征分析,第一步根据问句的疑问词来进行分类,如what,why,when,where,which,how等,这里称其为wh-words。此外,数据的特征还包括问题的语法是否正常,问题是否包含非英语文本,句子是否包含模糊的问题;所以为了分析这些问题,分析句子的语义信息和句法结构是很重要的;由于WikiSQL数据集是从维基百科词条中派生出来的,而由斯坦福coreNLP工具提供的静态模型训练数据也来自维基百科,因此使用这个模型来提取句子依赖的语法和语义分析;因为高维特征数据的特征分析往往会陷入维度灾难,所以借鉴了自然语言处理、图形处理的经验,并将句法树结构进行扩展,而将句法核函数扩展到WikiSQL数据集目前还没有这方面的尝试;先利用核函数将数据集的各个维度特征映射到高维核空间,并对数据集的每个维度在高维核空间中进行线性特征选择,从而实现低维中的非线性特征选择;研究了树核函数的相关方法,使用kelp库生成输入问题的树结构,并将其映射到高维特征空间,并利用子树核函数提取输入句子之间的语义相似性特征;子树核函数:在自然语言处理中,通常需要比较树结构的相似性。通常可以通过计算树的特征向量的点积来执行这种比较,但是这些向量往往非常大,因为两个单词的简单依赖关系有着数以百万计的向量编码特征,所以一般使用子树核函数核计算树上的相似度,而无需显式计算这些树的特征向量,这里通过迭代比较三元组G=(V,E,L)和G′=(V′,E′,L′)中的所有节点对,从而比较它们的邻域,邻域越接近说明两个句子的结构越相似,子树核函数的计算过程如公式(1)所示;其中,V是句法树顶点的集合,E是句法树边的数目,L是分配从句法树到标签的函数,v和v′都是句法树节点的特征向量,kh是v和v′的加权函数,所以实质上就是迭代地比较G和G′上所有节点v和v′之间的距离,可以看到句法树之间的相似度;3)NL2SQL模型的可视分析;在通过以上步骤完成输入数据特征提取以及模型训练中的打分数据以后,通过系统提供的不同组件对模型的外部数据和模型结果进行探索;分析过程如下:(3-1)提供初步探索的统计视图对于数据的展示,采用了环形图作为静态数据的统计视图,首先使用SQLNet模型训练这些数据,生成对应的SQL查询数据,对原始数据和对应的SQL查询数据进行数学统计,并在统计视图上进行展示;(3-2)提供详细信息和探索的降维投影视图该视图是基于颜色和纹理叠加的投影,使用MDS投影算法,用户可以通过降维后的可视化表达式发现不同wh-words类别之间的分布以及NL2SQL模型的预测结果,在这个视图中,展示了不同数据的不同降维特性的五种降维表达式,这些特征包括子树核的相似性、模型内部的高维数据、模型各子任务的预测数据以及模型输入数据中疑问词的分布;用户可以通过多视图交互协作来探索具有不同特征维度的模型的输出,由于提取了模型数据的语义特征和内部相关属性,所以在考虑投影降维时显示更多的数据信息,同时避免数据叠加造成的视觉杂乱;(3-3)展示模型内部得分和原始问句的细节视图视图分为两个部分,下半部分是平行坐标视图,上半部分是原始问句视图,在平行坐标视图中,每个折线对应投影视图中每个数据在模型训练过程中的得分信息和SQL查询的错误信息,包括聚合操作符预测得分、选择列预测得分、whereclause的列预测得分等,用户可以在每个坐标上通过笔刷选择一个属性值在一定范围内的特定序列,并深色显示画笔选择的折线,其他的折线是浅灰色的仍然作为背景;原始问句视图中,显示的是被框选的数据的原始问句,问句的颜色代表问句的wh-words类型,问句前面的三角符号代表模型预测结果的正误,用平行坐标视图和原始问句视图展现NL2SQL数据集之间的关联的工作目前还未有类似的相关工作;(3-4)提供参数选择和过滤的控制面板视图该视图为用户提供了数据集过滤和特征搜索的所有功能,包括可扩展的导入数据的数量和特定数据集,wh-words标签的选择和过滤,每个类别投影的权重设置,单一类型数据的过滤;在这个视图中,支持用户选择不同的类别对数据进行特征分析;4)基于数据特征提取的模型的视觉诊断。进一步,所述步骤4)中,通过对输入输出数据的特征来分析模型各方面的特点,来验证方法的有效性;首先通过子树核的降维视图,可以发现基于语义核函数提取的句子相似度降低了,可以看出数据处于局部聚集模式,相同类别的预测,正确的数据是部分聚合的;平行坐标系统分析是由于聚合操作符预测得分较低,此外,还可以从发现,由于句法相似聚合,相同的错误句子往往会聚集在一起,尽管它们的wh-words类型并不相同;为了进一步区分输入数据的降维分布,使用滑块进行分析;如果想减少某些语义信息对降维的影响,可以降低子树核比率。通过增加子任务的真或假数据率,降维视图更清晰,通过纹理和颜色的叠加,可以更清晰地找到相同类别和相同错误类型之间的特征分布。可视化分析系统通过探索模型输出输出数据之间的特征,为模型内部的可解释提供了一个新的视角。再进一步,所述(3-1)中,6个圆环表示6中不同的问题类型,红色表示该种问题类型的数据正确预测的数量,黑色代表此类数据本文档来自技高网...

【技术保护点】
1.一种交互式NL2SQL模型的可视理解与诊断方法,其特征在于,所述方法包括以下步骤:/n1)NL2SQL模型数据抽取;将原始数据输入NL2SQL模型中,获得训练后的数据,和模型训练中的打分数据;/n2)WikiSQL数据特征提取;模型对输入数据的响应被认为是影响模型判断的主要因素,所以首先要对这些模型的输入问句进行特征分析,第一步根据问句的疑问词来进行分类,此外,数据的特征还包括问题的语法是否正常,问题是否包含非英语文本,句子是否包含模糊的问题;所以为了分析这些问题,分析句子的语义信息和句法结构是很重要的;由于WikiSQL数据集是从维基百科词条中派生出来的,而由斯坦福coreNLP工具提供的静态模型训练数据也来自维基百科,因此使用这个模型来提取句子依赖的语法和语义分析;/n先利用核函数将数据集的各个维度特征映射到高维核空间,并对数据集的每个维度在高维核空间中进行线性特征选择,从而实现低维中的非线性特征选择;研究了树核函数的相关方法,使用kelp库生成输入问题的树结构,并将其映射到高维特征空间,并利用子树核函数提取输入句子之间的语义相似性特征;/n使用子树核函数核计算树上的相似度,通过迭代比较三元组G=(V,E,L)和G′=(V′,E′,L′)中的所有节点对,从而比较它们的邻域,邻域越接近说明两个句子的结构越相似,子树核函数的计算过程如公式(1)所示;/n...

【技术特征摘要】
1.一种交互式NL2SQL模型的可视理解与诊断方法,其特征在于,所述方法包括以下步骤:
1)NL2SQL模型数据抽取;将原始数据输入NL2SQL模型中,获得训练后的数据,和模型训练中的打分数据;
2)WikiSQL数据特征提取;模型对输入数据的响应被认为是影响模型判断的主要因素,所以首先要对这些模型的输入问句进行特征分析,第一步根据问句的疑问词来进行分类,此外,数据的特征还包括问题的语法是否正常,问题是否包含非英语文本,句子是否包含模糊的问题;所以为了分析这些问题,分析句子的语义信息和句法结构是很重要的;由于WikiSQL数据集是从维基百科词条中派生出来的,而由斯坦福coreNLP工具提供的静态模型训练数据也来自维基百科,因此使用这个模型来提取句子依赖的语法和语义分析;
先利用核函数将数据集的各个维度特征映射到高维核空间,并对数据集的每个维度在高维核空间中进行线性特征选择,从而实现低维中的非线性特征选择;研究了树核函数的相关方法,使用kelp库生成输入问题的树结构,并将其映射到高维特征空间,并利用子树核函数提取输入句子之间的语义相似性特征;
使用子树核函数核计算树上的相似度,通过迭代比较三元组G=(V,E,L)和G′=(V′,E′,L′)中的所有节点对,从而比较它们的邻域,邻域越接近说明两个句子的结构越相似,子树核函数的计算过程如公式(1)所示;



其中,V是句法树顶点的集合,E是句法树边的数目,L是分配从句法树到标签的函数,v和v′都是句法树节点的特征向量,kh是v和v′的加权函数,所以实质上就是迭代地比较G和G′上所有节点v和v′之间的距离,从而得到两个句法树邻域,可以看到句法树之间的相似度;
3)NL2SQL模型的可视分析;在通过以上步骤完成输入数据特征提取以及模型训练中的打分数据以后,通过不同组件对模型的外部数据和模型结果进行探索;分析过程如下:
(3-1)提供初步探索的统计视图
对于数据的展示,采用了环形图作为静态数据的统计视图,首先使用SQLNet模型训练这些数据,生成对应的SQL查询数据,对原始数据和对应的SQL查询数据进行数学统计,并在统计视图上进行展示;
(3-2)提供详细信息和探索的降维投影视图
该视图是基于颜色和纹理叠加的投影,使用MDS投影算法,用户可以通过降维后的可视化表达式发现不同wh-words类别之间的分布以及NL2SQL模型的预测结果,在这个视图中,展示了不同数据的不同降维特性的五种降维表达式,这些特征包括子树核的相似性、模型内部的高维数据、模型各子任务的预测数据以及模型输入数据中疑问词的分布;用户可以通过多视图交互协...

【专利技术属性】
技术研发人员:孙国道叶祺汤井威徐超清梁浩然徐斌伟梁荣华
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1