【技术实现步骤摘要】
一种交互式NL2SQL模型的可视理解与诊断方法
本专利技术涉及一种交互式NL2SQL模型的可视理解与诊断方法。
技术介绍
机器学习模型的外部数据隐含了跟模型相关的语义信息,但由于模型所使用的深度学习网络的复杂性,产生的大量的中间数据并不能直接用于模型解释分析。而且模型中间数据的数据量比较大、维度高、特征多,很难进行可视化。但是目前现有的基于神经网络的NL2SQL模型主要关注模型内部结构的优化,而很少考虑模型输入输出以及中间数据和模型结果之间的关联,这导致机器学习网络内部的运行机理并没有完善的解释,主要还存在以下几点挑战:①、自然语言模型找那个存在大量的自然语言语义信息,在可视化表达和快速发现人类可以理解的规律上比较困难。②、自然语言模型的中间结果存在维度高、特征多等不容易被人类理解的特点,模型的外部数据和模型结果的关联不容易分析,对交互式可视分析也带来了很大的挑战。因此,帮助研究人员理解模型仍然是一个主要的难点。
技术实现思路
为了克服现有技术的不足,本专利技术通过原始数据和模型分析方法获得中间数据,并设计一种交互式NL2SQL模型的可视理解与诊断方法,帮助理解本专利技术的NL2SQL模型中数据存在的内在关系,并且提出一套可视分析系统帮助用户探索和分析NL2SQL模型,通过统计视图,投影视图以及细节视图从模型输入数据、中间数据和模型输出数据三个角度对模型进行深入探索。为了解决上述技术问题,本专利技术提供如下的技术方案:一种交互式NL2SQL模型的可视理解与诊断方法,包括以下步骤:< ...
【技术保护点】
1.一种交互式NL2SQL模型的可视理解与诊断方法,其特征在于,所述方法包括以下步骤:/n1)NL2SQL模型数据抽取;将原始数据输入NL2SQL模型中,获得训练后的数据,和模型训练中的打分数据;/n2)WikiSQL数据特征提取;模型对输入数据的响应被认为是影响模型判断的主要因素,所以首先要对这些模型的输入问句进行特征分析,第一步根据问句的疑问词来进行分类,此外,数据的特征还包括问题的语法是否正常,问题是否包含非英语文本,句子是否包含模糊的问题;所以为了分析这些问题,分析句子的语义信息和句法结构是很重要的;由于WikiSQL数据集是从维基百科词条中派生出来的,而由斯坦福coreNLP工具提供的静态模型训练数据也来自维基百科,因此使用这个模型来提取句子依赖的语法和语义分析;/n先利用核函数将数据集的各个维度特征映射到高维核空间,并对数据集的每个维度在高维核空间中进行线性特征选择,从而实现低维中的非线性特征选择;研究了树核函数的相关方法,使用kelp库生成输入问题的树结构,并将其映射到高维特征空间,并利用子树核函数提取输入句子之间的语义相似性特征;/n使用子树核函数核计算树上的相似度,通 ...
【技术特征摘要】
1.一种交互式NL2SQL模型的可视理解与诊断方法,其特征在于,所述方法包括以下步骤:
1)NL2SQL模型数据抽取;将原始数据输入NL2SQL模型中,获得训练后的数据,和模型训练中的打分数据;
2)WikiSQL数据特征提取;模型对输入数据的响应被认为是影响模型判断的主要因素,所以首先要对这些模型的输入问句进行特征分析,第一步根据问句的疑问词来进行分类,此外,数据的特征还包括问题的语法是否正常,问题是否包含非英语文本,句子是否包含模糊的问题;所以为了分析这些问题,分析句子的语义信息和句法结构是很重要的;由于WikiSQL数据集是从维基百科词条中派生出来的,而由斯坦福coreNLP工具提供的静态模型训练数据也来自维基百科,因此使用这个模型来提取句子依赖的语法和语义分析;
先利用核函数将数据集的各个维度特征映射到高维核空间,并对数据集的每个维度在高维核空间中进行线性特征选择,从而实现低维中的非线性特征选择;研究了树核函数的相关方法,使用kelp库生成输入问题的树结构,并将其映射到高维特征空间,并利用子树核函数提取输入句子之间的语义相似性特征;
使用子树核函数核计算树上的相似度,通过迭代比较三元组G=(V,E,L)和G′=(V′,E′,L′)中的所有节点对,从而比较它们的邻域,邻域越接近说明两个句子的结构越相似,子树核函数的计算过程如公式(1)所示;
其中,V是句法树顶点的集合,E是句法树边的数目,L是分配从句法树到标签的函数,v和v′都是句法树节点的特征向量,kh是v和v′的加权函数,所以实质上就是迭代地比较G和G′上所有节点v和v′之间的距离,从而得到两个句法树邻域,可以看到句法树之间的相似度;
3)NL2SQL模型的可视分析;在通过以上步骤完成输入数据特征提取以及模型训练中的打分数据以后,通过不同组件对模型的外部数据和模型结果进行探索;分析过程如下:
(3-1)提供初步探索的统计视图
对于数据的展示,采用了环形图作为静态数据的统计视图,首先使用SQLNet模型训练这些数据,生成对应的SQL查询数据,对原始数据和对应的SQL查询数据进行数学统计,并在统计视图上进行展示;
(3-2)提供详细信息和探索的降维投影视图
该视图是基于颜色和纹理叠加的投影,使用MDS投影算法,用户可以通过降维后的可视化表达式发现不同wh-words类别之间的分布以及NL2SQL模型的预测结果,在这个视图中,展示了不同数据的不同降维特性的五种降维表达式,这些特征包括子树核的相似性、模型内部的高维数据、模型各子任务的预测数据以及模型输入数据中疑问词的分布;用户可以通过多视图交互协...
【专利技术属性】
技术研发人员:孙国道,叶祺,汤井威,徐超清,梁浩然,徐斌伟,梁荣华,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。