【技术实现步骤摘要】
一种针对数据可视大屏的查询文本解析方法
[0001]本专利技术涉及一种针对数据可视大屏的查询文本解析方法。
技术介绍
[0002]随着大量数据的出现,可视分析已被广泛地应用于许多数据分析场景中。可视化通过各种形式的生动图表促进数据分析,增强用户对于数据的理解能力。其中,数据可视大屏将同一表格数据的多种可视化形式进行整合,在一个大屏页面中同时显示多张图表,使得用户可以更全面地获取信息。
[0003]越来越多的研究人员和商业组织开发出了一些数据可视大屏生成工具。然而,这些工具和系统大多具有复杂的界面,对于非专业人士来说可能会难以上手使用。将自然语言接口(NLIs)应用于数据大屏可以帮助这些非专业人士进行数据探索,允许用户直接使用自然语言以提问的形式与数据可视大屏进行交互,获取目标信息,避免了与系统进行繁琐的交互操作。
[0004]因此,许多研究工作已经将NLIs应用到可视分析中。然而,这些工作中存在一个普遍问题,即自然语言的模糊性和不规范性。在应用自然语言接口的过程中,需要将高级的自然语言进行解析,得到目标信息,与数据相结合,转换为可以操作可视化图表的低级语言。此外,面对一张不熟悉的表格数据,用户往往只能提出一些不明确的、较为模糊的问题,例如“浙江省近期天气情况如何?”,天气情况包括温度、湿度、风力以及空气污染指数等,该问题涉及多个子问题,系统需要逐一回答。诸如上述这类复杂问题也需要进行处理以便于系统理解。
[0005]因此,如何更好地解析查询文本,充分准确地获取用户意图,为下一步可视化操作打下基 ...
【技术保护点】
【技术特征摘要】
1.一种针对数据可视大屏的查询文本解析方法,包括以下步骤:(1)问题分类;为了更加高效地解析文本,预先将查询问题分为低级问题和高级问题两个类别;低级问题即只包含一个分析任务的基础子问题;高级问题指语义模糊或较为复杂的查询,可以分解为两个及以上的低级子问题;高级问题需要先分解为低级问题,再进行解析;(2)分解高级问题;对于高级问题,使用机器学习方法进行分解;建立问题分解模型,使用现有的公开语料库进行充分训练,该语料库由基于数据表格的高级问题和其对应的两个低级问题组成;(2
‑
1)建立分解模型;问题分解模型基于基础的seq2seq模型,由编码器、解码器以及分解层组成;其中,编码器基于Transformer模型实现,确保全局特征的提取;分解层为全连接的前馈神经网络;解码器由循环神经网络RNN实现,确保了模型的序列特征提取能力,同时在解码器中增加自注意力机制,以增强输出文本间的联系;具体来说,输入查询问题Query,首先将其进行embedding,用向量v表示:v=embed(Query)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)向量v通过编码器进一步编码,得到输入文本Query的隐藏向量表示h:h=encode(v)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)分解层将h转换为两个隐藏向量和分解过程如下:其中,和两个参数是通过训练得到的权重;最后,解码器将和两个向量进行解码,得到分解完成的两个子问题q1和q2:Transformer编码器中的多头注意力机制不同于基础的注意力机制,它将用于表示词向量的key,value和query线性投影到不同的空间维度,分别进行attention计算,以保证捕捉文本中所有的空间信息,计算公式如下:MultiHead(Q,K,y)=Concat(head1,
…
,head
h
)W
O
ꢀꢀꢀꢀꢀꢀ
(5)head
i
=Attention(QW
iQ
,KW
iK
,VW
iV
)
ꢀꢀꢀꢀꢀꢀꢀ
(6)解码器RNN内部的自注意力机制探索的是输出序列内部的关系,计算的参数都是由序列内部提供,计算方式与注意力机制类似;从输入文本<X1,X2,X3,
…
,X
n
>产生隐藏状态向量<h1,h2,h3,
…
,h
n
>,通过注意力分数a
i
乘以输入的序列加权求和得到上下文向量c
i
,最后使用上下文向量和隐藏状态向量计算得到目标输出文本<Y1,Y2,Y3,
...
【专利技术属性】
技术研发人员:孙国道,董悦,江棨,常宝峰,王云超,汤井威,梁荣华,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。