一种针对数据可视大屏的查询文本解析方法技术

技术编号:38270398 阅读:9 留言:0更新日期:2023-07-27 10:25
一种针对数据可视大屏的查询文本解析方法,它帮助系统解析用户的查询文本,以捕获查询意图,有效解决了在数字可视大屏交互中用户输入自然语言的模糊性和不规范性问题。首先根据数据可视大屏和问题文本自身的特点,将查询问题分为高级问题和低级问题。对于高级问题,建立恰当的问题分解模型,使用现有数据集进行充分训练,将其分解为低级问题,再进行意图解析。对于低级问题,使用依赖解析器,预先定义提取规则和模板,解析得到查询意图。本发明专利技术提出的文本解析方法,提升了数字可视大屏中自然语言交互的用户体验,帮助用户更加便捷地探索和分析表格数据。分析表格数据。分析表格数据。

【技术实现步骤摘要】
一种针对数据可视大屏的查询文本解析方法


[0001]本专利技术涉及一种针对数据可视大屏的查询文本解析方法。

技术介绍

[0002]随着大量数据的出现,可视分析已被广泛地应用于许多数据分析场景中。可视化通过各种形式的生动图表促进数据分析,增强用户对于数据的理解能力。其中,数据可视大屏将同一表格数据的多种可视化形式进行整合,在一个大屏页面中同时显示多张图表,使得用户可以更全面地获取信息。
[0003]越来越多的研究人员和商业组织开发出了一些数据可视大屏生成工具。然而,这些工具和系统大多具有复杂的界面,对于非专业人士来说可能会难以上手使用。将自然语言接口(NLIs)应用于数据大屏可以帮助这些非专业人士进行数据探索,允许用户直接使用自然语言以提问的形式与数据可视大屏进行交互,获取目标信息,避免了与系统进行繁琐的交互操作。
[0004]因此,许多研究工作已经将NLIs应用到可视分析中。然而,这些工作中存在一个普遍问题,即自然语言的模糊性和不规范性。在应用自然语言接口的过程中,需要将高级的自然语言进行解析,得到目标信息,与数据相结合,转换为可以操作可视化图表的低级语言。此外,面对一张不熟悉的表格数据,用户往往只能提出一些不明确的、较为模糊的问题,例如“浙江省近期天气情况如何?”,天气情况包括温度、湿度、风力以及空气污染指数等,该问题涉及多个子问题,系统需要逐一回答。诸如上述这类复杂问题也需要进行处理以便于系统理解。
[0005]因此,如何更好地解析查询文本,充分准确地获取用户意图,为下一步可视化操作打下基础,仍然是一个巨大的挑战。

技术实现思路

[0006]为了克服现有技术的不足,本专利技术提出了一种基于规则和机器学习混合的文本解析方法,来获取针对数据可视大屏的自然语言查询中的用户意图。本专利技术将查询问题分为两类:可以直接解析出意图的低级问题,以及需要进行分解的高级问题。对于简单的低级查询问题,使用依赖解析器,预先定义提取规则和模板,以获取查询意图。对于复杂的高级查询问题,使用机器学习方法进行分解,基于现有语料库,对增加了两种注意力机制的seq2seq模型进行训练,将高级问题分解为低级问题后再进行意图提取。
[0007]为了解决上述技术问题,本专利技术提供如下的技术方案:
[0008]一种针对数据可视大屏的查询文本解析方法,包括以下步骤:
[0009](1)问题分类;为了更加高效地解析文本,预先将查询问题分为低级问题和高级问题两个类别;低级问题即只包含一个分析任务的基础子问题;高级问题指语义模糊或较为复杂的查询,可以分解为两个及以上的低级子问题;高级问题需要先分解为低级问题,再进行解析;
[0010](2)分解高级问题;对于高级问题,使用机器学习方法进行分解;建立问题分解模型,使用现有的公开语料库进行充分训练,该语料库由基于数据表格的高级问题和其对应的两个低级问题组成;
[0011](2

1)建立分解模型;本专利技术的问题分解模型基于基础的seq2seq模型,主要由编码器、解码器以及分解层组成;其中,编码器基于Transformer模型实现,确保全局特征的提取;分解层为全连接的前馈神经网络;解码器由循环神经网络RNN实现,确保了模型的序列特征提取能力,同时在解码器中增加自注意力机制,以增强输出文本间的联系;
[0012]具体来说,输入查询问题Query,首先将其进行embedding,用向量v表示:
[0013]v=embed(Query)
ꢀꢀ
(1)
[0014]向量v通过编码器进一步编码,得到输入文本Query的隐藏向量表示h:
[0015]h=encode(v)
ꢀꢀ
(2)
[0016]分解层将h转换为两个隐藏向量和分解过程如下:
[0017][0018]其中,和两个参数是通过训练得到的权重;
[0019]最后,解码器将和两个向量进行解码,得到分解完成的两个子问题q1和q2:
[0020][0021]Transformer编码器中的多头注意力机制不同于基础的注意力机制,它将用于表示词向量的key,value和query线性投影到不同的空间维度,分别进行attention计算,以保证捕捉文本中所有的空间信息,计算公式如下:
[0022]MultiHead(Q,K,V)=Concat(head1,...,head
h
)W
O
ꢀꢀ
(5)
[0023]head
i
=Attention(QW
iQ
,KW
iK
,yW
iV
)
ꢀꢀ
(6)
[0024]解码器RNN内部的自注意力机制探索的是输出序列内部的关系,计算的参数都是由序列内部提供,计算方式与注意力机制类似;从输入文本<X1,X2,X3,...,X
n
>产生隐藏状态向量<h1,h2,h3,...,h
n
>,通过注意力分数a
i
乘以输入的序列加权求和得到上下文向量c
i
,最后使用上下文向量和隐藏状态向量计算得到目标输出文本<Y1,Y2,Y3,...,Y
m
>;计算公式如下:
[0025][0026][0027]其中,c
i
表示上下文向量;权重a
i
表示注意力分数,通过计算当前解码的序列向量之间的相似度得到;h
i
是隐藏状态向量;序列中的每一个词都可以用K,V,Q矩阵进行表示,对于同一序列内的attention计算,k,v,q指向的都是同一个词;d表示q和v之间的距离;
[0028](2

2)训练分解模型;使用现有的语料库对上述模型进行充分训练,得到模型中的各项参数权重,并不断进行优化,最后在新的输入数据上进行测试;
[0029](3)解析低级问题;对于由高级问题分解得到的低级子问题,应用一系列NLP技术来进行解析,提取出查询意图信息,如任务类型、值、属性和过滤设置等;
[0030](3

1)分词和词性标注;对输入的查询进行分词处理,之后使用Stanford的CoreNLP工具包每个词的进行词性的识别;
[0031](3

2)移除停用词和生成N元组;删除所有除介词之外的停用词,并生成N元组,N元组中包含查询语句中所有可能作为关键词的短语;
[0032](3

3)实体识别;通过计算N元组和属性、值和任务之间的语义相似性,来确定该N元组是否与数据集和属性相关,同时结合余弦语法相似性和W
u

Palm
e
r语义相似性来确定短语中是存在特殊意义;其中,Simcos(i,j)表示N元组i和标记实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对数据可视大屏的查询文本解析方法,包括以下步骤:(1)问题分类;为了更加高效地解析文本,预先将查询问题分为低级问题和高级问题两个类别;低级问题即只包含一个分析任务的基础子问题;高级问题指语义模糊或较为复杂的查询,可以分解为两个及以上的低级子问题;高级问题需要先分解为低级问题,再进行解析;(2)分解高级问题;对于高级问题,使用机器学习方法进行分解;建立问题分解模型,使用现有的公开语料库进行充分训练,该语料库由基于数据表格的高级问题和其对应的两个低级问题组成;(2

1)建立分解模型;问题分解模型基于基础的seq2seq模型,由编码器、解码器以及分解层组成;其中,编码器基于Transformer模型实现,确保全局特征的提取;分解层为全连接的前馈神经网络;解码器由循环神经网络RNN实现,确保了模型的序列特征提取能力,同时在解码器中增加自注意力机制,以增强输出文本间的联系;具体来说,输入查询问题Query,首先将其进行embedding,用向量v表示:v=embed(Query)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)向量v通过编码器进一步编码,得到输入文本Query的隐藏向量表示h:h=encode(v)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)分解层将h转换为两个隐藏向量和分解过程如下:其中,和两个参数是通过训练得到的权重;最后,解码器将和两个向量进行解码,得到分解完成的两个子问题q1和q2:Transformer编码器中的多头注意力机制不同于基础的注意力机制,它将用于表示词向量的key,value和query线性投影到不同的空间维度,分别进行attention计算,以保证捕捉文本中所有的空间信息,计算公式如下:MultiHead(Q,K,y)=Concat(head1,

,head
h
)W
O
ꢀꢀꢀꢀꢀꢀ
(5)head
i
=Attention(QW
iQ
,KW
iK
,VW
iV
)
ꢀꢀꢀꢀꢀꢀꢀ
(6)解码器RNN内部的自注意力机制探索的是输出序列内部的关系,计算的参数都是由序列内部提供,计算方式与注意力机制类似;从输入文本<X1,X2,X3,

,X
n
>产生隐藏状态向量<h1,h2,h3,

,h
n
>,通过注意力分数a
i
乘以输入的序列加权求和得到上下文向量c
i
,最后使用上下文向量和隐藏状态向量计算得到目标输出文本<Y1,Y2,Y3,
...

【专利技术属性】
技术研发人员:孙国道董悦江棨常宝峰王云超汤井威梁荣华
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1