【技术实现步骤摘要】
一种数据可视化画法匹配装置及方法
[0001]本专利技术涉及一种数据可视化画法匹配装置及方法,尤其涉及一种结合图表解析算法和用户反馈的数据可视化画法匹配装置及方法。
技术介绍
[0002]商业智能系统(BI)提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。经过长期的发展,目前主流的BI产品分为传统BI、敏捷BI两大类,且业界的共识是BI下一步将向智能化方向发展。到2020年,自然语言生成和人工智能将成为绝大部分(90%)商业智能平台的标准功能,50%的分析查询将会通过搜索、自然语言处理、语音生成,甚至是自动生成。
[0003]数据可视化是BI的核心能力之一,将自然语言搜索查出的结构化数据(数据集)直接以可视化方式呈现,将是BI的核心技术之一。然而,可视化画法存在多样性,如何更智能、更精准地为用户搜索获得数据集匹配具体的可视化画法,则是当前的一个难题。目前,为自然语言搜索获得的数据集匹配可视化画法的方法主要有基于输入限制规则的画法匹配方法,该方法具体为:r/>[0004]步本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据可视化画法匹配装置,其特征在于,包括样本库和基于样本库匹配的画法匹配单元;样本库中的每一个样本包括第一数据集描述表以及与所述第一数据集描述表相对应的画法描述表;所述第一数据集描述表以表的形式记载了第一数据集的表结构信息;所述画法描述表以表的形式记载了与第一数据集表结构相匹配的画法;所述基于样本库匹配的画法匹配单元,根据输入的第二数据集描述表记载的表结构信息,将第二数据集的维度和指标描述信息与样本中第一数据集描述表中的维度和指标描述信息进行相似度对比,以筛选出与第二数据集表结构相似度最高的第一数据集,将所述相似度最高的第一数据集在所述样本中对应的画法作为第二数据集的匹配画法;所述第一数据集描述表和第二数据集描述表具有相同的结构,包括以下信息中的一项或多项:搜索语句、维度名称、维度类型、维度个数、指标名称、指标单位、指标个数、用户ID;其中,维度名称、维度类型、维度个数、指标名称、指标单位以及指标个数被称为数据集的维度和指标描述信息;所述画法描述表包括以下信息中的一项或多项,以描述匹配的画法:图表类型、X轴维度/指标、Y轴维度/指标、指标标识、颜色、行维度、列维度、数值格式。2.如权利要求1所述的数据可视化画法匹配装置,其特征在于,还包括基于机器学习模型的画法匹配单元和基于输入限制规则的画法匹配单元;所述基于机器学习模型的画法匹配单元,使用样本库中的样本进行训练后,具有依据输入的第二数据集描述表匹配出与第二数据集表结构相匹配的画法的能力;所述基于输入限制规则的画法匹配单元,根据输入的第二数据集描述表,结合各类图表的输入限制规则给出匹配画法;基于样本库匹配的画法匹配单元、基于机器学习模型的画法匹配单元以及基于输入限制规则的画法匹配单元,根据输入的第二数据集描述表,各自完成画法匹配过程。3.如权利要求1或者2所述的数据可视化画法匹配装置,其特征在于,还包括非结构化数据转化和图标解析单元,非结构化数据转化和图标解析单元先对非结构化数据进行图表解析,获得结构化数据,即获得数据集;然后根据数据集的维度和指标描述信息,形成第一数据集描述表,由第一数据集描述表和与第一数据集表结构相匹配的画法组成样本保存在样本库中。4.如权利要求3所述的数据可视化画法匹配装置,其特征在于,非结构化数据转化和图标解析单元通过RPA对作为外部学习素材的非结构化数据进行图表解析获得结构化数据,并根据数据集的维度和指标描述信息形成第一数据集描述表,从而持续累积样本,完成样本库的冷启动。5.如权利要求1或者2所述的数据可视化画法匹配装置,其特征在于,所述基于样本库匹配的画法匹配单元包括获取子单元、第一相似度比较子单元、第二相似度比较子单元、第三相似度比较子单元、第四相似度比较子单元、相同画法统计子单元、用户匹配子单元;获取子单元,获取第二数据集描述表记载的表结构信息;第一相似度比较子单元,用于在样本库中筛选出维度个数、维度类型以及指标个数均与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若在各样
本中没有筛选出与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则终止在该单元中的任务;第二相似度比较子单元,用于从第一相似度比较单元筛选出的样本中,进一步筛选出每个维度名称下的维度值个数与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若从第一相似度比较单元筛选出的样本中没有与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则取与第二数据集维度值个数最相近的第一数据集描述表所属的样本作为第二相似度比较子单元筛选出的样本;第三相似度比较子单元,用于从第二相似度比较单元筛选出的样本中,进一步筛选出指标名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若在各样本中没有筛选出指标名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则取指标单位一致且指标名称相似度最高的第一数据集描述表所属的样本;第四相似度比较子单元,用于从第三相似度比较单元筛选出的样本中,进一步筛选出维度名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;如果维度名称没有完全一致的,则取维度名称与第二数据集描述表所记载的对应信息相似度最高的第一数据集描述表所属的样本作为第四相似度比较子单元筛选出的样本;将筛选出的样本中所记载的画法作为第二数据集的匹配画法。相同画法统计子单元,如果第四相似度比较子单元筛选出的样本不止一个,即第四相似度比较子单元匹配的画法不止一个,则统计相同画法的数量,将数量最大的画法作为为最优匹配画法。用户匹配子单元,如果在第四相似度比较子单元筛选出的样本存在当前用户ID曾经使用过的样本,则将当前用户ID最近一次使用过的样本中的画法作为优选匹配画法。6.如权利要求1或者2所述的数据可视化画法匹配装置,其特征在于,在所述基于输入限制规则的画法匹配单元中,将以下一个或多个参数设置为用户可配置模式:柱状图/横条图-X轴最多容纳的维度值个数;柱状图/横条图/折线图/面积图-图例最多容纳的维度值或指标个数;堆积图-不同指标是否可以堆积;饼图-最多容纳的维度值个数;单值图-是否优先展示时间维度。7.如权利要求2所述的数据可视化画法匹配装置,其特征在于,还包括优先级确定单元,优先级确定单元对于画法匹配单元、基于输入限制规则的画法匹配单元以及基于样本库匹配的画法匹配单元各自匹配的画法,排重后按照预先设定的优先级确定最终的匹配画法提供给前端。8.如权利要求7所述的数据可视化画法匹配装置,其特征在于,在优先级确定单元预先设定的优先级为以下方式之一:基于机器学习模型的画法匹配单元匹配的画法>基于样本库匹配的画法匹配单元匹配的画法>基于输入限制规则的画法匹配单元匹配的画法;基于样本库匹配的画法匹配单元匹配的画法>基于机器学习模型的画法匹配单元匹配的画法>基于输入限制规则的画法匹配单元匹配的画法。
9.如权利要求1或者2所述的数据可视化画法匹...
【专利技术属性】
技术研发人员:余宙,杨永智,陈文佳,
申请(专利权)人:北京阿博茨科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。