当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于用户任务的动态可视化推荐方法技术

技术编号:37763923 阅读:16 留言:0更新日期:2023-06-06 13:21
本发明专利技术公开了一种基于用户任务的动态可视化推荐方法,基于用户探索数据过程中分析得到的任务和偏好数据,设计并实现能随用户探索过程动态变化的、具有交互能力的可视化推荐模型;首先通过对数据特征和操作序列的分析,生成数据事实、分析任务事实和字段偏好事实,然后使用这些事实指导生成推荐的可视化供用户选择。本发明专利技术不仅可以将用户的任务和字段偏好融入推荐过程,还支持用户对任务和字段偏好的交互式指派,并可以基于用户分析过程在线学习,不断改进模型效果,能够帮助数据分析人员快速分析数据并创建多视图可视化面板,进而提升数据分析和展示效率。升数据分析和展示效率。升数据分析和展示效率。

【技术实现步骤摘要】
一种基于用户任务的动态可视化推荐方法


[0001]本专利技术涉及信息可视化与可视分析
,具体为一种基于用户任务的动态可视化推荐方法。

技术介绍

[0002]近年来,随着可视化和可视分析技术的应用日趋广泛,人们对可视化工具的需求也与日俱增。对于经验丰富的可视化专家,设计和使用可视化的流程通常是:明确可视分析任务、进行数据分析和处理、设计/选择可视化方案、定义可视化视觉映射。然而,这对普通用户来说并非易事。用户通常可以明确分析任务,但无法确定应该使用何种数据分析方法,更难根据数据的特点确定可视化方案。研究人员基于自身经验,设计了许多可视化设计准则,但这些准则使用复杂且高度经验化,难以推广。
[0003]自动可视化方法为上述问题提供了解决思路:通过数据与经验的混合驱动,自动地从数据中发现高质量见解,并选择合适的可视化予以呈现。通过在数据分析、可视化方案选择和视觉映射阶段提供辅助,自动可视化方法大大降低了用户创作可视化的门槛,使普通用户也能创作出媲美专业人员的可视化图表。
[0004]现有的自动可视化方法通常以数据作为输入,把计算数据的统计学特征作为生成可视化图表的决策依据。然而,这种基于数据特征的方法缺乏对用户任务的建模,导致推荐效率不佳,需要反复迭代修正。同时,传统方法的推荐过程缺乏用户控制,使得推荐结果容易表现出单调、重复的特征。因此,近年来,研究人员尝试为自动可视化方法找到新的输入数据。例如,以用户创建的既有视图与数据的组合作为输入,可以把用户的分析过程融入推荐过程,提升推荐效果的准确率。然而,这些方法都无法将用户分析任务显式融入推荐过程,导致推荐过程的可控性不足、推荐结果缺乏足够的解释性,使得用户对推荐效果没有足够的信心。综上,现有自动可视化创作工具存在推荐效果不精准、推荐结果单调重复、推荐过程可控性差等不足。

技术实现思路

[0005]针对上述问题,本专利技术的目的在于提供一种基于用户任务的动态可视化推荐方法,基于用户探索数据过程中分析得到的任务和偏好数据,设计并实现能随用户探索过程动态变化的、具有交互能力的可视化推荐模型。本专利技术不仅可以将用户的任务和字段偏好融入推荐过程,还支持用户对任务和字段偏好的交互式指派,并可以基于用户分析过程在线学习,不断改进模型效果。本专利技术可以帮助数据分析人员快速分析数据并创建多视图可视化面板,进而提升数据分析和展示效率。具体技术方案如下:
[0006]一种基于用户任务的动态可视化推荐方法,包括以下步骤:
[0007]S1:数据获取与处理
[0008]对用户输入的数据集进行统计分析,得到数据的统计学特征和数据类型;通过事件总线和发布者

订阅者模型,在交互式分析界面中记录用户操作行为,并对高频事件进行
防抖动操作,以保证各事件频率的相对均衡;将事件类型映射到任务感知模型的输入格式;
[0009]S2:分析任务与字段偏好生成
[0010]从任务感知模型中读出当前时间片的任务和字段偏好预测结果;对于任务预测结果,使用历史数据对预测结果进行平滑,以降低预测结果抖动;对于字段偏好预测结果,使用统计学检验方法,将现有字段偏好与等概率模型进行对比,决定是否修改模型的字段偏好参数;
[0011]S3:可视化视图生成与处理
[0012]基于S1得到的数据特征和数据类型,生成数据定义事实;基于S2得到的分析任务和字段偏好,生成分析任务事实和字段偏好事实;基于可视化设计经验,设计通用可视化规则集、任务相关规则集和字段偏好规则集;基于上述事实和规则集,使用答案集编程和线性优化方法搜索可视化设计空间,寻找最优可视化设计方案;基于视觉上的相似性,设计可视化去重策略,过滤相似的推荐结果,优化推荐效果;
[0013]S4:交互设计
[0014]设计算法控制面板,输出预测得到的用户任务和字段偏好特性,展示算法预测结果的变化情况;基于动态排序柱状图,展示当前时间片的算法关键输入,并基于掩码和惩罚值,定义任务的编辑操作。
[0015]进一步的,在步骤S1中,数据获取与处理具体为:
[0016]S11:定义五种数据类型,分别为:布尔、整数、数字、日期和字符串;整数和数字类型属于数字型字段,布尔、日期和字符串属于字符串型字段;对每种数据类型设置对应的检测函数,从而判断每个字段的数据类型;
[0017]S12:定义三种统计变量,即平均数、方差和基数;对于数字型字段,统计字段的平均数、方差和基数;对于字符串型字段,仅统计字段的基数,并记录保存;
[0018]S13:基于mitt事务总线,定义用户行为事件名称;在用户交互控件中发布事件,并在服务组件中进行订阅;
[0019]S14:运用防抖动算法,对滑动过滤操作进行去重,避免行为种类不平衡;
[0020]S15:构建行为

编号映射表,将行为事件映射为数字编号,通过网络发送至后端预测模型。
[0021]更进一步的,在步骤S2中,分析任务与字段偏好生成具体为:
[0022]S21:后端预测模型接收编码后的行为序列,预测输出当前存在某任务的概率和每个字段的偏好程度;
[0023]S22:运用历史信息,对模型预测结果进行平滑;最终得到的各任务概率基于以下公式计算:
[0024]S
task
=α*H
task
+(1

α)*T
task
[0025]式中:S
task
表示任务task的概率,H
task
表示上一次使用的任务概率,T
task
表示模型输出的任务概率,T
task
∈(0,1),α表示融合程度,0≤α≤1;因此,S
task
∈[0,1];而初始状态下,H
task
=0;
[0026]在一次计算结束后,将S
task
赋值到H
task

[0027]H
task
=S
task
,H
task
∈[0,1][0028]S23:运用统计学检验方法,检验字段偏好程度与等概率分布进行比较;如果检测
发现二者存在显著差异,则使用用户字段偏好;否则,不启用用户字段偏好。
[0029]更进一步的,所述统计学检验方法具体为:
[0030]S231:构造统计检验假设,构造如下假设:
[0031]H0:用户的字段偏好与已有数据相比无显著差异;
[0032]H1:用户的字段偏好与已有数据相比有显著差异;
[0033]S232:已有数据的获取:首先对数据集执行hash算法,得到一段定长的id字符串;在系统数据库中检索该字符串对应的记录,若存在则将该记录视为已有的该数据集字段偏好数据;若不存在则视为每个字段的选择概率相等,设共有字段n
fields
个,则每个字段的理论偏好概率<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户任务的动态可视化推荐方法,其特征在于,包括以下步骤:S1:数据获取与处理对用户输入的数据集进行统计分析,得到数据的统计学特征和数据类型;通过事件总线和发布者

订阅者模型,在交互式分析界面中记录用户操作行为,并对高频事件进行防抖动操作,以保证各事件频率的相对均衡;将事件类型映射到任务感知模型的输入格式;S2:分析任务与字段偏好生成从任务感知模型中读出当前时间片的任务和字段偏好预测结果;对于任务预测结果,使用历史数据对预测结果进行平滑,以降低预测结果抖动;对于字段偏好预测结果,使用统计学检验方法,将现有字段偏好与等概率模型进行对比,决定是否修改模型的字段偏好参数;S3:可视化视图生成与处理基于S1得到的数据特征和数据类型,生成数据定义事实;基于S2得到的分析任务和字段偏好,生成分析任务事实和字段偏好事实;基于可视化设计经验,设计通用可视化规则集、任务相关规则集和字段偏好规则集;基于上述事实和规则集,使用答案集编程和线性优化方法搜索可视化设计空间,寻找最优可视化设计方案;基于视觉上的相似性,设计可视化去重策略,过滤相似的推荐结果,优化推荐效果;S4:交互设计设计算法控制面板,输出预测得到的用户任务和字段偏好特性,展示算法预测结果的变化情况;基于动态排序柱状图,展示当前时间片的算法关键输入,并基于掩码和惩罚值,定义任务的编辑操作。2.根据权利要求1所述的一种基于用户任务的动态可视化推荐方法,其特征在于,在步骤S1中,数据获取与处理具体为:S11:定义五种数据类型,分别为:布尔、整数、数字、日期和字符串;整数和数字类型属于数字型字段,布尔、日期和字符串属于字符串型字段;对每种数据类型设置对应的检测函数,从而判断每个字段的数据类型;S12:定义三种统计变量,即平均数、方差和基数;对于数字型字段,统计字段的平均数、方差和基数;对于字符串型字段,仅统计字段的基数,并记录保存;S13:基于mitt事务总线,定义用户行为事件名称;在用户交互控件中发布事件,并在服务组件中进行订阅;S14:运用防抖动算法,对滑动过滤操作进行去重,避免行为种类不平衡;S15:构建行为

编号映射表,将行为事件映射为数字编号,通过网络发送至后端预测模型。3.根据权利要求2所述的一种基于用户任务的动态可视化推荐方法,其特征在于,在步骤S2中,分析任务与字段偏好生成具体为:S21:后端预测模型接收编码后的行为序列,预测输出当前存在某任务的概率和每个字段的偏好程度;S22:运用历史信息,对模型预测结果进行平滑;最终得到的各任务概率基于以下公式计算:S
task
=α*H
task
+(1

α)*T
task
式中:S
task
表示任务task的概率,H
task
表示上一次使用的任务概率,T
task
表示模型输出的任务概率,T
task
∈(0,1),α表示融合程度,0≤α≤1;因此,S
task
∈[0,1];而初始状态下,H
task
=0;在一次计算结束后,将S
task
赋值到H
task
:H
task
=S
task
,H
task
∈[0,1]S23:运用统计学检验方法,检验字段偏好程度与等概率分布进行比较;如果检测发现二者存在显著差异,则使用用户字段偏好;否则,不启用用户字段偏好。4.根据权利要求3所述的一种基于用户任务的动态可视化推荐方法,其特征在于,所述统计学检验方法具体为:S231:构造统计检验假设,构造如下假设:H0:用户的字段偏好与已有数据相比无显著差异;H1:用户的字段偏好与已有数据相比有显著差异;S232:已有数据的获取:首先对数据集执行hash算法,得到一段定长的id字符串;在系统数据库中检索该字符串对应的记录,若存在则将该记录视为已有的该数据集字段偏好数据;若不存在则视为每个字段的选择概率相等,设共有字段n
fields
个,则每个字段的理论偏好概率S233:样本量检验:用户对每个字段的选择次数为A
f
,用户对字段的总选择次数为n
records
;设定对用户的字段偏好记录总次数、每一种字段的选择记录次数和每个字段的理论频数的条件,进行样本量检验:若通过样本量检验则进入步骤S234,否则认为没有通过统计学检验,拒绝使用用户的字段偏好;S234:相关性检验:通过下列公式计算X2:其中,X2为卡方检验的值;n
fields
为字段总个数;n
f
为字段f的访问频次,p
f
为字段f的理论偏好概率;基于自由度n
fields

1,找到对应卡方分布的累积分布函数,基于累积分布函数和求得的X2,即得到H0假设成立的概率p,如下所示:p=1

F
cdf
(X2,n
fields

1)其中,F
cdf
为卡方分布的累积分布函数;若p&lt;0.1,则认为H0假设不成立,接受H1假设,用户偏好与已有...

【专利技术属性】
技术研发人员:朱敏朱佳旻吴美璇周怡朱浩天
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1