一种基于语义共鸣色彩的数据可视化方法技术

技术编号:14481997 阅读:102 留言:0更新日期:2017-01-25 23:56
本发明专利技术涉及一种基于语义共鸣色彩的数据可视化方法,包括以下步骤:1)设定一组待分配颜色的物品名词作为词汇集,根据名词的关键词获取与其相关的图片集;2)选取合适的调色板,该调色板包括待分配颜色的物品的所有颜色;3)产生图片集中每幅图片的颜色直方图,根据颜色直方图中色彩的分布情况,获取调色板中的颜色在颜色直方图中出现的概率;4)根据调色板中的颜色之间的辨识度和在颜色直方图中出现的概率,将调色板中的颜色分配到词汇集中的待分配颜色的物品上,形成关键词‑颜色对并显示。与现有技术相比,本发明专利技术具有保留主体颜色、配色准确等优点。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,尤其是涉及一种基于语义共鸣色彩的数据可视化方法
技术介绍
在数据可视化的过程中,着色方法将发挥重要作用,好的着色方案将极大地提升可视化的效果,例如,我们可以用蓝色的来显示“海洋”的数据,或者用粉红色的来为关键字“爱”着色,不同的颜色可以帮助我们识别和区分不同的类别。很容易发现,颜色与字义一致会加速认知过程,反之则会阻碍认知,这种有趣的现象称为“斯特鲁普效应”(StroopEffect),其实,不单是颜色的名称,人们早已习惯将颜色与各种概念绑定在一起,这些自然的、与语义一致的颜色被称为“语义共鸣色”(SemanticallyResonantColor),如果能有效利用语义共鸣色,我们能提高可视化的认知效率。但是现有的文字的表现形式过于单调,通篇的黑色字体对于文字的语义识别非常不利,也不能提起读者的阅读兴趣,现有语义共鸣色彩的文字表示方法通常采用大量相关图片作为训练集,在获取颜色直方图之前的背景剔除时,往往将黑色与白色的背景剔除掉,但是由于有些词汇对应的主体颜色就是黑和白,因此此种方法将本身的颜色剔除,导致统计不准确。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种保留主体颜色、配色准确的基于语义共鸣色彩的数据可视化方法。本专利技术的目的可以通过以下技术方案来实现:一种基于语义共鸣色彩的数据可视化方法,包括以下步骤:1)设定一组待分配颜色的物品名词作为词汇集,根据名词的关键词获取与其相关的图片集;2)选取合适的调色板,该调色板包括待分配颜色的物品的所有颜色;3)产生图片集中每幅图片的颜色直方图,根据颜色直方图中色彩的分布情况,获取调色板中的颜色在颜色直方图中出现的概率;4)根据调色板中的颜色之间的辨识度和在颜色直方图中出现的概率,将调色板中的颜色分配到词汇集中的待分配颜色的物品上,形成关键词-颜色对并显示。所述的步骤2)中,所述的调色板采用20色调色板。所述的步骤3)具体包括以下步骤:31)对图片集中的图片采用像素过滤的方式进行背景剔除;32)采用像素数统计图片中各个颜色出现的数量;33)将数量处于前三位的颜色类别作为众类,其余颜色类别作为寡类,据此对每幅图片赋予颜色标签,34)抛弃寡类对应的图片,并根据众类对应的图片,将黑色与白色添加到颜色直方图的概率统计颜色类别以及调色板中,产生对应的颜色直方图。该方法还包括以下步骤:5)将本方法产生的带有颜色语义的词汇与人为颜色分配统计作比较,得到配色准确度。所述的步骤32)中,在LAB空间中对图片中各个颜色的像素数进行数量统计。与现有技术相比,本专利技术具有以下优点:一、保留主体颜色:采用像素点统计进行背景剔除,现有的剔除了大量的有效信息,本专利技术将背景过滤改为像素过滤,原调色板中没有白色和黑色,因为这两种颜色很少用于数据可视化的展示,因此在统计像素颜色直方图时再进行过滤,针对单个像素进行。二、配色准确:采用20色配色版配合颜色直方图的概率统计,使本专利技术的方法配色准确。附图说明图1为LAB空间的像素统计图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。实施例:1.获取数据是对一组特定类别的词汇如蔬菜(“番茄”、“土豆”、“青椒”等)进行谷歌图片搜索,并将搜索得的图片汇总起来,统计所有图片的所有像素的颜色以产生颜色直方图。对于一个关键词,比如说“苹果”,除了直接搜索“苹果”外,本方法还可以通过附加词来获得更丰富的图片数据,例如“苹果+素材”,这样对每个关键词将获得两个颜色直方图。2.候选调色板并不是随意取均值为一个关键词安排一个颜色就是合适了。在一次可视化任务中,必须在所有的类别中实现一种兼顾区分度和语义的颜色安排才是有意义的。为了获取有意义的颜色安排,算法采用了知名可视化公司Tableau的20色调色板。在每次可视化任务中将基于这个调色板中的20种颜色来为类别按照语义进行合理的分配。3.颜色安排在获得所有的颜色直方图后,对直方图作核密度估计以模拟色彩的分布,并据其计算候选调色板中每种颜色出现的概率,再兼顾色彩之间的辨识度,得到每一对“颜色-词汇”组合的“共鸣分数”(AffinityScore)。这些共鸣分数刻画了概念与颜色之间联结的强度。根据所有共鸣分数,利用匈牙利法将候选颜色一一分配到词汇集中,使得总的共鸣分数最高,即色彩语义性最强。下面是算法的核心公式:p(c|v,T)∝Σb∈TT(b)exp(dist(b,c)σ)]]>H(C|v,T)=-Σc∈Cp(c|v,T)lnp(c|v,T)]]>p(c|v,T)∝max(sat(c),t)·[wcp(c|v,Tc)H(C|v,T)+(1-wc)p(c|v,Tc)H(C|v,T)]]]>affinity(c,v)=p(c|v)H(C|v)]]>最后,利用AmazonMechanicalTurk上的众包资源,要求参与者对相同的词汇集和颜色集进行匹配,并据此调整自动化算法的参数,使自动化分配的结果尽可能接近人为选择的方案,A、T两列分别为算法和人为产生的色彩分配方案,可见两者有不少近似的地方。4.算法结果与实验在实验阶段,比较了三种不同的色彩分配对直方图阅读效率的影响,分别为专家选择、算法生成和随机分配的方案。其中专家选择的方案由商业可视化软件Tableau的设计者给出,作为其他方案效果的上限和准绳。在实验中,被试将会看到三种直方图,并要求根据图上信息回答问题,其反应时间被记录下来作为直方图效果的度量。而实验的结果显示,对于着色性高、具有相对固定颜色的词汇,譬如“天空”、“草莓”、“土豆”等,具有语义共鸣性的色彩分配能提高约10%的反应时间,其中专家选择的方案略优于算法产生的方案。但对于抽象的、缺少固定颜色的词汇,如“可口可乐”、“谷歌”、“健康”等,语义共鸣性只能提供较小的改善。三.问题分析因为颜色安排高度依赖于获得的图片数据,因此结果的好坏很大程度上取决于原数据预处理的过程,而之后的统计学方法并不能提供太多的去噪修正。先来看一组测试结果,见下图。可以看到前三个关键字的颜色安排无法令人满意,发现存在如下问题:1.大量有效的图片在原算法的背景剔除的过程中被删去。(原算法通过图片边缘的像素统计,统计出和黑色、白色在规定阈值内的像素个数,如果超过整个边缘的75%,则认为这种图片难以提取关键颜色信息,予以删除。)这直接造成了大量有效信息被忽略,总体变弱,而噪音数据的权重更大。例如在“牛奶”中,蓝色背景被保留下来成为了最大的干扰,而白色背景的有效图片却被忽略。2.“百合”、“牡丹”的原数据最大的特点是颜色繁杂,关键特征数据不易提取。这在统计时直接造成的结果是单个关键词和候选色的结合度平均,最后的结果分散不具有集中性。四.改进工作首先,在数据采集阶段,本方法使用在国内更加稳定的最新的BaiduImageSearchAPI,修复对中文字符集的支持。其次,修改背景剔除算法。鉴于之前剔除了大量的有效信息,因此将背景过滤改为像素过滤。现有使用的调色板中本来没有白色和黑色,因为这两种颜色很少用于数据可视化的展示。因此在统本文档来自技高网...
一种基于语义共鸣色彩的数据可视化方法

【技术保护点】
一种基于语义共鸣色彩的数据可视化方法,其特征在于,包括以下步骤:1)设定一组待分配颜色的物品名词作为词汇集,根据名词的关键词获取与其相关的图片集;2)选取合适的调色板,该调色板包括待分配颜色的物品的所有颜色;3)产生图片集中每幅图片的颜色直方图,根据颜色直方图中色彩的分布情况,获取调色板中的颜色在颜色直方图中出现的概率;4)根据调色板中的颜色之间的辨识度和在颜色直方图中出现的概率,将调色板中的颜色分配到词汇集中的待分配颜色的物品上,形成关键词‑颜色对并显示。

【技术特征摘要】
1.一种基于语义共鸣色彩的数据可视化方法,其特征在于,包括以下步骤:1)设定一组待分配颜色的物品名词作为词汇集,根据名词的关键词获取与其相关的图片集;2)选取合适的调色板,该调色板包括待分配颜色的物品的所有颜色;3)产生图片集中每幅图片的颜色直方图,根据颜色直方图中色彩的分布情况,获取调色板中的颜色在颜色直方图中出现的概率;4)根据调色板中的颜色之间的辨识度和在颜色直方图中出现的概率,将调色板中的颜色分配到词汇集中的待分配颜色的物品上,形成关键词-颜色对并显示。2.根据权利要求1所述的一种基于语义共鸣色彩的数据可视化方法,其特征在于,所述的步骤2)中,所述的调色板采用20色调色板。3.根据权利要求1所述的一种基于语义共鸣色彩的数据可视化方法,其特征在于,所述的...

【专利技术属性】
技术研发人员:盛斌熊浩
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1