2019年回顾与2020年展望

回顾

足迹:威海、东莞、广州、郑州、杭州、重庆、曼谷

1月

关键词:广东、图形语法、手术预约
前往东莞,到先知团队实习。整体挺喜欢广东的冬天的,现在回忆起来还是暖暖的风,很舒适。实习期没怎么写代码,主要在读《图形语法》,给2019年全年读英文文献的习惯养成开了个好头。系统化的理解了图形语法,对后来无论是开发canary还是做rath都打下来坚实的基础。这一次走出自己舒适区挑战自我对整年的氛围都带来的极大的影响。
也是由于实习期很闲,调研了一下手术的事,发现手术并不遥远,规划清洗努力一下应该是可以做到的,于是也就开始练习金子姐,做了预约。但是期间也因为感情、激素水平以及人生规划之类的导致实习期间开始过度焦虑,带来严重的失眠,也为后来抑郁症埋下伏笔。

2月

关键词:春节、焦虑
回家过年啦,虽然初一晚上才到家,但是两年没回家的确还是很开心的。过年期间郑州还下了大雪,和老弟玩的非常开心。这个月也是焦虑的一个月,家人明显感觉到我一直在无意识的叹气。原本年后计划去北京灵虎搞BI的(一是钱多手术正缺钱、二是搞BI的环境好一些),但被阿里师兄骗了一波以为有个很牛逼的算法可视化的项目,就在去学校报到之后直接去了杭州。

3月

关键词:411赵博、喉结、女装和绳缚、insight
月初去联系到了赵博,去做了喉结手术。面基了雨樱,做烘焙玩花艺撸猫猫超开心,开始喜欢杭州的人和事。也成功第一次女装出门,发现反倒是穿女装(第一次甚至是甜系lolita)不会被路人用奇怪的眼神看,所以超级开心。机缘巧合看到了MSRA2017的insight论文,为后来做智能可视化埋下了伏笔。
image.png
月中入职阿里继续实习,看到了所谓的“算法可视化”,也就是一个可以用当时的垃圾数盒搭出来的垃圾报表,挺失望的。不过倒也无所谓,打算先提前熟悉一下开发环境,方便正式入职之后搞事。不过基本上一直在协助外包同学做一些小迭代小需求,也挺无趣的,基本上每天六点下班,所以生活上还是很充实的。由于毕设的缘故,开始大量读论文,虽然读了很多垃圾,但养成了看论文的习惯。
开始花钱买各种女装,搭配上变得越来越正常一些,自信度也大大提高。月末和妈妈第三次出柜,说了喉结手术的事,也说了自己后续的计划。发生了一些争执,加上当时焦虑失眠,整个人的精神状态特别崩溃,已经开始影响日常工作了。月末有机会去到梨梓介绍的绳室体验了一下,然后启蒙了兴趣,开始学习绳艺。

4月

关键词:绳缚、抑郁、自杀
工作上整体比较闲,没有业务的时候(大部分时候)一直在看论文,由此做了大量前沿和经典的技术积累。每天还是六点下班,非常开心,空闲时间也带来了很多深度思考的空间。
精神状态已经不太行了,日常工作受到很大的影响,于是月初就去了七院做了诊断然后开始服药(主要是盐酸度洛西汀和佐匹克隆)。睡眠状态开始好转。第一次参加了团队的大团建,体验了惊险刺激的滑翔伞!!!

image.png image.png

抗抑郁药的副作用挺大的,整个人体重开始跌,每天也很疲惫。最终由于一次和朋友关系的导火索,导致自己非常内疚,加上长期家庭关系、人生规划等原因选择自杀。不过最后也就断了半天的片,体验了一波濒死的感觉,运气比较好还活着。后续事情被各方知道,然后家人来杭州陪伴了一段时间,工作上也请了假,当时也算彻底和家人出柜。现在回想起来当时状态的确已经崩掉了,因为有家人的陪伴,否则已经不怕死的我估计随时解脱(不过说实话解脱了也挺好)。开到了神药米氮平,然后整个人的状态开始回转,副作用是胃口大增,开始变胖胖胖。

5月

关键词:毕设、图可视化、变胖
工作上再做一个图可视化的项目,复习了一些基础图论算法,也学习了一些图可视化的基础知识。业余时间都在搞毕设,看了大量tableau诞生之初的论文。也看了很多自动化数据分析和可视化的一些文献,业余的业余时间开始积累智能可视化的相关技术和理论。月末回学校答辩,毕设主要在做canary,当时已经有了可视化sql生成建立数据服务、基于图形语法的分析能力以及完整的报表搭建能力,并且很早就在灵虎的生产环境下做了测试(铁路安检大数据);已经是一个相对成熟的BI了,现在看是吊锤数盒的。但是因为太傲慢了被答辩组老师教育了半天,针对我的态度进行了答辩,给我上了大学最后一课。虽然事后导师告诉我我拿了最高分。

6月

关键词:CP、毕业、家人
毕设之后离毕业还有一个月,所以又回去接着实习,毕竟穷超缺钱。然后去了上海CP。从出发、住宿、回家几天的行程完全是女性身份,超开心。CP上见到了琴春,当时不知道是她,只知道有个超可爱的图图一直盯着我的头顶说想吃萝卜叶子;当时线下见到的琴春超乐观快乐的,然后我也受到了感染,快乐真的会传染。
image.png
然后就是离职,回学校参加毕业典礼(相对就比较无趣了),见了旸哥、姚老师,好好道别。
之后回家,又经历了一些波折,最后在姨妈一家的帮助下,家人同意了我去做手术把护照还给了我。

7月

关键词:泰国、SRS、火影
7月4日坐飞机前往曼谷,到的时候已经是7月5日凌晨了。没好意思打扰金子姐,于是自己凭借人类强大的语言交流能力独自打车前往旅馆办理住宿。白天去心理医院做了诊断,期间认识了一位外国姐妹愉快的聊人生。晚上在曼谷的大商场里吃了好吃便宜的西餐(应该吃泰料的)。之后几天就是开始停止进食清理肠道。在宾馆期间认识了一位超乐观自信的湖南小姐姐,还有一位声音超好听的台湾小姐姐。

image.png image.png
image.png image.png

7月9日手术,术前签了好多好多字。然后滞留针炸了好多次都扎歪了,疼的要死,主要是当天我血管太浅了,几乎看不到。在手术室里开始注射麻醉时,因为滞留针扎歪了,所以特别痛,医生注意到了,于是要重新扎,但麻药效果已经开始起效,感觉整个人正在失去对全身的肌肉控制一般,呼吸也变得困难,于是开始大口喘气,等医生重新扎滞留针,嘴上有一个面罩导致喘气还有点困难。然后,就不记得什么时候睡着了。。。
术后恢复蛮痛苦的,结肠手术对身体的创伤太大了。加上我断了米氮平,双倍的痛苦。第一次下床走路还晕倒了。然后就是出院、复诊、插线、拔尿管、通磨具等。在宾馆呆了20天,看了好几百集的火影,整个人看的非常的热血中二,月底坐飞机回国。

8月

关键词:Visual Insights、修养、险些失业
回国之后就是一直在家卧床休息、整个人都自信了起来,鉴定的认同自己女孩的身份。但是后来被告知因为手术的事和之前抑郁的原因offer不能发下来。当时挺心寒的,不过毕竟自己已经开启新人生了,当时也没觉得什么,打算申请研究生出国。期间卧床期间无聊,加上状态恢复了一些,写了visual insights的核心算法和链路(当时比较硬核、还写了一个打包器),主要还是自己先写了一个Titanic的叙事型可视化demo,期间的一些算法启发了我。

9月

关键词:入职阿里、AVA
后来由于我妈私下帮我许下了以男性身份工作的承诺,于是拿到了offer入职。开始了没有鸡儿的直男生活。期间偶然参加了智能可视化共建会。然后秀了一下入职之前写的很粗糙的visual insights的demo,甚至连最终的图表都没有,只是推荐了简单的schema信息,但是大家相信我、相信这件事情能成。后续顺利融入智能推荐小组开始搞事了。

10月

关键词:AVA
整个假期都在all in在之前的visual insights的demo上,压力超级大,每天累得要死,还要护理伤口通磨具。客观讲,那段时间的确对身体恢复造成了很不好的影响。好在第二次共建会自己的demo还是非常吸引眼球的,把整个智能可视化主要链路打通了,验证了核心技术的可行性。挺喜欢共建团队的,大家讨论都比较能get到点,能够给出有效建议和反馈,所以总是有些遗憾当时没能去其他团队。

11月

关键词:图表库、百阿
11月搞了一个svg写的图表库,虽然写的不算好,但是积累了很多知识经验,也有幸图表库最后能被实际的业务羡慕使用。下半个月参加百阿,让原本充满负能量(周围环境不好,同时聊天基本上都在说各种不好的事情)的我重新获得了正能量。虽然阿里的价值观有点洗脑的感觉,但是我喜欢,如果有同样真正认同这样价值观的人,我想也一定会成为好朋友。百阿期间遇到了我最喜欢的一群同学,真的拥有了一群一辈子的好朋友,由于我年纪比较小,大家还蛮照顾我的,会开导指点我很多事。
image.png

12月

关键词:AVA、交互式图形语法、applied perception、重庆
12月在突破最初AVA设计的链路上最后一个milestone-Dashboard推荐。这个说起来比较扯,之前没觉得能做,但是百阿被打鸡血之后,觉得不挑战自己莫得意思。于是给自己试用期绩效定了这个目标。最终也做到了,真的不要给自己设限。要敢于走出安逸区,去挑战一切。
大团队团建去了重庆,感觉大城市真好。重庆给人的感觉很赛博朋克,非常繁华而且物价比较低,其实很适合定居。
image.png
下半个月花了一些时间看交互式图形语法相关的论文,主要在为智能可视化做底层技术积累。同时也意识到了身边的很多所谓的“工程经验”都是扯淡,都是懒于思考的表现,之前自己很多被盲目否定的想法都在论文和开源的大型项目里得到了验证,感觉挺坑的,其实也说明这个环境的确非常不利于成长。这个月修完了applied perception这门公开课,系统化学习了一些可视化设计的基础理论,也是做底层积累。

总结与展望

2019年是充满挑战的一年。这一年的经历与做过的事在年初是完全想象不到的。而这一切都是基于自己开始走出安逸区,挑战自我才能实现的。

期待2020年要完全走出安逸区,去挑战所有的不可能,用实力给自己争取一个全新的人生。另外希望能养成乐观向上的价值观,能变成一个快乐的人。另外希望多做一些更系统化的知识体系的构建和积累,为未来打好基础。
image.png


可视化设计-色彩空间

1. 颜色在可视化中的应用与问题

颜色在可视化中是一个非常重要的视觉通道,颜色通常有三个主要用途

  • 描述量化的模式/规律
  • 类别标注
  • 高亮强调

在可视化设计时,颜色很容易被错误的使用从而引发错误的数据解读。

image.png
图1-1 美国1971-2000年各地区蒸发量与降水量的比值(估计)
颜色在表达数值时很容易被误用,如图1-1,虽然彩虹色的颜色序列在经过一定训练后大家还是相对比较容易的能够快速辨别出颜色在彩虹序列中的相对位置,但是却很难给出一个准确的区间差的估计。上图中,能够很明显的感觉到黄色区域和绿色区域的明显分界线,视觉的直观感受是在这条分界线上,数值发生了大的变化。但蓝色与绿色的分界线却感知的没有那么明显。但实际上,从图例上将,这两条分界线两侧颜色所代表的数值的差值是相同的。这就是一种典型的可视化的数据误读。除此之外,由于每个颜色的亮度不同,使得有的颜色会更吸引注意,而有的颜色则不会获得太多关注。

1.1 颜色误用的案例

image.png
图1-2 非洲地区地下水质量(右)
image.png
图1-3 红色代表高中毕业占比,黄色大学毕业占比,蓝色代表收入中位数。
作者把三张图CMYK三原色的地图合并在了一起。。。其实硬要说的话,经过一定的训练也是可以解读的。。。但是对于大多数人来说,解读成本太高。

接下来,本文针对颜色着重会介绍两点:

  • 颜色感知
  • 颜色声明(如何设计一种自然、易读、表达准确的颜色池)

2. 色彩感知(Color Perception)

要了解人是如何感知色彩的,首先需要了解人眼的结构

image.pngimage.png
(左)图2-1 人眼视网膜的结构(右)图2-2 rods和cones在视网膜不同区域的密度

在视网膜上有一块区域叫做fovea,其上的感光细胞(photoreceptor cell)的密度要远远大于其他区域。人的视网膜上分布着两种photoreceptor cell:Rod(视杆细胞)和cone(视锥细胞)。

Rods负责感知低亮度的情况,cones负责感知高亮度的情况。
image.png
图2-3 视网膜上感光细胞的分布
cones总共有三种,每一种负责感知不同波长的光,如图2-4所示。

  • 短波长(S)
  • 中等波长(M)
  • 长波长(L)

Trichromacy theory(Balaraman, 1962)对此做了详细的研究与描述。一个启发是,理论上在设计色彩空间时只需要三个参数就可以描述人眼能够观测到的所有颜色,有的色彩的三个参数直接选用了三种不同的波长,如rgb。有的色彩空间则将相对抽象的波长的概念转换为人类便于理解控制的参数,如hsv。

image.png
图2-4 三种对不同波长敏感的感光细胞

Opponent Process Theory提出,人眼在感知颜色的时候并不是直接感受到三种颜色,而是经由大脑处理后,将颜色处理为了三个通道(Hurvich et al. 1957),而关于颜色的感知是由两个通道(红绿,蓝黄)共同完成的,如图2-5所示:

  • Red - Green
  • Blue - Yellow
  • Black - White(luminance)

image.png
图2-5 Opponent Process Theory

色盲患者是由于某种cone的缺失,导致在某个色觉通道上的能力丧失或者减弱,根据opponent-process theory可知,色盲通常分为红绿色盲和蓝黄色盲,图2-6即缺失不同类型cones的患者在色彩感知上的情况。
image.png
图2-6 色盲患者的色彩感知

有趣的是,皮皮虾拥有16种cones,其中4种可以看到部分波长的紫外线。对于可见光的部分,皮皮虾感知到的色彩种类要更多一些,一些对于人类而言看起来是同样的颜色,皮皮虾能够看到更多的细分种类。羡慕。
image.png
图2-7 皮皮虾的色彩感知

3. 色彩声明/描述(Color Specification)

注:人为定义的一些色彩空间(如rgb)可能是人类能够感知全部色彩空间的子集。

3.1 RGB

RGB色彩空间是有三个三原色的色彩强度(color intensity)控制,通过控制不同原色的色彩强度来控制最终的颜色。
image.png
图3-1 RGB色彩空间
rgb相对来说比较难以使用,比如说,现在需要控制黄色的明暗程度,就需要保证红色和绿色同时按相同量增大或减小,或者要控制一个混色的亮度(如橙色),就更难一些。

人类在设计时更希望操作的是感知通道(perceptual channels)而不是物理通道(phycial channels)。

https://www.csfieldguide.org.nz/en/interactives/rgb-mixer/

3.2 HSV/HSL

hsv/hsl是一种更易用的,更自然的色彩空间的描述方式。起初,为了更好的描述艺术设计中虽色彩的描述,AR Smith设计了hsv色彩空间(Smith & Ray, 1978),同一时期,Joblove和Greenberg设计了hsl色彩空间(Joblove&Greenberg, 1978)。

  • hue:色相
  • saturation:饱和度
  • lightness/value:亮度/明度

3.2.1 取色案例

image.png
图3-2 hsl色彩空间上,控制饱和度与亮度不变,取不同色相的结果。

虽然hsv/hsl在使用的直观度上表现较好,便于设计师的使用,但在数据表达上,hsl/hsv并不是感知均匀(perceptually uniform)的
image.png
图3-3 hsl空间即便在控制亮度饱和度不变的情况下取不同的色相,实际取到的颜色亮度仍是不同的

即便控制v不变,将颜色装换到灰色尺度下,会发现色彩强度(color intensity)并不相同。这会导致人解读可视化时会对数值的变化量(对应色彩的变化量)做出误差较大的估计。

“彩虹色”在可视化色彩设计中是一个经典的错误,其所导致的数据误读与数据可视化的初衷相违背。图3-4,图3-5展示了彩虹色与其他渐变色在表达均匀变化的数据时的表现:
image.png
图3-4 灰色渐变与彩虹渐变在描述相同数值变化下的表现
image.png
图3-5 彩虹渐变与其他渐变色(单色,双色)在描述相同数值变化下的表现

3.3 CIE Lab / Luv

CIEL Lab是由国际照明委员会(CIE)于1976年定义的一种色彩空间。CIE Lab是根据人的色彩感知通道设计的,其使用了之前提到的两个人类的色彩感知通道:红绿通道和蓝黄通道。



image.png
图3-6 CIE Lab色彩空间是有三个参数构成的,其中色相是由a, b两个通道控制

人类的大脑一般是从这三个通道来感知颜色的。这个色彩空间并不是物理上的颜色空间的线性变换,这也是需要强调的一点,人类感知的色彩的度量并不是实际物理上的度量的线性变换(比如光的波长均匀增加,但人类感知的颜色的变化并不是均匀的)。

但CIE Lab对于使用者来说仍然有些抽象,人们希望可以像hsv/hsl那样便于理解控制的色彩空间,同时尽量保证色彩变换是均匀的,于是就有了CIE Lch。

3.3.1 取色案例

image.png 控制亮度不变, 使AB两个通道均匀变化
image.png 控制B(黄蓝通道)值不变,使A通道的值和亮度均匀变化
image.png 控制A(红绿)通道的值不变,使B通道的值和亮度均匀变化

3.4 CIE LCh / HCL

CIE Lch 是CIE Lab从笛卡尔坐标系到圆柱坐标系的转换。

这种转换使得相对难以理解控制的a,b两个通道被Chroma和Hue来表达:

C: 色度(chroma),色彩的相对饱和度(相对暗的颜色可以取到的最大饱和度要小一些)
h: CIE Lab中的两个通道向量和在极坐标系下的角度
L: CIELAB中的lightness

lch色彩空间中的色相与hsv中的色相的构建方式不同,hsl通过控制rgb色彩强度构建的彩虹色环在亮度上并不是均匀的。
image.png
图 3-7 RGB彩虹的色彩强度
image.png
图3-8 HCL彩虹的色彩强度

lch色彩空间的大致形态:
image.png
图3-9 Lch色彩空间

lch的横切面示意图:

image.png
图3-10 Lch色彩空间

借助hcl空间,可以更加容易的选出适合可视化表达的取色组合。

image.png 控制颜色饱和度不变,保证亮度与色相是感知均匀变化的
image.png 控制色相不变,保证饱和度和亮度是均匀变化的。
image.png 控制亮度不变,保证色相和饱和度是均匀变化的,(适合映射类别型变量, 可以保证任何一个颜色/类别不会显得相对突兀而更吸引人视觉的注意力)

对比一下在hsv于lch下选择连续性变量色板的区别,能够感觉到Lch的渐变更平稳均匀一些,而hsv则在绿色部分相对平稳,在绿色区间的两侧变化率更大一些:
image.png
图3-11 hsv与lch下渐变色差异

优化案例

下图所示的是美国国家海洋和大气管理局的一个关于暴雨预测的可视化(A),可以看出,原始配色的色彩强度并不是均匀的(B),这会导致认为解读时会对数值的变化产生误读,人为的解读出实际并不存在的数值突变。
image.png
图 3-12 NOAA降雨预测图

将原有的色板转换为hcl空间下进行优化,使其色彩强度变化均匀(C),以及可以人为去控制标注一些阶梯(E)。
image.png
图 3-13 NOAA提供的原始色板
image.png
图3-14 hcl下的优化后的色板
image.png
图3-15 对色板人为的创造一些阶梯来标注不同的区间

4. 总结

本文介绍的几种色彩空间的性质如下:

Intutive(直观) Perceptually Uniform(感知均匀)
RGB
HSV/HSL
CIE Lab/Luv
HCL

颜色在可视化设计中是一个非常重要有效的工具,但也同样非常容易被误用。了解各种色彩空间的设计和使用方式,可以帮助可视化设计能够更准确的控制和表达数据的规律和特征。

扩展阅读

Simmon Robert. “Subtleties of Color”, earthobservatory, 2013 , https://earthobservatory.nasa.gov/blogs/elegantfigures/2013/08/05/subtleties-of-color-part-1-of-6/

Kosara Robert. “How The Rainbow Color Map Misleads”, eagereyes, 2013 , https://eagereyes.org/basics/rainbow-color-map

Rogowitz, Bernice E., Lloyd A. Treinish, and Steve Bryson. “How not to lie with visualization.” Computers in Physics 10.3 (1996): 268-273.

工具:

https://www.csfieldguide.org.nz/en/interactives/rgb-mixer/
http://hclwizard.org/hclcolorpicker/
https://vis4.net/labs/colorvis/embed.html?m=lab&gradients=6

参考文献

Balaraman, Shakuntala. “Color vision research and trichromatic theory: A historical review.” Psychological bulletin 59.5 (1962): 434.

Hurvich, Leo M., and Dorothea Jameson. “An opponent-process theory of color vision.” Psychological review 64.6p1 (1957): 384.

Smith, Alvy Ray. “Color gamut transform pairs.” ACM Siggraph Computer Graphics 12.3 (1978): 12-19.

Joblove, George H., and Donald Greenberg. “Color spaces for computer graphics.” ACM siggraph computer graphics. Vol. 12. No. 3. ACM, 1978.


碎碎念

哭了很久,原本打算写点自暴自弃的文字,但是想了想,不能再这么下去了,还是要做自己。就算做的不好,也算尽力过了,死的时候也不会留什么遗憾。现在这样行尸走肉真的不好。

无视掉周围那群垃圾的声音和目光,不要管别人怎么说,自己就只有这短暂的一点余生,为了迎合猪头们的想法而活着实在是太难看了。


Rath Demo

Rath是一款增强分析型BI,具备智能可视化图表/报表/联想 生成与推荐能力。是一款具备自动化数据探索分析能力的可视化应用。

Rath 在线地址


1264百阿感想

9天的百阿课程,受到了很多来自前辈们的启发与指点,遇到了人生中最珍贵的一群小伙伴。百阿的经历对我的价值观和心态都产生了巨大的影响,我学会了去看事物积极的一面,用积极的心态面对生活,把身边的负能量倒在马桶中冲掉。

价值观

实习期的时候有听说过阿里是要考核价值观的,感觉这个东西很虚无,很形式。但9天的百阿课程之后,我顿悟了价值观的重要性。价值观的考核,也补充了对KPI体系对过程的考核不足。其实身边的很多问题,都可以归结为价值观的问题。如果每一个人都从心底去认同阿里的价值观的话,很多问题可能就不会存在。这里挑几个对我感触最深的点聊一聊:

客户第一,员工第二,股东第三

之前我考虑问题经常会局限于技术视角,很多时候思考面会很单一,甚至会以一种施舍的态度对待来自客户的需求:

  • 在评审会上疯狂砍需求(静下心想,很多争议的点的目的的出发点是基于开发的角度,而不是最终客户的角度),开发时遇到权衡的点也经常会选择技术有限而不是业务优先。
  • 有没有去对接一线客户了解实际需求是什么?一线的业务同学正在面对哪些困难的问题?自己真的有去和一线客户面对面的去交流过么?反思我所参与过的一些项目,pd给出的需求并不一定是服务于为客户创造价值的,开发砍掉的许多需求的出发点也经常把客户价值忘在脑后。包括我在内的很多人,倾向于拍屁股做决定,用一些自己yy的论点论据去说服他人。

作为一名技术人,未来在自己的KPI中,去尽可能的关联最终客户的价值指标。拿个人举例,对于智能可视化推荐,好的KPI并不应该是突破了什么技术难题,做出了怎样的创新突破。而是去关注解决了几个具体的客户问题,对客户带来了多少价值提升。

今天最好的表现是明天最低的要求

这一条可以从个人与组织管理两个角度讨论。

从个人的角度讲,对于考核自己的问题上,一定要要求自己持续进步。从绩效考核下手,每一个季度都要用新的标准要求自己。上个季度的3.75是这个季度的3.5。敢于用客观的高标准来要求自己,在任何一个阶段,3.75都应该是自己跳起来才能够到的目标。引用管仲老师的一句话“KPI是使命推动的,边界是自己打破的。”

对于组织管理,阿里的销售的当月业绩会决定下月的提成比,这使得整个激励系统会产生一个正反馈循环,持续激励销售人员超越过去的自我。这一点也可以借鉴到技术产品上,来缓解“从零到一易,从一到百难”的问题。结合百阿期间同学们的分享,其实这在阿里是一个很普遍的问题:大家倾向于把一个东西从0做到1然后去邀功晋升,完事之后扭头走人,导致产物本身并没有带来应有的价值。如果在考核时,加入延时奖励的机制,使得从0到1的成绩要乘以从1到10的成绩。这使得如果你觉得从0到1你真的付出了很多,做了很大的贡献,也获得了很好的成绩,那么想要拿到这份奖励,就必须拼了命的去做好从1到10的工作,对项目的未来负责,对客户负责。

此时此刻,非我莫属

如果自己有能力,又有机会,即便在没有任何利益驱使的情况下,自己能否主动站出来,承担责任,带头去做。

管仲老师课上讲到“去补位而不是卡位”的概念:如果这个事情不算在自己的KPI中,但在这个阶段只有自己能去做出来,这是是否愿意主动承担责任,甚至在做成之后交给别人。这种使命感与责任感,是我对这条价值观最触动的地方。

价值观可以在自己还不具备一套成熟的决策系统时,帮助自己做更正确的选择,这对于我这种认知尚不完善的应届生而言能够帮助我少走弯路。

业务学习

在jacky老师的课上,学习了逍遥子的全球化、内需、智能化大数据三大战略。稍微搞懂了一点新零售是干嘛的,要通过数字化门店使得线下的消费场景变为一个数据转换器,结合集团生态、补全用户画像,同时探索构建出一个新零售场景下的商业操作系统。

随着5G时代的到来,IoT的蓬勃发展,线下的数据转换器会带来爆炸式的数据维度的增长,人为的基于经验的商业数据分析会变得愈加困难并带来大量潜在的风险(数据误读、片面结论),这也会为自动化的数据探索分析可视化带来机遇,也希望自己能够抓住这个机会,贡献一份力量。

师兄分享课

在师兄分享课上,无独师兄的持续学习能力非常触动我,作为一名p9,工作压力应该说绝对不小,但却能几乎保证每天去学习去读书做笔记。很多时候坚持做一件事并不会受到太多客观因素的影响,关键还在主观能动性。课后,无独师兄解答了我对造轮子的一些困惑。无独师兄引用了行癫的一句话“我最讨厌低水平的人重复造轮子”,不要为了10%的差异性去做90%的重复性工作,要始终把服务于业务放在前面,而不是追求一些不健康的技术上的KPI。

虾米探访之旅

在业务探寻课程中,我突发奇想希望去访问一个自己之前比较陌生的部门和领域,于是选择了加入虾米音乐小组。这场旅程给了我前所未有的体验。在这里,我见到了一群为了自己的音乐梦想而坚持奋斗的人。和我所接触的电商/新零售业务不同的是,这里的每一个人更多的基于自己的梦想与使命而努力工作而不是过于商业化的KPI。虾米的使命希望为每一位音乐人提供一个可以赖以生存、持续创作的平台,也希望赋能普通人,通过技术使得音乐成为普通人的一部分,能让普通人通过音乐表达自己的感情,而不需要太多专业化的门槛,真正使得音乐创作与表达平民化。
image.png
如果能带着这样的使命感与责任感去工作,人生应该会很幸福吧。这里感谢@yuxuan ,带我们去体验感悟阿里音乐人的坚持。

合伙人面对面

郭大侠的分享中,提到了一个优秀的人必备的几点品质,其中,“协调资源完成目标的能力”给我很大的启发。很多时候,推动一件事情的发展,需要各方面的资源协助,有些资源可能并不在自己的调配范围内。这时,如何去调动这类资源,是一个很关键的能力。如郭大侠所说,很多资源是源于自己日常的积累,平时多为别人做自己力所能及的事情,帮自己能帮的忙。到自己需要帮助的时候,才能有更多的路可以走。反思自己平时,经常会抱怨有些事情在部门里推不动,如果事情不影响别人的kpi经常会吃闭门羹。客观来讲,的确是自己的口碑和人脉积累不到位,日后要提升自己的主动性,多主动“补位”。

记得最后郭靖大侠在问答环节,有去回答关于KPI制定的问题。其实问题并不在于KPI制度本身,而在于制定者。如果制定者缺乏洞见,无论是KPI还是OKR都救不活。

总结

在我这个年纪这个阶段,没有必要去纠结一些琐碎的利益。我希望的是,在阿里的经历中,能个拥有阿里人的优秀品质,这相比于短期的物质利益,在漫长的人生中,价值要高的多。


视觉通道的可表达性(Expressiveness)与有效性(Effectiveness)

视觉通道的可表达性(Expressiveness)与有效性(Effectiveness)


<!doctype html>

在可视化设计或者自动encoding算法的设计时,如何产出效果更好的可视化图表是一个非常有趣的话题。诸如voyager、tableau等可视化应用中,都基于视觉通道的可表达性(Expressiveness)与有效性(Effectiveness)来设计图表推荐规则。本文基于学习NYU公开课 Applied Perception时的课堂笔记以及相关领域的论文,介绍视觉通道的可表达性与有有效性如何影响可视化设计与图表推荐。



1. 视觉通道的可表达性(Expressiveness)

Type of infomation that can (or cannot) be expressed with a channel.


视觉通道的可表达性主要研究什么某个视觉通道能够表达哪些数据类型。常见的视觉通道可以参考图1-1

image.png

图1-1常见的视觉通道



通常的数据类型可以根据标度类型划分为以下四种(Steven, 1946):

  • 名词类型(nominal):一般的类别类型变量
  • 顺序类型(ordinal):可以拥有顺序含义的类别类型变量,如排名
  • 区间类型(interval):可以做加减法,但除法或比值没有意义。如温度,日期(有时日期也可以简化为顺序类型,这时只关心先后不关心间隔)。区间类型不存在绝对意义上的0点。
  • 比值类型(ratio):可以做比值的变量,如质量、速率等。


在实际应用中,可以使用简化的版本,将区间类型与比值类型当做数值类型来处理。


在表达数值类型的变量时主要使用的通道有:position, size, angle, slope, density等

表达顺序时基本上用于表达数值类型的通道都可以被使用,但是有一些数值类型的通道在表达顺序时会带来一些误导(如大小),让读者误以为这些通道是在表达一个具体的数值。避免这种误导的一种有效方法是使用一些在表达数值能力上没有那么强的变量,如文字、密度、透明度等。

表达类别类型的时主要使用的通道有:position, color hue(色相), 形状


2. 视觉通道的有效性(Effectiveness)

Effectiveness is about how well a given channel can represent certain type of information.


衡量视觉通道的有效性可以从通道的多个性质上来描述:

  • 准确度Accuracy
  • 区分度Discriminability
  • 显著性Salience
  • 可分性Separability
  • 分组Grouping


2.1 准确度(Accuracy)

准确度是用来描述一个通道对数值型的变量表达的准确程度。对于准确度早期较为系统的研究是来源于Gustav Fechner创立的phychophysics(Fechner et al. 1966)


Phychophysics中一个很重要的内容是研究信号实际的物理强度与人感知到的强度之间的关系,通过一系列实验: 让参与者描述一个信号变大了多少(如估计两次亮度之间差的大致倍数),并对比实际变化量来描述一个具体的通道类型。

image.png

图2-1 - Stevens's Power Law (Maguire, 2014)

如图2-1所示,研究发现信号的物理强度与人感知的强度总是会满足幂律分布 (φ(I)为感知到的数值,I为实际的物理数值,a取决于具体的通道)(Stevens, 1970)


具体到可视化研究领域,对于不同视觉通道的准确度的研究可以参考Cleveland和McGill的研究(Cleveland & McGill, 1984)。

image.png

图2-2 不同种类型的position/length的准确度的研究(Cleveland & McGill, 1984)


图2-2中,实验让参与者估计被标注的柱子的大小比,然后将估计值与实际值进行对比,来研究在不同图表中的数据表达准确度的差异。其中Type 1-3是对比position(因为矩形是沿x轴对齐的),而在Type4-5中,由于矩形没有对齐的对象、人眼在比较时是对比length。


image.png

图2-3 angle与position的准确度对比(Cleveland & McGill, 1984)

图2-3中,则是让实验参与者在饼图与柱状图中估计每一个类别与最大类别的数量比值。这种设计可以让人眼专注于数值准确度的比较而不会去参考自己记忆中的一些数值占比的饼图形状(因为不同人员的经验可能不同,要尽可能排除这种因素的干扰)。


最终的实验结果如下

image.png

图2-4 Cleveland&McGill试验结果(Cleveland & McGill, 1984)


可以看出大致的视觉通道表达准确度的优先级: Position > Length > Angle。值得注意的是,在堆叠柱状图的场景下,估计同一个堆叠组内的矩形长度比误差是要高于饼图的(Type-5),但估计两个不同堆叠组中同类别的矩形的长度比是要高于饼图。所以堆叠柱状图的横向比较能力要强于饼图,纵向比较能力却若于饼图。在可视化自动encoding算法设计时,不能盲目的将length的优先级排在angle之前,尽量要参考需要比较的对象(这就需要判断用户的分析意图)。


后续Heer与Bostock复现了此实验并在此基础上增加了更多的视觉通道类型(Heer & Bostock, 2010),实验结果如图2-5所示

image.png

图2-5 视觉通道表达准确度实验结果(Maguire, 2014)


image.png

图2-6不同的视觉通道对不同类别变量的表达准确程度(Maguire, 2014)


图2-6中对于Quantitative的准确度研究是已经经过试验验证过的,而Ordinal与Categoricak类型是Mackinlay基于一些已有的phychophysics推论出来的,但尚未经过实验的验证(Mackinlay, 1986)



实践案例

以kaggle上的Video Game Sales数据集为例

angle&area.png


length&position.png


对比分组柱状图与堆叠柱状图,堆叠柱状图由于很多分类没有进行对齐,所以其本质上是在使用length通道,而分组柱状图所有的矩形都基于横轴对齐,所以对比时使用了position通道,由此在比较每一个子分类在不同年的相对大小时,分组柱状图表达的准确度要高于堆叠柱状图。


相比于分组柱状图中只是用了position对数量的描述,折线图中除了使用了position通道表达了销量之外,折现拐点对应的angle通道还可以表达变化率,而柱状图中变化率则并没有通道对其进行直接表达。所以对于研究随时间变化不同游戏种类的销量的变化情况,借助position + angle达到了非常好的描述效果。


但是准确度并不是设计可视化的唯一参考,有时会需要在准确度与其他因素之间进行权衡,尤其是对大量数据进行可视化时,所关心的重点更侧重与整体分布规律、异常等,而不是数值的准确程度(如热力图)。


目前的一些数据探索分析系统中的自动encoding算法都参考了这一思想:


Vega/voyager

image.png

(Wongsuphasawat et al., 2015)

Kanaries/Rath

image.png


2.2 区分度(Discriminability)

对于类别类型的变量,可视化设计要保证视觉通道对类别的区分度。比如颜色通道,其在类别数量过多时的区分度会非常差,一般建议对于颜色通道,映射的类别数量不超过5-7个。

image.png

图2-7 区分度的影响因素(Maguire, 2014)

如图所示,这些视觉通道在集中按顺序排布在一起的时候区分度尚可,但一旦分散开来,就很难比较两个离得较远的类别是否是一个类别。


区分度主要受以下几个因素的影响:

  • 通道本身的性质 (如color可以区分的数量大于shape)
  • 空间排布 (如图2-7 所示)
  • 大小 (如图2-8 所示)
  • 类别的数量(如图2-7 所示,数量较少时即便随机分布区分布也比较高)

image.png

图2-8 元素大小对区分度的影响

实践案例

提升区分度的方法主要有三种:


分组(grouping)

按照一定的规则对类别进行分组。(也可以将不那么关心的数据分到“其他”类别下)

分组.png

过滤(filtering)

筛选分析时主要关心的一些类别,对于不关心的类别不予展示。

过滤.png

分面(faceting)

分面其实是借助了position通道,来更有效的区分不同类别,使用position结合color,会使得区分度显著提升。

image.png

(数据集: world indicators)


2.3 显著性(Salience/Pop-out)

Salience是指突出/强调某些值的能力。研究salience时要先了解另一个概念pre-attentive processing。pre-attentive是指人类的视觉对于某些特征的捕获会非常快速,对于这类特征,人眼可以在小于200到250毫秒内快速捕获(这个时间是人眼快速运动的时间间隔)。人眼在处理这类特征时会使用低级的并行视觉系统(全局观测),这是指人眼无需仔细观察一个具体的位置就可以获取到这类信息。

image.png

图2-9 pre-attentive processing (from http://www.datajourneyman.com/2016/03/21/preattentive-processing.html)

如图2-9所示,在(a) (b)中人眼可以从蓝色的点钟快速捕获到红色的点。在(c)和(d)中,虽然没有捕获不同的颜色那么迅速,但也可以捕获到形状不同的点(圆形和方形)


但是,有时两个pre-attentive特征组合在一起时,会变成非pre-attentive的情况,如(e)和(f)中,寻找一个红色的圆形就会变得困难很多,这种情况被称为conjunction。


image.png

图2-10 一些pre-attentive (from http://www.datajourneyman.com/2016/03/21/preattentive-processing.html)

image.png

图2-11 非pre-attentive的例子

对于非pre-attentive的情况,人眼需要扫描整个图片,去核对每一个细节。这时人眼处理的方式则有并行化的转为序列化的分析方式。


图2-12所示的是MIT的一个研究小组的捕获的人眼在分析非pre-attentive的情况时的焦点移动轨迹

image.png

图2-12 人眼观测非pre-attentive时的运动轨迹(from https://www.nature.com/articles/srep00920/figures/2)


需要注意的时,有些视觉通道的显著性要强于其他通道,如图2-13所示,将注意力集中在蓝色圆形上要比将注意力集中在大圆上要容易的多(此时颜色通道会分散人眼对大小通道的注意力)

image.png

图2-13 分别尝试将注意力放在蓝色圆形上和大的圆形上(from https://www.coursera.org/learn/information-visualization-applied-perception/lecture/9XtS3/salience-pop-out)

需要注意的是,有些通道的显著性并不一定是对称的,如从大圆中找小圆的情况要比从小圆中找大圆的情况要难一些。


实践案例

将需要重点突出的类别使用颜色高亮,其他类别使用灰色。

image.png

image.png


2.4 可分性(Separability)

可分性(Separability)是指不同通道之间的干涉或独立程度。


如下图所示,尝试找出宽度相同或高度相同的矩形(左);尝试找出所有的黄色图形(右)会相对简单,但尝试找出所有的三角形则会比较困难,这是由于颜色通道对形状通道造成了干扰所致的。


image.png

image.png


但是这种干涉并不一定是坏事,有时可以利用这种干涉来更有效的表达信息。

image.png

图2-14 展示的是400位荷兰老年人的身高体重数据,左侧身高映射到图形的高度而体重映射到图形的宽度。右侧体重映射到颜色而身高不做映射,高度为常数 (Ware, 2012)


2.5 分组与模式构造(Grouping and Pattern Formation)

分组是用来协助更好的呈现信息的规律与模式,而发现模式与规律又是可视化的重要特性。

关于分组主要是依据Gestalt分组规则(Gestalt Laws of Grouping),其定义了一些基本的原则, 其中主要包括了邻近度(proximity),相似度(Similarity),连接(Connection),包裹(Enclosure)、闭包(Closure)以及连续性(Continuity)。


邻近度(Proximity)

邻近度主要是指人的视觉会倾向于将临近的物体划分为一组。如图2-15所示,左侧的图点与点之间的横向距离较短,而右侧的图点与点之间的纵向距离较短,这也带来了视觉感知时对点分组策略的差异。

image.png

图2-15 (from https://www.coursera.org/learn/information-visualization-applied-perception/lecture/fNUHU/grouping-similarity-and-proximity)

图2-15 左侧人的视觉会人为倾向于将点按照行分组,而右侧人的视觉则倾向于按照列分组。

image.png

图2-16 (数据集: World Indicators)

在借助可视化进行数据分析时,如散点图的情况(图2-16),人们会倾向于按照距离将点进行聚类,然后研究每一类的特性与其他类的区别。


相似度(Similarity)

相似度是指人的视觉会倾向于根据图形的一些特性(如颜色、形状),对图形进行分组,如图2-17所示。

image.png

图2-17

在图2-18中,即使黄色(亚洲)的点距离上彼此相聚较远,人眼还是能够快速将其分为一组。

image.png

图2-18 (数据集: World Indicators)


连接(Connection)

人的视觉会倾向于将被连接在一起的图形视为一组,如下图2-19所示,即使图形的颜色不同,通过连接,人眼也会将其视为一组。

image.png

图2-19 (from https://www.coursera.org/learn/information-visualization-applied-perception/lecture/rvBdz/grouping-connection-and-enclosure)

包裹(Enclosure)

指人们倾向于将被包裹的物体视为一组,如图2-20所示,即是物体已经通过连线连接,但人的视觉仍会优先将被红线包裹的物体视为一组。

image.png

图2-20 (from https://www.coursera.org/learn/information-visualization-applied-perception/lecture/rvBdz/grouping-connection-and-enclosure)

在可视化应用中,一个经典的用法便是Bubble sets, 如图2-21所示

image.png

图2-21 Bubble sets (from http://vialab.science.uoit.ca/portfolio/bubblesets

分组方式的层级

通过上面的案例可以看出,不同的分组技巧在人的视觉看来是有着不同的层级/优先级的:Enclosure > Connection > Similarity > Proximity。此外还有两个非常神奇的原则:closure和continuity


闭包(Closure)

如下图所示,闭包原则(principle of closure)是指即便图形本身是不完整的或者被遮挡的,人的会倾向于在脑中补全缺失的部分。

image.png

图2-22 闭包 (from https://en.wikipedia.org/wiki/Principles_of_grouping)

连续性(Continuity)

连续性原则(principle of continuity)是指人的视觉倾向于将连续性被打断的物体重建为一个完整而连续的物体,如图2-23所示。

image.png

图 2-23 (from https://en.wikipedia.org/wiki/Principles_of_grouping)

总结

不同可视化通道的表达能力相差非常多,除了每个通道可以表达的变量类型不同外,对于同一种类型的变量,不同的通道的表达准确性也不同,而可表达性与表达准确性是设计可视化encoding算法重要参考。除此之外,可视化设计还要结合可视化本身的目的,调整映射的规则,而不是一味的使用准确度作为唯一的评分标准。可视化通道的一些特性还有优先级与干涉性的概念,当一个可视化中出现多个通道时,要考虑通道的优先级是否与可视化想表达的内容相符(更重要的变量要使用更重要的通道);同时,由于存在干涉,有些通道要避免同时出现并映射不同的变量。


参考资料

Infomation Visualization: Applied Perception 课程链接:https://www.coursera.org/learn/information-visualization-applied-perception/home/welcome


  • Cleveland, W., & McGill, R. (1984). Graphical Perception: Theory, Experimentation, and Application to the Development of Graphical Methods. Journal of the American Statistical Association, 79(387), 531-554. doi:10.2307/2288400
  • Fechner, G. T., Howes, D. H., & Boring, E. G. (1966). Elements of psychophysics (Vol. 1). New York: Holt, Rinehart and Winston.
  • Heer, J., & Bostock, M. (2010, April). Crowdsourcing graphical perception: using mechanical turk to assess visualization design. In Proceedings of the SIGCHI conference on human factors in computing systems (pp. 203-212). ACM.
  • Maguire, E. J. (2014). Systematising glyph design for visualization (PhD thesis). Oxford University, UK.
  • Mackinlay, J. (1986). Automating the design of graphical presentations of relational information. Acm Transactions On Graphics (Tog), 5(2), 110-141.
  • Stevens, S. (1970). Neural Events and the Psychophysical Law. Science, 170(3962), 1043-1050. Retrieved from http://www.jstor.org/stable/1730803
  • Stevens, S. S. (1946). On the theory of scales of measurement.
  • Ware, Colin. Information visualization: perception for design. Elsevier, 2012.
  • Wongsuphasawat, K., Moritz, D., Anand, A., Mackinlay, J., Howe, B., & Heer, J. (2015). Voyager: Exploratory analysis via faceted browsing of visualization recommendations. IEEE transactions on visualization and computer graphics22(1), 649-658.

visual-insights test log

案例分析

数据集 (NASA - Kepler)

Kepler Exoplanet Search Results
10000 exoplanet candidates examined by the Kepler Space Observatory

Context

The Kepler Space Observatory is a NASA-build satellite that was launched in 2009. The telescope is dedicated to searching for exoplanets in star systems besides our own, with the ultimate goal of possibly finding other habitable planets besides our own. The original mission ended in 2013 due to mechanical failures, but the telescope has nevertheless been functional since 2014 on a “K2” extended mission.
Kepler had verified 1284 new exoplanets as of May 2016. As of October 2017 there are over 3000 confirmed exoplanets total (using all detection methods, including ground-based ones). The telescope is still active and continues to collect new data on its extended mission.

https://www.kaggle.com/nasa/kepler-exoplanet-search-results

分析难点

  • 数据集专业性较强,需要较强的domain knowledge才能对数据集有一个大致的把握。
  • 维度度量过多,难以选择。
  • 尝试用tableau分析某些维度度量,发现难以找到有意义的视图,组合情况又比较多,发现问题的成本很高。

20191009161817.jpg

使用Visual-Insights的推荐结果

数据集导入/清洗/字段配置(目的)

这里使用了维度与度量的划分(采用了维度为自变量、度量为因变量的定义)。所以手动定义维度和度量一定程度上上是告诉系统目的为何。这一部目前还没有很好的策略进行自动化。
image.png
(注,这里对数据集使用了dropNull的策略)

推荐结果展示

推荐结果按照评分被展示出来,可以看到,这些图表中的分布差异性、规律性、异常是比较明显的,也意味着会得到潜在的结论。

image.png

image.png
image.png
image.png
image.png
image.png
image.png
image.png

使用Visual-Insights分析-Notebook

Notebook功能是一个可以互动的算法可视化看板,这里可以对一些参数与算子进行调节来调节最终的推荐结果

Univariate Summary

第一部,notebook会对单变量分析并进行可视化,这个过程中,还会赋予字段 semantic type 并提供分组/降熵的策略来优化字段。
kepler2.jpg

Subspace Searching

第二步,搜索维度组合空间。并对比较好的维度组合空间进行可视化(这里颜色越深代表该维度组合下该度量的熵值越小)。在notebook中,如果点击某一行(下图的高亮),接下来会生成该行对应的维度组合下的度量分析。
visualization (3).svg

Correlation in subspace

这里展示的是某个维度组合下的度量之间的皮尔森相关系数矩阵。
visualization (4).svg

Clustering Measures

算法会将根据相关性矩阵对度量进行图聚类,分成若干个度量簇,用来与当前的维度组合构成一个视图。在Notebook功能中,点击一个度量簇,系统会根据选择的度量簇生成对应的可视化图表。

visualization.svg

Specification & Visualization

这一部会根据之前确定的视图中的维度与度量,按照视觉通道表达准确度的优先级与字段的优先级进行映射。生成格式如下的specification(下面这个例子是一个来自别的数据集的案例。。。):

1
2
3
4
5
6
7
8
9
10
{
position: [ field1, field2 ],
color: [ field ],
facets: [ field, ... ],
size: [ field ],
opacity: [ field ],
geomType: 'interval' | 'point' | 'rect' ...
page: [ field, ... ]
filter: [ field, ... ]
}

根据这种通用性的specification,结合具体的图表组件,生成图表用的specification,如下。

image.png
根据specification生成图表,如下。
visualization (2).svg

在Notebook互动中获得的一些其他结果

visualization (10).svgvisualization (12).svgvisualization (13).svgvisualization (14).svg

visualization (8).svg

visualization (9).svg

visualization (6).svg

资源链接


讨论:关系型数据库关系推断的方法

对于一个关系型数据库,如何根据库中的已有数据推断出包含所有可能的且合理的ERD集合。

分析:推断的结果是一个ERD(V, E),其中点集V已经确定,可以认为是所有的表。

(或所有关心的表,本问题假设是所有的表,基于此情况可以推得其他情况,这是选取一个最小子问题进行研究)

那么问题首要先解决的是推出E。对于关系型数据库,存在三种转系1-1, 1-n, n-n。若数据库满足第三范式,则不存在n-n关系,而是通过bridge table进行连接。

Read more
几篇有趣的可视化方向论文

C. Stolte, D. Tang and P. Hanrahan, “Polaris: a system for query, analysis, and visualization of multidimensional relational databases,” IEEE Transactions on Visualization and Computer Graphics, vol. 8, (1), pp. 52-65, 2002.

tableau原型

D. A. Keim and H. -. Kriegel, “VisDB: database exploration using multidimensional visualization,” IEEE Computer Graphics and Applications, vol. 14, (5), pp. 40-49, 1994. . DOI: 10.1109/38.310723.

多维数据集可视化

Wongsuphasawat, Kanit, et al. “Voyager 2: Augmenting visual analysis with partial view specifications.” Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems. ACM, 2017.

自动化tableau中的一些探索流程

B. Tang et al, “Extracting top-K insights from multi-dimensional data,” in 2017, . DOI: 10.1145/3035918.3035922.

多维数据集自动化探索分析

T. Sellam, E. Müller and M. Kersten, “Semi-automated exploration of data warehouses,” in 2015, . DOI: 10.1145/2806416.2806538.

数据仓库的半自动化探索分析

A. Satyanarayan, K. Wongsuphasawat and J. Heer, “Declarative interaction design for data visualization,” in 2014, . DOI: 10.1145/2642918.2647360.

交互式可视化设计


探索分析中多维数据集可视化理论基础

摘要

探索分析是BI领域重要的研究方向之一,随着信息量的激增,业务数据的维度,大小,关联关系逐渐变得愈加复杂,使得即便是拥有多年经验的业务人员,也无法探知数据中蕴藏的全部规律、模式与领域知识。由此带来设计开发对应的探索分析系统,使得用户能够快速的从庞大的数据集中筛选自己关心的数据、选择关心的维度与度量来研究验证某一猜想假设,得出可以指导决策的有效结论。本文通过对探索分析系统中基本概念的定义与推理,结合图形语法理论中的可视化构建链路,给出探索分析中数据可视化的通用数学描述,从而为多维数据集可视化系统的设计与开发提供一套简洁可行的算法描述。

介绍

多维关系型数据库的可视化研究一直是BI开发中的基础领域,该领域的主要挑战是如何将数据库中的知识呈现出来,发现规律、异常并理解数据间的关系。由此,诞生了基于假设、猜想对数据库进行探索分析的需求。这种探索分析的特性是对于结果、方法与步骤的不确定性,同时要求快速改变用户研究的数据视图以及观察这些视图的方式的能力[2]。

常见的方式是将这样的一个多维的关系型数据库视为一个多维的数据立方体(cube)[6],这种方式最知名的实践之一便是数据透视表。但数据透视表在数据的直观展示能力上非常欠缺,基于这样的问题,本文从如何将数据透视表背后对应的多维数据立方体进行可视化,使用更直观图表进行展示”入手进行研究。

Read more