visual-insights test log

案例分析

数据集 (NASA - Kepler)

Kepler Exoplanet Search Results
10000 exoplanet candidates examined by the Kepler Space Observatory

Context

The Kepler Space Observatory is a NASA-build satellite that was launched in 2009. The telescope is dedicated to searching for exoplanets in star systems besides our own, with the ultimate goal of possibly finding other habitable planets besides our own. The original mission ended in 2013 due to mechanical failures, but the telescope has nevertheless been functional since 2014 on a “K2” extended mission.
Kepler had verified 1284 new exoplanets as of May 2016. As of October 2017 there are over 3000 confirmed exoplanets total (using all detection methods, including ground-based ones). The telescope is still active and continues to collect new data on its extended mission.

https://www.kaggle.com/nasa/kepler-exoplanet-search-results

分析难点

  • 数据集专业性较强,需要较强的domain knowledge才能对数据集有一个大致的把握。
  • 维度度量过多,难以选择。
  • 尝试用tableau分析某些维度度量,发现难以找到有意义的视图,组合情况又比较多,发现问题的成本很高。

20191009161817.jpg

使用Visual-Insights的推荐结果

数据集导入/清洗/字段配置(目的)

这里使用了维度与度量的划分(采用了维度为自变量、度量为因变量的定义)。所以手动定义维度和度量一定程度上上是告诉系统目的为何。这一部目前还没有很好的策略进行自动化。
image.png
(注,这里对数据集使用了dropNull的策略)

推荐结果展示

推荐结果按照评分被展示出来,可以看到,这些图表中的分布差异性、规律性、异常是比较明显的,也意味着会得到潜在的结论。

image.png

image.png
image.png
image.png
image.png
image.png
image.png
image.png

使用Visual-Insights分析-Notebook

Notebook功能是一个可以互动的算法可视化看板,这里可以对一些参数与算子进行调节来调节最终的推荐结果

Univariate Summary

第一部,notebook会对单变量分析并进行可视化,这个过程中,还会赋予字段 semantic type 并提供分组/降熵的策略来优化字段。
kepler2.jpg

Subspace Searching

第二步,搜索维度组合空间。并对比较好的维度组合空间进行可视化(这里颜色越深代表该维度组合下该度量的熵值越小)。在notebook中,如果点击某一行(下图的高亮),接下来会生成该行对应的维度组合下的度量分析。
visualization (3).svg

Correlation in subspace

这里展示的是某个维度组合下的度量之间的皮尔森相关系数矩阵。
visualization (4).svg

Clustering Measures

算法会将根据相关性矩阵对度量进行图聚类,分成若干个度量簇,用来与当前的维度组合构成一个视图。在Notebook功能中,点击一个度量簇,系统会根据选择的度量簇生成对应的可视化图表。

visualization.svg

Specification & Visualization

这一部会根据之前确定的视图中的维度与度量,按照视觉通道表达准确度的优先级与字段的优先级进行映射。生成格式如下的specification(下面这个例子是一个来自别的数据集的案例。。。):

1
2
3
4
5
6
7
8
9
10
{
position: [ field1, field2 ],
color: [ field ],
facets: [ field, ... ],
size: [ field ],
opacity: [ field ],
geomType: 'interval' | 'point' | 'rect' ...
page: [ field, ... ]
filter: [ field, ... ]
}

根据这种通用性的specification,结合具体的图表组件,生成图表用的specification,如下。

image.png
根据specification生成图表,如下。
visualization (2).svg

在Notebook互动中获得的一些其他结果

visualization (10).svgvisualization (12).svgvisualization (13).svgvisualization (14).svg

visualization (8).svg

visualization (9).svg

visualization (6).svg

资源链接


讨论:关系型数据库关系推断的方法

对于一个关系型数据库,如何根据库中的已有数据推断出包含所有可能的且合理的ERD集合。

分析:推断的结果是一个ERD(V, E),其中点集V已经确定,可以认为是所有的表。

(或所有关心的表,本问题假设是所有的表,基于此情况可以推得其他情况,这是选取一个最小子问题进行研究)

那么问题首要先解决的是推出E。对于关系型数据库,存在三种转系1-1, 1-n, n-n。若数据库满足第三范式,则不存在n-n关系,而是通过bridge table进行连接。

Read more
几篇有趣的可视化方向论文

C. Stolte, D. Tang and P. Hanrahan, “Polaris: a system for query, analysis, and visualization of multidimensional relational databases,” IEEE Transactions on Visualization and Computer Graphics, vol. 8, (1), pp. 52-65, 2002.

tableau原型

D. A. Keim and H. -. Kriegel, “VisDB: database exploration using multidimensional visualization,” IEEE Computer Graphics and Applications, vol. 14, (5), pp. 40-49, 1994. . DOI: 10.1109/38.310723.

多维数据集可视化

Wongsuphasawat, Kanit, et al. “Voyager 2: Augmenting visual analysis with partial view specifications.” Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems. ACM, 2017.

自动化tableau中的一些探索流程

B. Tang et al, “Extracting top-K insights from multi-dimensional data,” in 2017, . DOI: 10.1145/3035918.3035922.

多维数据集自动化探索分析

T. Sellam, E. Müller and M. Kersten, “Semi-automated exploration of data warehouses,” in 2015, . DOI: 10.1145/2806416.2806538.

数据仓库的半自动化探索分析

A. Satyanarayan, K. Wongsuphasawat and J. Heer, “Declarative interaction design for data visualization,” in 2014, . DOI: 10.1145/2642918.2647360.

交互式可视化设计


探索分析中多维数据集可视化理论基础

摘要

探索分析是BI领域重要的研究方向之一,随着信息量的激增,业务数据的维度,大小,关联关系逐渐变得愈加复杂,使得即便是拥有多年经验的业务人员,也无法探知数据中蕴藏的全部规律、模式与领域知识。由此带来设计开发对应的探索分析系统,使得用户能够快速的从庞大的数据集中筛选自己关心的数据、选择关心的维度与度量来研究验证某一猜想假设,得出可以指导决策的有效结论。本文通过对探索分析系统中基本概念的定义与推理,结合图形语法理论中的可视化构建链路,给出探索分析中数据可视化的通用数学描述,从而为多维数据集可视化系统的设计与开发提供一套简洁可行的算法描述。

介绍

多维关系型数据库的可视化研究一直是BI开发中的基础领域,该领域的主要挑战是如何将数据库中的知识呈现出来,发现规律、异常并理解数据间的关系。由此,诞生了基于假设、猜想对数据库进行探索分析的需求。这种探索分析的特性是对于结果、方法与步骤的不确定性,同时要求快速改变用户研究的数据视图以及观察这些视图的方式的能力[2]。

常见的方式是将这样的一个多维的关系型数据库视为一个多维的数据立方体(cube)[6],这种方式最知名的实践之一便是数据透视表。但数据透视表在数据的直观展示能力上非常欠缺,基于这样的问题,本文从如何将数据透视表背后对应的多维数据立方体进行可视化,使用更直观图表进行展示”入手进行研究。

Read more
LBS设计笔记

地图可视化应用可以划分为大屏展示应用与小屏的互动应用。这里更广义的将其划分为数据展示功能与探索交互功能。

LBS自助分析可参考的demo:deck.gl。其于大屏生编辑器的区别在于地图可以编辑多个图层,自定义每个图层的数据、支持选取各种图形以及视觉通道到数据的映射。添加filter,双向、或单向的图表互动。

dataV的图表生成流程是错误的,不利于分析问题。调研quickBI.

数据展示功能

  • 散点图、折线图、面积图、热力图
  • 单点/区域/全局的数据展示

Insights(异常检测、趋势检测;异常放大可视化与趋势放大可视化)

这里借助可视化的视觉欺骗技巧来帮助用户在难以快速聚焦问题的地图可视化中聚焦到想要分析的问题。

维度层级定义(深度)
导数(微分)
积分
向量/梯度

等高线、3D高度图被自动填补的点的具体含义?

Read more
BI研发反思

所有人都告诉我Canary是一款玩具,但是没人要告诉我为什么,该怎么做。

Canary从诞生到现在已经有1年多了,从最初的单纯的数据映射工具到自助分析功能,中间改版过无数次、无论是交互的大的调整还是架构的重新设计都经历了很多。但Canary从来没有创造过价值,从来没有在真实的落地场景中为客户发现问题、带来增益

在导师那里打工时,一直告诉我,他希望我能做一款真正可以投入使用的产品出来,像tableau一样有着强大的自助分析功能。当我问到,Canary和tableau差在哪里时,我并没有得到答案*。其实差在哪里我内心是清楚的,但是是从技术的角度、从理论的角度:二者的OLAP计算方式不同、图形语法的设计不同、对于不同输入的计算视图也不同。至于数据库连接,数据清洗等当然也是,但这部分可以不作为tableau的主要模块来讨论。我最终希望得到的答案,是从一个真正的使用者的角度,告诉我Canary差在哪里,应该怎么改进

年初的时候在看Wilkinson的The Grammar of Graphics,整个人有点重心偏移,希望Canary的设计是完全的图形语法的交互界面实现。后来冷静下来才意识到,无论做什么,底层使用什么技术,最终都是要辅助数据分析的,辅助业务人员理解数据的。图形语法的理念采用多少、交互上怎么权衡,都是要结合使用者在真实场景下的分析操作来实现的。

举例而言,Canary在实际数据集的测试时遇到过两个主要问题,一个是维度成员数过多带来的分面爆炸,一个是维度数过多带来的选取困难。

Read more
星河开发经历阶段性总结

前一段在配合星河的迭代,稍稍总结一下收货与问题吧。

从接手陌生代码的能力上有所增强,能够比较熟练理清陌生代码的逻辑。出现问题基本能够百分百确定问题产生的原因,而不再像以前一样归结于各种玄学元素。

开发周期上虽然没有出现问题,但从项目整体角度而言还可以进而优化。

Read more
精神状态

最近精神状态真的糟糕到了极点。

没有那么畏惧死亡了。尝试一下也无所谓。

精神负荷太大了,太痛苦了。根本不知道为什么。总是莫名的哭。

整个精神都被抑制了,什么都打不起兴趣。很容易进入焦虑与难过的状态,但说不清为什么。会有一定的刺激源,但刺激源也太普遍了吧,根本无法规避。

不知道该做些什么分散一下注意力,绳子的确是一种方法,但只是短暂性的分散。我想尝试一下更危险一点的方法,写小说或画绘本之类的,这样能直面内心的痛苦把心境表现出来,但是会面对过强的精神刺激,不知道能不能扛得住。


【读书笔记】The Grammar of Graphics - 8. Geometry

8. 几何对象Geometry

Grometric graphs are not visible. As Bertin(1967, 1977) points out, visible elements have features not present in their geometric counterparts.

图形语法中的graph的概念是一个相对抽象的数学概念,其并不对应任何可见的图形,可见的图形是在graph的基础上关联视觉元素(颜色、大小等信息)。

Graph != Physical Representation

对图形分类的方法

  1. appearance under standard aesthetic functions(反例,line != path,但视觉表现相同)
  2. classify them by their geimetric dimensionality
  3. organize them by thier data methods

文章最后采用了根据数据和几何特征来划分几何对象,原因是本文讨论的是基于统计的几何系统,所以要

based on how graphs function in representing statistical data geometrically.

  • Functions 映射数据
  • Partitions 类似于一种分组操作(拆分成子集)
  • networks 连接操作,如line()
Functions Partitions Networks
point
line
area
interval
path
schema
polygon
contour
edge
Read more
【读书笔记】The Grammar of Graphics - 6. Scales

6.标度(scales)

标度理论

标度分为四类:

  • nominal: 1对1映射,unique identifier
  • ordinal: relative ranks
  • interval: difference is comparable
  • ratio: count?

对于标度的运算,往往需要更为详细的信息,比如我们在blend操作时会进行定义域检查(如关系型数据库的并操作)

货币维度是一个依赖于时间的维度,这是由于货币本身会膨胀或紧缩。在计算时要考虑通胀率。

  • 基本度量(elemental measurement / primary unit)
  • 衍生度量(derived measurement / secondary unit)

标度0并不一定意味着0或无,如温度为0。

标度与图形的关系
关于0标度的定义是对标度的描述而非对图形的描述:
例如,对bars进行描述时我们关心的是起始位置和终止位置。0点的位置只是用来描述渲染的区域而不是图形本身的性质,图形本身的性质是不受标度的影响的。

Read more