visual-insights test log

案例分析

数据集 (NASA - Kepler)

Kepler Exoplanet Search Results
10000 exoplanet candidates examined by the Kepler Space Observatory

Context

The Kepler Space Observatory is a NASA-build satellite that was launched in 2009. The telescope is dedicated to searching for exoplanets in star systems besides our own, with the ultimate goal of possibly finding other habitable planets besides our own. The original mission ended in 2013 due to mechanical failures, but the telescope has nevertheless been functional since 2014 on a “K2” extended mission.
Kepler had verified 1284 new exoplanets as of May 2016. As of October 2017 there are over 3000 confirmed exoplanets total (using all detection methods, including ground-based ones). The telescope is still active and continues to collect new data on its extended mission.

https://www.kaggle.com/nasa/kepler-exoplanet-search-results

分析难点

  • 数据集专业性较强,需要较强的domain knowledge才能对数据集有一个大致的把握。
  • 维度度量过多,难以选择。
  • 尝试用tableau分析某些维度度量,发现难以找到有意义的视图,组合情况又比较多,发现问题的成本很高。

20191009161817.jpg

使用Visual-Insights的推荐结果

数据集导入/清洗/字段配置(目的)

这里使用了维度与度量的划分(采用了维度为自变量、度量为因变量的定义)。所以手动定义维度和度量一定程度上上是告诉系统目的为何。这一部目前还没有很好的策略进行自动化。
image.png
(注,这里对数据集使用了dropNull的策略)

推荐结果展示

推荐结果按照评分被展示出来,可以看到,这些图表中的分布差异性、规律性、异常是比较明显的,也意味着会得到潜在的结论。

image.png

image.png
image.png
image.png
image.png
image.png
image.png
image.png

使用Visual-Insights分析-Notebook

Notebook功能是一个可以互动的算法可视化看板,这里可以对一些参数与算子进行调节来调节最终的推荐结果

Univariate Summary

第一部,notebook会对单变量分析并进行可视化,这个过程中,还会赋予字段 semantic type 并提供分组/降熵的策略来优化字段。
kepler2.jpg

Subspace Searching

第二步,搜索维度组合空间。并对比较好的维度组合空间进行可视化(这里颜色越深代表该维度组合下该度量的熵值越小)。在notebook中,如果点击某一行(下图的高亮),接下来会生成该行对应的维度组合下的度量分析。
visualization (3).svg

Correlation in subspace

这里展示的是某个维度组合下的度量之间的皮尔森相关系数矩阵。
visualization (4).svg

Clustering Measures

算法会将根据相关性矩阵对度量进行图聚类,分成若干个度量簇,用来与当前的维度组合构成一个视图。在Notebook功能中,点击一个度量簇,系统会根据选择的度量簇生成对应的可视化图表。

visualization.svg

Specification & Visualization

这一部会根据之前确定的视图中的维度与度量,按照视觉通道表达准确度的优先级与字段的优先级进行映射。生成格式如下的specification(下面这个例子是一个来自别的数据集的案例。。。):

1
2
3
4
5
6
7
8
9
10
{
position: [ field1, field2 ],
color: [ field ],
facets: [ field, ... ],
size: [ field ],
opacity: [ field ],
geomType: 'interval' | 'point' | 'rect' ...
page: [ field, ... ]
filter: [ field, ... ]
}

根据这种通用性的specification,结合具体的图表组件,生成图表用的specification,如下。

image.png
根据specification生成图表,如下。
visualization (2).svg

在Notebook互动中获得的一些其他结果

visualization (10).svgvisualization (12).svgvisualization (13).svgvisualization (14).svg

visualization (8).svg

visualization (9).svg

visualization (6).svg

资源链接

Author: Lobay Kanna
Link: http://lobay.moe/2019/10/09/Log/visual-insight-Test-log/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.