[Note] 复杂高维多元数据的可视化

移动互联网时代涌现无数复杂的数据

三位时空数据
视频影像数据
地理信息数据
传感器网络数据
社交网络数据
网络日志数据
等

数据呈现的特点

高维多元书，统计和基本分析方法无法胜任
数据复杂度大大增加
数据的尺度大到超过了单机甚至小型集群处理能力的极限
数据质量尤其其中的数据的不确定性无法避免
数据快速动态变化，常以流式数据存在

高维多元数据

定义

高维：数据具有多个独立属性
多元：数据具有多个相关属性

可视化特点

传统的用不同的视觉编码表示不同属性的数据，在维度高是不适用。

视觉编码的种类有限
过多或过于复杂的视觉编码会降低可视化的可读性

方法

空间映射、图标法、基于像素的可视化方法

空间映射法

散点图及散点图矩阵

对传统散点图的扩展

方法：对于N维数据，采用N^2个散点图逐一表示N个属性之间的两两关系
优势
- 符合人们使用直角坐标系的习惯
- 有效的揭示属性之间的关联
局限
- 过多的散点图会占据有限的屏幕空间，降低可视化的可读性
- 可以通过有限展示重要性较高的散点图缓解

表格透镜（Table Lens）

对传统表格的扩展

行为数据对象，列为属性
将表格中的数值用水平横条或点表示。横条或点占用的空间较小。

平行坐标

每个坐标轴对应一个属性，每个数据对象对应于一条穿过所有坐标轴的折线
根据不同场景灵活的变换平行坐标的方式，如加入散点图等等
- 采用层次化平行坐标可视化数据中的分类信息
- 将散点图技术与平行坐标综合使用
- 采用基于半透明的折线表示法，揭示大规模数据集中的分类信息
- 根据坐标轴之间的相关性进行聚类、重排列等
- 将数据聚成条带，对异常数据进行特殊处理
- 将统计直方图引入到每个坐标轴揭示数据在该属性上的分布
- 用曲线代替折线以更好地表达坐标轴之间的连续性
- 采用自由摆放的坐标轴，即灵活轴线法
局限
- 坐标轴为顺序排列，非相邻的属性之间关系表现较弱
- 解决方法
  - 交互选取感兴趣的部分数据，并高亮显示
  - 改变坐标轴的顺序以显示各个数据维度之间的关系

降维

定义：将多元数据映射或嵌入低维空间，并尽量保持数据在多维空间的关系或特征。
线性方法
- 主元分析
- 多维尺度分析
非线性方法
- 局部线性嵌入
- Isomap

主元分析

多尺度分析

图标法

图标中的不同视觉元素被用来表示数据对象的不同属性。

星形图(Star Plots)/雷达图(Radar Chart)

平行坐标的极坐标版本

每个属性由一个坐标轴表示
每个坐标轴上的值由该属性的值与该属性最大值的比例表示
折线连接所有坐标轴上的点，形成一个星形区域
星形区域的形状和大小反应了数据对象的属性
评价；紧凑；数据维度增加，但总面积不变，人类对形状大小的敏感使得可视化理解容易高效

Chernoff Faces

模拟人脸图标标识数据对象
不同的属性映射为人脸不同的部位和结构
评价
- 人类的视觉和大脑擅长人脸识别，能够观察脸部的细微变化
- 人对脸部的各个部位特征的感知度不同，根据属性的优先级选择人脸的映射部位

基于像素图的方法

???

非结构化与异构数据的可视化

数据复杂度

数据高维度特性
数据的非结构性
数据的异构性

非结构化数据

无法用二维数据表表示的数据
关键是采用合适的表达方法挖掘数据内在的模式，可视化方法依托于数据内在的结构和模式

网络日志数据可视化

定义：记录了用户访问页面及点击事件的行为
作用：帮助了解用户如何使用目标网站、典型的浏览行为，从而帮助网站开发者与用户体验设计师有针对性的改进用体验，提供更优化和定制化的体验
流程
- 从结构化数据日志中提取半结构化
- 利用数据挖掘的方法提取其中的模式
- 可视化呈现

此方法使非结构化数据转为半结构化数据，从而抽取更为结构化的行为模式采用基于马科夫链的自组织映射(Self-organizing Map)将序列按照它们之间的相似关系布局在二维空间中，相似的序列相互靠近聚集成类。

异构数据

异构数据：同一数据集中存在结构或属性不同的数据
异构网络：存在多种不同类别的节点和连接的网络
可视化关键
- 呈现不同的属性的数据
- 利用异构的特性辅助可视化
对于大数据量和高复杂度的数据，可以从异构网络中提炼出本体拓扑结构
更为通用的异构数据可视化方法是将数据属性自动逐一对应到可视化属性
数据的异构性大部分来自于不同的数据源获取方式
底层数据整合
- 物化式
- 虚拟式

大尺度数据的可视化

???

数据不确定性的可视化

数据采集到使用过程中带来的误差和不确定性

来源

数据处理、手机、可视化
- 测量仪器的优劣和测量者知识水平的高低
- 对数据进行过滤、简化、采样等操作
- 可视化算法本身

不确定性的可视化方法

图标法

误差条
- 横轴表示数据实体，纵轴表示统计特征
- 纵轴至少三个值组成
  - 均值、下线误差值和上限误差值
  - 实际使用中，可用标准差或者分位数等定义上限误差值和下限误差值
盒须图，又名箱型图
- 最基本的是一种五数统计图（最大值、上四位数、中位数、下四分位数和最小值）
对不确定二维向量场的可视化，可以对图标（如箭头）进行相应的视觉编码
流场雷达图：一种非稳定流场的静态可视化方法

视觉元素编码法

基本的视觉标量

位置
- 如添加模糊表达不确定性
形状
透明度
颜色
方向
亮度
尺寸
纹理
- 视觉元素的综合体
- 如利用不同粒度的纹理表达等值面上的不确定性
- 纹理合成是一种重要的流场可视化方法 ???

几何体表达法

基本的几何物体

点
- 表达一维不确定性
散点
- 根据点的密集度表示不确定性，越密集不确定性越高
线
- 表达一维不确定性
面
网格
- 表达二维不确定性
- 直线表达确定下较低，曲线表达不确定性较高
体

对于高维不确定性，可以用比较复杂的几何体表示

比如用立方体的三个轴编码三个维度的不确定性

集合数据

为了获取更高的精度，在不同的初始条件或参数配置下多次运行同一数值计算模型或多个不同数值计算模型
可视化方法
- 意大利面图
- 渐变表达
- 渐变丝带
  - 渐变表达的扩展，丝带的宽度编码了等值线的不确定性

几何体表达法在引入代理几何体表示不确定性时，也极大地影响了原有确定性数据的可视化结果。

动画表达法

理论：人类视觉系统的前注意处理过程(Preattentive processs)，运动具有极高的处理优先级
动画的可视化编码：速度、持续时间、运动范围、运动顺序、运动模糊、闪烁等
基本思想: 将不确定性隐式地编码于一个与时间相关的函数
对比静态可视化
- 更长的理解曲线
- 容易造成视觉疲劳

第十二章：复杂高维多元数据的可视化