[Note] 时变数据可视化
基础
定义
- 随时间变化,带有时间属性
- 语义分类
- 以时间轴排列的时间序列数据
- 内部具有排列顺序的数据集,如生物DNA测序
- 实际应用中特点
- 量大
- 维数多
- 变量多
- 流模式:无限长度时间轴
- 可视化方法
- 静态方法,不随时间变化,采用多视角、数据比较等体现数据规律
- 动画方法,可视化领域主流观点,由于人类对动画的局限性,谨慎使用动画方式
- 语义分类
不同时间数据的可视化方式
时间属性可视化
- 刻画时间的三种方式
- 线性时间和周期时间
- 时间点和时间间隔
- 顺序时间、分支时间、多角度时间
- 顺序时间: 事件发生的先后
- 分支时间: 一个决策的多个方案
- 多角度时间: 例如不同目击者的报告
线性和周期时间可视化
- 线性时间
- 标准的方式为x轴表示时间,y轴表示其他变量
- 不能表示时间的周期性
- 周期时间
- 时间序列沿圆周排列,一个回路代表一个周期
- 环状表示某时间段内的时间结构,体现数据的周期结构
- 单个时间轴多个属性轴来表示顺序时间、点时间和多角度时间
- 堆叠的语义流方法表达多个变量随时间演化的过程
- 不同的属性采用不同的可视化通道表达
日历时间可视化
参见示例
分支和多角度时间可视化
这类可视化分为线性、流状、树状、图状等
线性多角度时间可视化
- 采用类似甘特图的方式呈现一个完整事件的历程和社会行为
- 采用环形可视化呈现故事蕴含的周期特性
流状分支时间主线可视化
- 基于河流的可视隐喻可展示时序型事件随时间产生流动、合并、分叉和消失的效果,类似小说和电影的主线
时间属性的动态可视化
- 适当的采用动态可视化方法,有助于用户了解整个事件的过程
多变量时变型数据可视化
对于多变量大尺度的时变数据的分析流程符合可视化的基本流程:全局摘要——缩放和过滤。可归纳为 三种方法
- 数据抽象
- 数据降维、特征选取和数据简化等方法增强关键特征抑制不相关细节
- 聚类
- 核心是定义恰当的距离或相似性度量
- 特征分析,包括特征抽取、语义分析等操作
- 基于事件的可视化技术包含事件定义、事件抽取、语义分析
基于线表示的可视化
高维抽象的时变数据具有宏观的、结构的、随时间变化的规律。将每个数据采样点相连形成一条高维 空间的线,在低维空间可视化这条线揭示高维空间的时间序列演化趋势。 步骤
- 高维曲线采样, 频率由用户交互指定
- 采样后的曲线分段,小段间可重叠。分段尺寸、重叠程度由用户交互指定
- 用主元分析法将高维曲线投影到二维空间,显示和研究曲线的特性
???
基于图结构的可视化
基于事件的时变或顺序数据可视化核心是事件演化的组织。
- 根据需求和任务描述点从数据中找到与关注点相匹配的事件,从而对事件分类
- 根据事件的特征描述从输入有序数据中检测事件,得到事件实例
- 可视化检测到的事件
时间序列数据的可视化交互
对大规模的时变数据需要设计合适的交互方法如有概览加上下文、层次细节等表现重要的领域。
工具举例:TimeSearcher
流数据可视化
特点:输入数据(全部或部分)不存储在可随机访问的磁盘或内存中,而是以一个或多个“连续数据流” 的形式到达。
- 潜在大小或许无限
- 在线到达,需实时处理,否则数据价值会随时间流动降低
- 无法控制数据到达的顺序和质量
- 数据处理后要么丢弃要么被归档存储
- 查询异常情况和相似类型比较耗时,人工检测日志乏味且易出错
流数据可视化模型
流数据进入流处理器后经过整理大部分归档到数据库中,关键数据保存在可视化数据库中,然后被可视化
处理器进行处理,经过用户的交互后返回到流处理器继续之前的同样的处理。
流数据可是分析流水线:
/
————————时间分割—————————————————————
↑ ↓ ↓
数据流——— 空间分割———————>摘要/统计————>统计模型/分析模型
↓ ↑ ↑
————————聚合—————————————————————————
流数据处理技术
- 传统数据挖掘的流数据改进算法
- 分类、聚类、频繁模式挖掘、降维等
- 大数据相关统计方法、采样算法、哈希算法等
- 流数据特有算法
- 滑动窗口、数据预测等
窗口技术
在数据集中如果最近的数据更被关心,窗口技术可以对数据在时间上进行限定。
- 滑动窗口(sliding window): 在时间轴上滑动窗口,挖掘窗口内的数据
- 衰减窗口(decaying window):考虑历史数据,为数据项添加随时间不断缩小的衰减因子,从而越老的数据权重越低
- 时间盒(timebox)???:一种交互技术,通过时间盒框选部分数据进行联合搜索
时序数据相似性计算
???
符号技术
???
流数据可视化案例
- 监控型,局部分析
- 用滑动窗口固定一个时间区间,将流数据转化为静态数据,数据更新方式可以是刷新
- 叠加型,历史型,全局分析
- 新数据映射到原来的历史数据可视化结果上,更新方式可谓渐进式更新
???
并行流计算框架
???