[Note] 文本和文档可视化
文本可视化释义
- 文本信息无处不在,为更高效的文本阅读和分析方法,文本可视化应运而生。
- 文本可视化的核心是辅助用户准确的从文本中提取并简洁直观的展示信息
文本信息的层级
- 词汇级
- 文本信息的最小单元,包括字、词、短语以及他们在文章中的分布统计、词根、词位等相关信息
- 提取方法通常通过分词技术,最常用的为正则表达式定义的有限向量机
- 语法级
- 语法级信息包括:词性、单复数、词与词之间的相似性,以及地点、时间、日期、人名等实体信息
- 提取过程被称为命名实体识别
- 语义级
- 文本的最高层信息
- 包含词汇和语法级所提取的知识在文本中的含义,如文本字词、短语等在文本中的含义和彼此间的关系;作者通过文本表达的信息,如文档的主题等
文本可视化研究的内容
- 文本文档的内容多种多样
- 单文本
- 文档集合
- 时序文本
- 有普适性的可视化技术,也有对特定分析需求研发了具有特性的可视化技术
文本可视化流程
1. 文本信息挖掘
2. 视图绘制
3. 人机交互
文本信息挖掘
依据可视化任务需求,分析原始文本
- 文本数据的预处理
- 文本特征的抽取
- 文本特征的度量
视图绘制
将提炼的信息转变为直观的可视视图。常常涉及的方面: 图元设计和图元布局方法。
人机交互
如何分析试图、如何操作从而满足分析需求。
文本信息分析基础
分词技术和词干提取
- 分词(Tokenization)
- 文字拆分为多个词项,剔除停词。如‘I have a dream’,分词后‘I, have, dream’,其中‘a’作为停词被剔除
- 词干提取(Stemming)
- 去除词缀获取词根,如‘men’, 提取后为‘man’
向量空间模型
利用向量符号对文本进行度量的代数模型
词袋模型(Bag-of-words model)
- 用来提取词汇级信息
- 对文本进行初步处理后如过滤停词,将文本内容总结为在由关键词组成的集合上的加权分布向量
文本相似度度量
- 方法:词项-文档矩阵构建多个文档的数学模型
- 夹角余弦值等,余弦值越大,两个文档越相似
- 应用:文本分析、文本可视化和信息检索任务等
- 文档彼此的相似度
- 查找文档最匹配用户的查询
- 帮助理解文本集合内的特征模式,如文档聚类和主题分布
TF-IDF
- 一种最常用的权重分配模型
- 核心思想:字词在文档中出现的次数与其重要性相关;字词在不同文档集中出现的次数与其在该文档中的重要性呈负相关
主题抽取
- 语义级别
- 主题模型即文档的主题描述
- 抽取算法
- 基于矩阵分解的非概率模型
- 基于贝叶斯的概率模型
文本内容可视化
基于关键词的文本内容可视化
提取方法:常用的是词频
标签云(Tag Cloud, Text Cloud, Word Cloud)
- 工具:wordle等
- 文档散(DocuBurst)
- 特点:既包含关键词可视化,还包含人类词汇中单词间存在的语义关系(有些词是其他词元的下位词,如weather->wind->breeze
- 文档卡片(Document Cards)
- 利用文档中的关键词和关键图呈现文档的内容
- 方法:文档集合中的每个文档的关键 词和关键图被紧凑的布局在一张卡片上
时序性的文本内容可视化
- 对象:具有时间和顺序属性的文本
- 特点:有序演化
- 方法
- 主题河流
- 将时间隐喻为时间上不断延续的河流
- 方法:横轴为时间,一条河流一个主题,河流的宽度表示该时间点上在所有主题中占得比例
- 局限:每个主题每个时间刻度只能有一个度量值,无法表示更多细节
- TIARA
- 结合标签云和主题留
- 历史流(History Flow)
- 主题河流
文本特征的分布模式可视化
- 文本弧(TextArc)
- 可视化一个文档词和词频的分布情况
- 文献指纹(Literature Fingerprinting)
- 将特征在整个文本的分布用一系列的像素图表达
- 文本特征透镜(Feature Lens)
- 可视化文本特征在一个文档集合中不同粒度的分布情况
情感分析可视化
- 表达文本中蕴含用户情感倾向性的信息
- 用户主观评价对象、对象属性、和用户的意见倾向,还包括自定义的信息等
- 方法: 基于矩阵的视图
文档信息检索可视化
- 辅助了解检索结果,揭示结果的分布规律
- 检索文档、查询项的相似性和检索文档所涉及的词汇
- 工具: TilBar、Sparkler
软件可视化
- 对象:软件设计、软件系统、代码
- 工具:SeeSoft、Code_Swarm