《数据之美》:透视数据之美的炫酷工具书
因为2020庚子鼠年这不平凡的一年,开年伊始的新型冠状病毒来势汹汹,到现在仍然在全球范围肆虐……神奇的“大数据”开始崭露头角,清晰的展现各地疫情和百姓诉求,提前判断预警;神奇的“疫情热点图”迅速锁定密切接触者,精准控制追踪!
人们最想了解的数据信息,都以生动活泼的图表、图形展现出来。动态的疫情追踪图,卡通的防疫生活指南,不同场景下的行动指南,都做得鲜艳有趣,很快抚平人们心中的不安,生活也慢慢恢复正常。这些鲜活的图形图表迅速深入人心,也让我关注到一本研究数据图形的书—《数据之美》。
这是一本关于数据呈现方式的颠覆之作,受到《经济学人》年度推荐,位列亚马逊数据和信息可视化图书第三位。作者提供了详实的可视化信息,通过探索数据的多元视角,丰富了人们对于数据、对于可视化的认知,对于希望看透大数据背后故事的人,这无疑是一本必读书。
本书作者邱南森,加州大学洛杉矶分校统计学博士,超级数据迷,专注于数据可视化与个人数据收集。他曾在《纽约时报》和CNN工作过,认为数据和信息图不仅适用于分析,同时更是一种媒介,用来讲述与数据有关的故事。他的目标是让非专业人士读懂并用好数据。
本书从以下三个重点,通俗详细的介绍了数据与可视化的奇妙关系:
第一个重点:数据是现实世界的抽象表达,是可视化的基础。
数据是什么?大部分人都会含糊的回答,数据就是表格里的数字,有技术背景的人会提到数据库。然而,这些回答只是说明了数据的格式和存储方式,并没有涉及到数据的本质。事实上,数据描绘了现实生活,就像现实世界的一个快照。
书中拿一组婚纱照举例,每张照片都包含了人物、地点、事件等多种信息,形成一个数据点。但如果只有一张照片,没有背景信息说明,就很难观察到这项数据的实质,甚至容易产生误解。
就如同数据点是人的回忆,而数据集是肖像和日记一样。需要从数据集中提取信息,以理解数据表达的现实世界。统计学家和开发人员把这叫做分析,而艺术家和设计者称其为讲述。
还拿刚才的婚纱照举例,如果按照时间顺序排列照片,就能感受到婚礼的过程;把照片放在一起做成相格,展现的是婚礼中的情景;按数量多少做成时段表,照片最多的时候一定是婚礼的高潮。
再回到“数据是什么”的问题,数据是对现实生活的抽象表达,而现实生活是复杂的,必须了解数据和它所代表事物之间的关联,才能深层次理解数据,这也是可视化的基础和关键。
书中展示了盖瑞德•劳伊德制作的“100秒世界历史”,简直美得不可方物。这是基于带有地理标签的事件描述,做的一段代表“世界历史”的地图动画,图里把英语国家的每个事件条目,做成一个鼓起的亮点,最终的效果令人赞叹。
通俗的讲,可视化的目的是“让数据说话”,这意味着除了数据代表的形状、颜色和大小,还要提供数据的背景信息,排版、呈现方式和合理的布局也要通盘考虑。
然而数据可视化的核心,毕竟是分析和研究数据,读者的注意力、参与度和愉悦感,会随着数据研究的深入逐渐淡化,所以可视化的娱乐性和幽默感也要参与进来。
马修•迈特做的“图解博士是什么”,通过不同大小的圆形代表知识,不同颜色的箭头代表学习过程,形象的展示了博士的成长历程,最后的”学无止境”圆圈,让人忍俊不禁。
第二个重点:可视化是数据的抽象表达,是现实世界的呈现。
不同类型的数据组件,构成了可视化设计的原材料,主要分四种:视觉暗示、坐标系、标尺和背景信息。可视化就是基于数据和这四种组件创建的,去完美的呈现现实世界。
视觉暗示就是把数据映射成彩色图形,包括位置、长度、角度、方向、形状、面积、体积、饱和度和色调,这些要素在书中都有通俗易懂的图片和解释。
坐标系有直角坐标系、极坐标系、地理坐标系,直角坐标系在绘制图表中最常见,极坐标系就是传统的饼图,地理坐标系可以映射位置数据,对现实世界的呈现更形象。
标尺包含数字标尺、分类标尺、时间标尺,它和坐标系决定了图形的位置及投影方式。
背景信息就是帮助理解数据的5W信息,即何人(who),何事(what),何时(when),何地(where),何因(why),这些信息让可视化的效果更清晰,正确引导读者。
可视化是一个抽象的过程,是把数据映射到几何图形和颜色上。要完成从数据到可视化的飞跃,就必须灵活运用以上的四种数据组件,尽情发挥每部分的作用。
每个可视化项目的步奏,会随着不同数据集和目的而不同,但主要的过程有四个步奏:拥有什么数据;关于数据想了解什么;使用哪种可视化方式;最后看到了什么,有意义吗?
第三个重点:面向读者的可视化设计是图形和现实世界的纽带。
所有的可视化结果,都是要面对读者的,所以要和大量读者进行交流,只有和读者理解数据的方式一样,数据的可视化效果才能行的通,读者才能读到现实世界。
因此要避免为了新颖而使数据难以理解。制作图表时,要在功能和独特性间取得平衡,充分利用数据的相关性,给读者自行选择的权利,增加读者的代入感。
作者用莫里茨•斯特凡的“幸福生活指数”举例,图中每朵花代表一个国家,每朵花有11个花瓣,每个花瓣代表一个维度的数据,如住房情况、消费和家庭收入等,读者可以快速整体浏览,也可以自己选择花瓣,探索定义自己想要看到的幸福生活指数。
可视化和视觉相关,看上去很美的图表,更容易让人们理解和认同图表所要表达的内容。具体规则的使用,展现方式的选择,都是为了保证读者正确的理解作品,呈现图形背后的现实世界。
本书是数据可视化的入门读物,写的浅显易懂,书中没有高深的专业术语,全书言简意赅,可读性很强,适合初学者或对图表图形感兴趣的人细细品味!
身处大数据的浪潮中,面对飞速发展的社会,快速高效的获取信息,看懂纷繁的现实世界,每个人都希望能一试身手,位居潮头。让我们学习可视化数据的方式,避免在“信息海洋”中沉溺,去享受数据时代的“奇幻漂流”!