云计算技术之数据可视化教程
云计算技术之数据可视化教程。
? ??最近刚刚接触数据可视化,手头的书有两本:《数据可视化的基本原理与方法》、《大数据可视化》,网上也有很多的资源,相信这些足够我先入门了,打算写一些笔记,记录自己学习的过程,就以本文开始吧!
首先要弄清楚几个问题:
? ? 什么是大数据?
? ? 什么是数据可视化?
????为什么要数据可视化?
下面就进入正文! 什么是大数据
? ? 关于大数据的定义,网上有很多版本,但我觉得最容易理解的还是:大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。这是一个很主观的定义,并没有具体的说多少TB的数据才叫大数据。因为技术是不断发展的,或许若干年以后,处理几十TB或几十PB的数据就像现在处理几十MB的数据那样简单。
? ? IBM原先提出可以用三个特征来定义大数据,后又归纳总结出了第四个特征,即现在大数据的4V特征:Volume、Variety、Velocity、Veracity。
? ? Volume(数量):用现有的技术无法管理的数据量,现在来看,基本上是TB到PB的数量级,当然上面提到,随着技术的几部,这个数值会不断提升。
? ? Variety(多样性):现在各种传感器、智能设备呈现井喷的态势,企业的数据也变得更复杂,因为不仅仅包含的传统关系型数据库的结构化数据,还包括网络的日志文件、搜索索引、各种论坛、邮件、文档等半结构化和非结构化的数据。
? ? Velocity(速度):不知大家知不知道”1s定律“,就是说要在秒级的时间范围内给出分析结果,否则数据将失去价值。这里强调的数据的处理速度,其实还有一个数据的产生速度。例如新年大家发送的祝福信息,大多都集中在那几个小时,甚至几十分钟。还比如淘宝的双十一活动,相信等在零点下单的用户不计其数,那么这时订单数据就是一个爆发式的产生。
? ? Veracity(真实性):数据的重要性就在于它可以为决策提供支持,而单单数据的规模并不能提供实际的帮助,数据的真实性和可靠性才是制定正确决策的基础。换而言之,只有真实而准确的数据才能让对数据的管控和治理真正的有意义。
? ? 大数据具有各种各样的形式,从高度结构化的财务数据到文本文件、多媒体文件等非结构化数据,都可以叫大数据。而处理大数据的首选方法就是大规模的并行处理,例如Hadoop体系的核心就是MapReduce,Map(映射),Reduce(规约),一个典型的分治的思想。下图显示了几种不同数据结构的特点。而且未来产生的数据,绝大部分都不会是结构化的数据。
结构化 ? ? ? ? ? ? ? ? ? ? ? ?? | 预先定义好的数据类型、格式。数据一般以行为单位,一行数据表示一个实体的信息。例如关系型数据中的表。 |
半结构化 | 具有可识别的模式并可以解析的文本数据文件,用相关标记来分隔元素,例如XML文件和Json文件。 |
非结构化 | 没有固定的格式,通常都保存为不同类型的文件。例如文本文档、PDF文档、视频和图像。 |
????我们希望和喜欢对高度结构化的数据进行分析和处理,然而不幸的是,结构化的数据太少,而非结构化的数据太多。而处理分析非结构化的数据,则需要不同的技术,不同的方法,这里不深入讨论。
? ? 另外,我想分享在书中看到的一个思维转变——我们尝试着不再探求难以捉摸的因果关系,转而关注事物的相关关系。相关关系也许不能准确的告诉我们某件事情为何发生,但会提醒我们这件事正在发生。也就是说大数据告诉我们“是什么”而不是“为什么”。书中举了2个例子:如果上百万条医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出句具体的药理机制就没有这种治疗方法本身更重要。同样的,只要我们知道什么时候买机票最便宜,就算不知道机票价格大幅波动的原因也无所谓了。在大数据时代,我们有时真的不必知道现象背后的原因,只需要让数据自己发声,我们就会注意到很多以前从来没有意识到的联系的存在。
? ? 传统情况下,我们都是通过因果关系来了解世界。当我们看到两件事情接连发生的时候,我们就会习惯性的从因果关系的角度来看待它们。在原来的小数据时代,我们已经习惯了信息的匮乏,所以习惯了在少量数据的基础上进行推理思考。而现在的大数据时代,各种分析方法和工具能够很好的找出海量数据中的相关关系,从而通过相关关系来了解世界。可以预见的是,在未来,快速清晰的相关关系分析比慢速的因果分析更有用和更有效。
好了,闲聊到此结束,接下来看看第二个问题。
什么是数据可视化
????书中的定义为:数据可视化是利用计算机的一些技术,如计算机图形学、图像、人机交互等,将收集到的数据映射为可轻易识别的图形、图像、视频或动画,并且允许用户对数据进行交互分析。我可以简单的这样理解,数据可视化就是将繁杂的数据中不可见的现象、潜在规律、趋势等通过图形图像直观的展现出来。而数据可视化又包含2个分支:科学可视化和信息可视化
? ? 科学可视化发展的很早,主要关注的是三维现象的可视化,例如建筑学、生物学、医学等。比如进行地形地貌的绘制,生物遗骸骨骼的绘制,医学影像的绘制等。
? ? 信息可视化处理的对象都是比较抽象的,非结构化的数据集(如文本文档,图表等)。最简单的例子就是在excel中用数据生成折线图、柱形图等。当然,实际应用的信息可视化会比这复杂的多。
接下来最后一个问题。
数据为什么需要可视化
? ? 首先我们要知道,我们人类的视觉能吸纳多少信息呢?据估计,人类视网膜视觉输入信息的速度可以和以太网的传输速度相媲美,能以大约每秒10兆的速度传达信息,是不是很恐怖。换句话说,我们通过视觉接受信息的速度比用其他感官接受信息的速度快了10-100倍。如果能将包含大量数据的信息压缩成图片图像,那我们接受这些信息的速度会很快很快。而且,我们似乎也更愿意看图片、图像。
? ?现在是一个数据爆炸的时代,每时每刻都在产生海量的数据,需要处理的数据量也越来越大。所以如果我们将数据通过可视化的技术直观展现出来,会让我们更加高效的分析数据背后的规律,从而制定相应的决策。或者我举一个简单的例子,我们现在日常使用的各种地图软件,可以理解为将位置坐标等数据通过一些技术手段可视化出来,形成一张平面的地图,我们看到地图会容易知道到哪儿去该怎么走,试想,如果仅仅给你一堆坐标数据,你还会走吗?