大数据学习的三个“敲门砖”

程序员文章站 2023-11-30 10:53:16

“第一砖”从相认到相识什么是大数据？可能有人会说写字楼的所有人的资料信息就是个大数据。NO！这里的数据只能说比较大，但却不能称之为大数据。百度百科上给出了很明确的解释“大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策 ......

“第一砖”从相认到相识

什么是大数据？可能有人会说写字楼的所有人的资料信息就是个大数据。no！这里的数据只能说比较大，但却不能称之为大数据。百度百科上给出了很明确的解释“大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”

大数据学习的三个“敲门砖”

大数据学习资料分享群119599574

大数据有五个特点（ibm提出）：volume（大量）、velocity（高速）、variety（多样）、value（低价值密度）、veracity（真实性）。其中volume就是普遍认为的数据足够大，因此数据大并不能说就是大数据，话句话说数据大只是大数据其中的一个特点。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

现在我们“从相认到相识”，清楚的认识什么是大数据，如果区分大数据和数据大，是我们学习大数据走的第一步。

“第二砖”拜师学艺，融汇百家

拥有了“第一砖”后就是你即将选择师门的时候了，敲开山门的“第二砖”则是学习大数据的基础，就如同在门派中修炼内功，有助你行走江湖，话不多说我们来看看会涉及到哪些基础吧！

大数据学习的三个“敲门砖”

1、 javase，ee(ssm)

90%的大数据框架都是java写的。

如：mongodb--最受欢迎的，跨平台的，面向文档的数据库。 hadoop--用java编写的开源软件框架，用于分布式存储，并对非常大的数据集进行分布式处理。

spark --apache software foundation中最活跃的项目，是一个开源集群计算框架。

hbase--开放源代码，非关系型，分布式数据库，采用google的bigtable建模，用java编写，并在hdfs上运行。

2、 mysql（必须需要掌握的）

sqlon hadoop又分：

batch sql（hive）：一般用于复杂的 etl 处理，数据挖掘，高级分析;

interactive sql：交互式 sql 查询，通常在同一个表上反复的执行不同的查询；

operation sql：通常是单点查询，延时要求小于 1 秒，该类系统主要是hbase。

3、linux

linux（一种操作系统，程序员必须掌握的，我的博客里有我对linux的介绍）大数据的框架安装在linux操作系统上

“第三砖”进阶提高，力挽狂澜

学习了大数据基础后，我们要做到就是在实际的数据分析上，如何去解决问题，所以如何分析数据就是我们的重点了，在数据中分析出有利于我们的数据则是我们的目标，小编我总结了以下几种方法，供大家参考，但方法是死的，人是活的，如何融会贯通就靠我们自己不断是尝试学习哦！

1、大数据离线分析

一般处理t+1数据（t是指日、周、月、年），处理历史数据

模块1：hadoop

包括四大块（common、yarn、mapreduce、hdfs）

主要掌握环境搭建、处理数据的思想

模块2：hive

大数据数据仓库

通过写sql对数据进行操作，类似于mysql数据库中的sql

模块3：hbase

基于hdfs的nosql数据库面向列的存储

2、大数据机器学习

spark mllib:机器学习库

pyspark编程：python和spark的结合

推荐系统

python数据分析

python机器学习

总结：学习大数据的三个“敲门砖”，希望能对大数据有兴趣的朋友一种启发式作用，方法的学习还需要在有兴趣的基础上刻苦专研、融会贯通。大数据学习资料分享群119599574

上一篇：解析oracle对select加锁的方法以及锁的查询

下一篇：入门篇:CorelDRAW10 多边形工具使用方法

大数据学习的三个“敲门砖”

SQL学习笔记二创建表、插入数据的语句

Vuejs学习笔记之使用指令v-model完成表单的数据双向绑定

Vue源码学习之关于对Array的数据侦听实现

数据库分析工具有哪些（实测最好用的5大工具）

MySql学习day03：数据表之间的连接、查询详解

浅谈Mysql、SqlServer、Oracle三大数据库的区别

数据库分析工具有哪些（实测最好用的5大工具）