离线数据分析流程介绍

程序员文章站 2022-04-15 10:05:24

...

3. 离线数据分析流程介绍

注：本环节主要感受数据分析系统的宏观概念及处理流程，初步理解hadoop等框架在其中的应用环节，不用过于关注代码细节

一个应用广泛的数据分析系统：“web日志数据挖掘”

离线数据分析流程介绍

3.1 需求分析

3.1.1 案例名称

“网站或APP点击流日志数据挖掘系统”。

3.1.2 案例需求描述

“Web点击流日志”包含着网站运营很重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问人数最多，哪个网页最有价值，广告转化率、访客的来源信息，访客的终端信息等。

3.1.3 数据来源

本案例的数据主要由用户的点击行为记录

获取方式：在页面预埋一段js程序，为页面上想要监听的标签绑定事件，只要用户点击或移动到标签，即可触发ajax请求到后台servlet程序，用log4j记录下事件信息，从而在web服务器（nginx、tomcat等）上形成不断增长的日志文件。

形如：

58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"

3.2 数据处理流程

3.2.1 流程图解析

本案例跟典型的BI系统极其类似，整体流程如下：

离线数据分析流程介绍

但是，由于本案例的前提是处理海量数据，因而，流程中各环节所使用的技术则跟传统BI完全不同，后续课程都会一一讲解：

1) 数据采集：定制开发采集程序，或使用开源框架FLUME

2) 数据预处理：定制开发mapreduce程序运行于hadoop集群

3) 数据仓库技术：基于hadoop之上的Hive

4) 数据导出：基于hadoop的sqoop数据导入导出工具

5) 数据可视化：定制开发web程序或使用kettle等产品

6) 整个过程的流程调度：hadoop生态圈中的oozie工具或其他类似开源产品

3.2.2 项目技术架构图

离线数据分析流程介绍

3.2.3 项目相关截图（感性认识，欣赏即可）

a) Mapreudce程序运行

离线数据分析流程介绍

b) 在Hive中查询数据

离线数据分析流程介绍

c) 将统计结果导入mysql

./sqoop export --connect jdbc:mysql://localhost:3306/weblogdb --username root --password root --table t_display_xx --export-dir /user/hive/warehouse/uv/dt=2014-08-03

3.3 项目最终效果

经过完整的数据处理流程后，会周期性输出各类统计指标的报表，在生产实践中，最终需要将这些报表数据以可视化的形式展现出来，本案例采用web程序来实现数据可视化

效果如下所示：

离线数据分析流程介绍

以上就是离线数据分析流程介绍的详细内容，更多请关注其它相关文章！

离线数据分析流程介绍

3. 离线数据分析流程介绍

3.1 需求分析

3.1.1 案例名称

3.1.2 案例需求描述

3.1.3 数据来源

3.2 数据处理流程

3.2.1 流程图解析

3.2.2 项目技术架构图

3.2.3 项目相关截图（感性认识，欣赏即可）

3.3 项目最终效果

Android Intent传递数据底层分析详细介绍

Android Intent传递数据底层分析详细介绍

Android中打电话的数据流程分析

Android Studio 通过登录功能介绍SQLite数据库的使用流程

Android中打电话的数据流程分析

Python基础一：计算机基础，Python相关介绍，变量，常量，注释，基础数据类型（int，str，bool），用户交互input，流程控制语句if

Python之数据分析工具包介绍以及安装【入门必学】

Excel 中一个强大的数据分析功能筛选应用实例介绍

深入SqlServer2008 数据库同步的两种方式(Sql JOB)的分析介绍

快速介绍Python数据分析库pandas的基础知识和代码示例

离线数据分析流程介绍

3. 离线数据分析流程介绍

3.1 需求分析

3.1.1 案例名称

3.1.2 案例需求描述

3.1.3 数据来源

3.2 数据处理流程

3.2.1 流程图解析

3.2.2 项目技术架构图

3.2.3 项目相关截图（感性认识，欣赏即可）

3.3 项目最终效果

Android Intent传递数据底层分析详细介绍

Android Intent传递数据底层分析详细介绍

Android中打电话的数据流程分析

Android Studio 通过登录功能介绍SQLite数据库的使用流程

Android中打电话的数据流程分析

Python基础一： 计算机基础，Python相关介绍，变量，常量，注释，基础数据类型（int，str，bool），用户交互input，流程控制语句if

Python之数据分析工具包介绍以及安装【入门必学】

Excel 中一个强大的数据分析功能筛选应用实例介绍

深入SqlServer2008 数据库同步的两种方式(Sql JOB)的分析介绍

快速介绍Python数据分析库pandas的基础知识和代码示例

Python基础一：计算机基础，Python相关介绍，变量，常量，注释，基础数据类型（int，str，bool），用户交互input，流程控制语句if