一小时搭建实时数据分析平台

程序员文章站 2022-03-09 11:00:30

实时数据分析门槛较高，我们如何用极少的开发工作就完成实时数据平台的搭建，做出炫酷的图表呢？如何快速的搭建实时数据分析平台，首先我们需要实时数据的接入端，我们选择高扩展性、容错性、速度极快的消息系统Kafka，而实时数据仓库，由于 Druid提供了非常方便快捷配置方式，如果不想编写负责的Flink和 ......

一小时搭建实时数据分析平台

实时数据分析门槛较高，我们如何用极少的开发工作就完成实时数据平台的搭建，做出炫酷的图表呢？

一小时搭建实时数据分析平台
如何快速的搭建实时数据分析平台，首先我们需要实时数据的接入端，我们选择高扩展性、容错性、速度极快的消息系统kafka，而实时数据仓库，由于 druid提供了非常方便快捷配置方式，如果不想编写负责的flink和spark代码，druid绝对是一个不错的选择，有了数据仓库，我们必须需要一个可视化和交互式分析的平台，对druid支持最好的无疑是superset了。

请注意，druid目前并不支持windows，所以我们将kafka 与 druid部署于我们的centos服务器中，而superset，可以在本地安装。

最终我们通过kafka的实时数据接入能力，druid的实时数据仓库存储，聚合能力，superset的数据可视化与交互式分析能力，快速的搭建一套实时数据分析平台。

注：对于本教程需要的所有安装包，如果需要请在公众号回复 “实时数仓安装包” 下载

如果已有安装包，文中的download安装包内容可以跳过~

一、centos下安装kafka

kafka是由apache软件基金会开发的一个开源流处理平台，由scala和java编写。kafka是一种高吞吐量的分布式发布订阅消息系统。

下载安装包

查看centos版本 cat /etc/redhat-release 我的是7.6

一小时搭建实时数据分析平台

访问kafka官网

选择左下方download按钮

一小时搭建实时数据分析平台

最新的版本已经是2.5 为了与公司版本统一我们下滑选择1.0.0 注意选择二进制安装包

一小时搭建实时数据分析平台

启动

上传包到服务器进入所在目录

解压安装包：

tar -zxvf kafka_2.11-1.0.0.tgz

进入kafka目录 cd kafka_2.11-1.0.0

目录结构如下：

一小时搭建实时数据分析平台

如果需要用自己的 zookeeper 多集群配置需要修改 vi config/server.properties

我们这里启动kafka自带zk：-daemon 为后台启动

./bin/zookeeper-server-start.sh -daemon config/zookeeper.properties

启动kafka

./bin/kafka-server-start.sh -daemon config/server.properties

不报错的话查看进程是否正常运行 zk运行端口2181 kafka运行端口 9092

netstat -tunlp|egrep "(2181|9092)"

一小时搭建实时数据分析平台

kafka安装成功！

我们用命令行感受一下kafka

用一个生产者向test里发消息

./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test

再开启一个终端：

进入kafka的目录

开启消费者监听消息

./bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning

回到刚才的生产者发送消息

一小时搭建实时数据分析平台

再看消费者一端消息收到了

一小时搭建实时数据分析平台

二、centos安装druid

druid是一个分布式的支持实时分析的数据存储系统。通俗一点：高性能实时分析数据库。它由美国广告技术公司metamarkets于2011年创建，并且于2012年开源。metamarkets是一家专门为在线媒体公司提供数据服务的公司，主营是dsp广告运营推送平台，由于对实时性要求非常高，公司不得不放弃原始的大数据方案，druid也就应运而生。

下载安装包

druid官网地址

选择download

一小时搭建实时数据分析平台

进入download页

一小时搭建实时数据分析平台

其他版本下载地址：

我们使用的版本是0.17.0

一小时搭建实时数据分析平台

上传包到服务器

解压

tar -zxvf apache-druid-0.17.0-bin.tar.gz

进入目录

cd apache-druid-0.17.0

目录结构如下

一小时搭建实时数据分析平台

我们选择最轻量的而服务器配置：

启动

单服务器参考配置

nano-quickstart：1个cpu，4gb ram

启动命令： bin/start-nano-quickstart

配置目录： conf/druid/single-server/nano-quickstart

cd apache-druid-0.17.0/conf/druid/single-server/nano-quickstart/
vi _common/common.runtime.properties

修改zk地址
#
# zookeeper，大概在46~55行中间，对zk进行配置
#
druid.zk.service.host=localhost:2181

修改默认端口验证

vi bin/verify-default-ports

把这行的2181去掉

my @ports = @argv;
if (!@ports) {
  @ports = (1527,  8083, 8090,  8100, 8200, 8888);
}

我们也可以自定义端口都要在这里修改

随后我们启动

bin/start-nano-quickstart

启动成功！！

一小时搭建实时数据分析平台

访问页面localhost:8888

一小时搭建实时数据分析平台

druid已经成功启动！

导入kafka数据

在kafka目录中运行命令 {path_to_druid}替换为druid目录这些是druid的测试数据

export kafka_opts="-dfile.encoding=utf-8"
./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic wikipedia < {path_to_druid}/quickstart/tutorial/wikiticker-2015-09-12-sampled.json

载入kafka数据到druid

请将localhost替换为安装服务器的地址！

进入localhost:8888 点击load data

选择apache kafka并单击connect data

一小时搭建实时数据分析平台

输入kafka服务器`localhost:9092`

输入topic wikipedia 可以预览数据然后下一步

一小时搭建实时数据分析平台

解析数据

一小时搭建实时数据分析平台

解析时间戳设置转换设置过滤

一小时搭建实时数据分析平台

这步比较重要确定统计的范围

一小时搭建实时数据分析平台

发布！

一小时搭建实时数据分析平台

等待任务完成

一小时搭建实时数据分析平台

去查询页面查看，我们的数据已经实时写入druid了

一小时搭建实时数据分析平台

三、本地安装superset

superset 是一款由 airbnb 开源的“现代化的企业级 bi（商业智能） web 应用程序”，其通过创建和分享 dashboard，为数据分析提供了轻量级的数据查询和可视化方案。

win10安装python 3.7

下载

python官网,点击进入https://www.python.org/

一小时搭建实时数据分析平台

点击python官网的downloads,然后在下拉菜单中点windows,进入版本选择页面
一小时搭建实时数据分析平台

进入版本选择页面,可以在最上面看到有python3的最新版和python2的最新版,在这里点击python3.7.3进入下载页面进入下载页面后,向下滚动鼠标,找到"files",这里列出了python3.7.3版本的不同操作系统的安装包或相关文件,我们是在windows10里面安装,选择对应版本的安装包下载,点击下载,等待一会就可以下载完成了

一小时搭建实时数据分析平台

安装

将下载完成的python3.7.3安装包剪切到电脑桌面(不放桌面也可以,只是这样更方便),双击打开,然后将下方的两个选项框都打钩,再点击customize installation进入下一步

一小时搭建实时数据分析平台

这个界面默认所有选项都是打钩的,保持默认即可,点击next进入下一步

一小时搭建实时数据分析平台

将install for all users选项打钩,其他的选项保持默认,此时下方的默认安装路径为c:\program files\python37,这里可以点击browse,根据自己的需求选择安装目录,但是目录名中最好不要包含中文.

如果c盘有很多空间,可以不更改,或者有固态硬盘的,可以选择将python3.7.3装在固态盘中.

一小时搭建实时数据分析平台

确认好安装位置后,点击install进行安装

现在python3.7.3开始安装,可以看到安装的进度条在读条,什么也不用做,稍等一会就安装完成了

进度条完成,会显示下面的菜单,表示已经安装成功了,现在点击close即可,python3.7.3已经安装成功了

一小时搭建实时数据分析平台

验证

在安装完成python3.7.3后,已经自动帮我们配好了环境变量(非常省事),我们直接在命令行里面使用python命令,就会进入python3.7.3的交互界面.

按win+r进入运行界面,在里面输入cmd回车,进入windows的命令行,在命令行输入python37可以进入python3.7.3的命令行模式,(输入a = 1,然后输入a,控制台输出1)测试成功,说明python3.7.3安装成功

一小时搭建实时数据分析平台

win10安装superset

安装

使用pip 需要下载一会~ 网不好可能下载失败，需要重新执行，之前下载的会缓存，网速不好的话可能很难~ 耐心一点

pip install apache-superset

一小时搭建实时数据分析平台

成功！！

一小时搭建实时数据分析平台

记录一下superset的安装位置进入该目录

初始化

# 初始化数据库
python superset db upgrade

这个过程中会提示缺少包，初始化失败

一小时搭建实时数据分析平台

依次安装即可比如这里缺少 flask_migrate

我们就

pip install flask_migrate

# 创建管理员账号
python superset fab create-admin

提示输入用户名密码

一小时搭建实时数据分析平台

# 载入案例数据 也会有点慢 服务器在国外 也可以多试几次 不行可以跳过
python superset load_examples

一小时搭建实时数据分析平台

# 初始化角色和权限
python superset init

一小时搭建实时数据分析平台

# 启动服务，默认端口号 5000，使用 -p 更改端口号
python superset run

成功！！

一小时搭建实时数据分析平台

浏览器访问http://localhost:5000/

一小时搭建实时数据分析平台

superset查询展示druid数据

这时候还不能连druid

需要安装pydruid

pip install pydruid

重启superset

新建数据源

一小时搭建实时数据分析平台

成功！！保存

一小时搭建实时数据分析平台

新建刚才的表

一小时搭建实时数据分析平台

进入表设置展示效果

一小时搭建实时数据分析平台

这里根据数据情况进行各种展示设置

一小时搭建实时数据分析平台

选择sqllite 进行sql查询

一小时搭建实时数据分析平台

至此实时数据分析平台已经搭建完成，可以进行实时数据的接入，展示，分析等等工作。

java 向kafka中发送数据demo

依赖

<dependency>
            <groupid>org.apache.kafka</groupid>
            <artifactid>kafka-clients</artifactid>
            <version>1.0.0</version>
        </dependency>

demo

public class producertestdemo {
    public static void main(string[] args) throws exception {

        properties properties = new properties();
        properties.put("bootstrap.servers", "localhost:9092");
        properties.put("acks", "all");
        properties.put("retries", 0);
        properties.put("batch.size", 16384);
        properties.put("linger.ms", 1);
        properties.put("buffer.memory", 33554432);
        properties.put("key.serializer", "org.apache.kafka.common.serialization.stringserializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.stringserializer");
        kafkaproducer<string, string> kafkaproducer = new kafkaproducer<string, string>(properties);
            try{
                bufferedreader br = new bufferedreader(new filereader(new file("c:\\aaa.csv")));
                string s = null;
                while((s = br.readline())!=null){
                    kafkaproducer.send(new producerrecord<string, string>("topic", s));
                }
                br.close();
            }catch(exception e){
                e.printstacktrace();
            }
        kafkaproducer.close();
    }
}

转自：https://www.cnblogs.com/tree1123/p/12793896.html

上一篇：如何找到Hive提交的SQL相对应的Yarn程序的applicationId

下一篇： Kylin on Parquet 介绍和快速上手

一小时搭建实时数据分析平台

一、centos下安装kafka

下载安装包

启动

二、centos安装druid

下载安装包

启动

导入kafka数据

载入kafka数据到druid

进入localhost:8888 点击load data

输入kafka服务器`localhost:9092`

输入topic wikipedia 可以预览数据然后下一步

解析数据

解析时间戳设置转换设置过滤

这步比较重要确定统计的范围

发布！

等待任务完成

去查询页面查看，我们的数据已经实时写入druid了

三、本地安装superset

win10安装python 3.7

下载

安装

验证

win10安装superset

安装

初始化

superset查询展示druid数据

使用HttpReports快速搭建API分析平台

在MAC上搭建python数据分析开发环境

JAVAEE——宜立方商城06：Redis安装、数据类型和持久化方案、Redis集群分析与搭建、实现缓存和同步

Highcharts＋NodeJS搭建数据可视化平台示例

Teradata发布大数据综合分析平台：让数据会说话

Android中Service实时向Activity传递数据实例分析

2013大数据真谛：实时分析与批量处理

IDEA强悍了调试器竟然支持实时数据流分析啦提前知道代码怎么跑？

招聘网站使用云计算作为数据分析交付平台

3.7亿条保单数据怎么分析？这个大数据平台有绝招

一小时搭建实时数据分析平台

一、centos下安装kafka

下载安装包

启动

二、centos安装druid

下载安装包

启动

导入kafka数据

载入kafka数据到druid

进入localhost:8888 点击load data

输入kafka服务器localhost:9092

输入topic wikipedia 可以预览数据 然后下一步

解析数据

解析时间戳 设置转换 设置过滤

这步比较重要 确定统计的范围

发布！

等待任务完成

去查询页面查看，我们的数据已经实时写入druid了

三、本地安装superset

win10安装python 3.7

下载

安装

验证

win10安装superset

安装

初始化

superset查询 展示druid数据

使用HttpReports快速搭建API分析平台

在MAC上搭建python数据分析开发环境

JAVAEE——宜立方商城06：Redis安装、数据类型和持久化方案、Redis集群分析与搭建、实现缓存和同步

Highcharts＋NodeJS搭建数据可视化平台示例

Teradata发布大数据综合分析平台：让数据会说话

Android中Service实时向Activity传递数据实例分析

2013大数据真谛：实时分析与批量处理

IDEA强悍了调试器竟然支持实时数据流分析啦提前知道代码怎么跑？

招聘网站使用云计算作为数据分析交付平台

3.7亿条保单数据怎么分析？这个大数据平台有绝招

输入kafka服务器`localhost:9092`

输入topic wikipedia 可以预览数据然后下一步

解析时间戳设置转换设置过滤

这步比较重要确定统计的范围

superset查询展示druid数据