大数据---Ranger-1
背景:从软通出来,告别华为外包,离开h区,进入了一家搞大数据的创业公司,感觉周围都好陌生,记录下自己大数据的career!
2019-03-4新的征程-入职第一天:
一、办理入职手续
公司人比较少,没有入职培训等操作;用了企业微信和企业邮箱,填下个人信息,然后开搞;
二、搭建java开发环境和虚拟机、linux、xshell等
windows下使用xshell时出现丢失msvcr110.dll等dll,可以使用该链接解决
三、学习编译ranger工程,熟悉相关部署和使用
刚开始接触公司自己搭建的ranger工程,感觉好难受;ranger是开源的,公司下载了源码并在原有结构上在增加新功能;ranger里面好多组件都没用过,感觉很陌生,难受马非,于是感觉今天先弄明白这些东西时什么,之后再仔细研究它们时怎么存储数据、读/写文件和使用等。
1、ranger 简介
apache ranger提供一个集中式安全管理框架,它可以对hadoop生态的组件如hive、hbase进行细粒度的数据访问控制;通过操作ranger控制台,管理员可以轻松的通过配置策略来控制用户访问hdfs文件夹、hdfs文件、数据库、表和字段权限,这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接;并且提供了web ui方便管理员进行操作。
2、什么是hbase
hbase是一种hadoop数据库,经常被描述为一种稀疏的、分布式的、可持续化的、多维有序映射,它是基于行键、列键和时间戳建立索引的,是一个可以随机访问的存储和检索数据的平台;hbase不限制存储的数据种类,允许动态的、灵活的数据模型,不用sql语言,也不强调数据之间的关系;hbase被设计成在一个服务器集群上运行,可以相应地横向扩展。
3、什么是hive
a. hive由facebook实现并开源;
b. 是基于hadoop的一个数据仓库工具;
c. 可以将结构化的数据映射为一张数据库表,并提供hql(hive sql)查询功能;
d. 底层数据是存储在hdfs上的;
e. hive的本质是将sql 语句转换为mapreduce 任务执行,使不熟悉mapreduce的用户很方便的利用hql处理和计算hdfs上的结构化的数据,适用于离线的批量数据计算;
f. mapreduce是一种编程模型,用于大规模数据集(大于1tb)的并行运算。
4、什么是yarn
apache hadoop yarn(yet another resource negotiator,另一种资源协调者)是一种新的hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度;它将资源管理和处理组件分开,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大的好处。
5、什么是hadoop
hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据;它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。
6、什么是knox
knox是apache hadoop生态中rest api和应用的网关,apache knox是一个通过rest api和ui与apache hadoop部署交互的应用网关;knox网关为所有与hadoop集群的rest和http交互提供
了一个单独的访问点。(rest描述的是在网络中client和server的一种交互形式)
四、吐槽
1、今天上班用的是win10系统,win10需要以管理员身份打开dos窗口,才可以修改执行某些特殊命令;
2、上班第一天没有把ranger工程自己编译出来,难受;
3、第一天晚上就加班了,还被嫌弃了,要讲究工作效率,在上班时间完成任务,该加班的时候再加班,难受;
4、建议大家有事没事都下个虚拟机玩玩,linux和xshell等操作熟悉下吧,又被嫌弃了,难受马非。
上一篇: linux安装elasticsearch
下一篇: linux基础之系统管理类命令