hadoop、yarn常用命令

程序员文章站 2022-07-04 12:03:28

...

1、hadoop
官网：https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html
hadoop fs 下的命令都比较常用，去官网看一遍吧

查看.gz 的文件内容：

引用

无需解压整个文件： hadoop fs -cat /hdfs_location/part-00000.gz | zcat | head -n 20
或者 hadoop fs -cat /hdfs_location/part-00000.gz | zmore
需要解压整个文件：hadoop fs -text /myfolder/part-r-00024.gz | tail

参见：https://*.com/questions/31968384/view-gzipped-file-content-in-hadoop

查看.bz2 的文件内容：
类似查看.gz的方法，只需将zcat换为bzcat，或者将zmore换为bzmore即可

2、yarn
官网：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnCommands.html

kill任务： yarn application -kill application_1491058351375_633399
查看日志： yarn logs -applicationId application_1491058351375_633399 | less

3、spark启动命令
参见：https://spark.apache.org/docs/1.6.1/running-on-yarn.html
注意一个参数： JVM本身的内存：spark.yarn.executor.memoryOverhead

4、spark本地调试
1、maven工程的pom.xml中将所有的包设置为 compile 而非 provided，从而将spark打包进jar中
2、IntelliJIDEA中的Run->Edit Configuration中新增如下配置，并设置JVM参数为：
-Dspark.master=local[2] -Dspark.driver.memory=2g -Dspark.app.name=SparkPi
spark配置请参见：https://spark.apache.org/docs/latest/configuration.html#application-properties
hadoop、yarn常用命令

博客分类： spark spark

3、需要保证本地安装的scala版本与spark所需版本一致
对于spark1.6，应安装scala2.10.x
对于spark2.x，应安装scala2.11.x

5、spark本地调试-方法2
1、到https://spark.apache.org/downloads.html下载spark-2.2.1-bin-hadoop2.7.tgz （或其他Pre-build版本）
2、解压到任意文件夹， IDEA中新建scala工程
3、IDEA中File -> Project Structure -> Modules ->Dependencies 中添加刚才解压的路径中的 jars文件夹（已经包含的hadoop、spark等程序）
完成以上3步后即可运行
4、（可选）解决找不到winutils.exe的问题
根据错误提示，下载和hadoop版本一致的winutils.exe
我是在https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin 下载的，
下载后放到了spark_home/jars/bin/文件夹中，并设置HADOOP_HOME环境变量指向spark_home/jars文件夹

6、文件查看

gz文件，文本文件：hadoop fs -text file_name_or_dir_name | head

parquet文件： hadoop jar parquet-tools-1.9.0.jar head -n10 file_name_or_dir_name
parquet-tools-1.9.0.jar 下载：https://mvnrepository.com/artifact/org.apache.parquet/parquet-tools/1.9.0

查看图片附件

hadoop、yarn常用命令

My First Lucky and Sad Hadoop Results

github常用命令

Kafka 常用命令行详细介绍及整理

hadoop-1.0.3集群安装

Linux VPS下SSH常用命令整理

PowerShell常用命令

MYSQL数据库实用学习资料之常用命令集合_MySQL

Hadoop in Action学习笔记

Hadoop相关概念

（待续）Anaconda+Jupyter Notebook常用命令笔记