欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

spark读取文件注意事项

程序员文章站 2022-07-14 12:41:27
...
  1. local模式下默认就是读取本地文件,在standlone或者yarn-client,或者cluster模式下默认读的都是hdfs文件系统

local: 文件路径写法:

1.  linux 上写法
var localPath= sc.textFile("file:///usr/test_file/test.json")
//  读取本地本地系统文件 需要注意 文件路径必须是全路径
//  所有的集群节点上相同的path下上传该文件
2.windows 上写法
var windowsLocalPath= sc.textFile("file:///E:/usr/test_file/test.json")

非local模式: 默认读取的是hdfs 文件

var localPath= sc.textFile("/usr/test_file/test.json")
等价于
sc.textFile(“hdfs://host:8020/user/hdfs/input/test.json”)