hive on spark
程序员文章站
2022-04-29 08:10:02
...
hive on spark
1.下载apache-hive-2.0.0-bin.tar.gz
- 注意:尽量安装和hive版本的spark
- 版本的查看可以通过查看当前源码下的pom.xml文件,看其他对应的应用版本
2.下载安装maven工具
- 下载地址:http://maven.apache.org/download.cgi
- 配置环境变量
3.安装对应版本的scala
- hive-2.0.0对应版本的spark版本为
<spark.version>1.5.0</spark.version>
- spark-1.5.0对应的scala版本为
<scala.version>2.10.4</scala.version>
4.编译spark
- 注意:编译spark选择不带hive的
- 将下载好的spark源码解压spark-1.5.0.tgz.解压完成后进入到目录。
执行命令:
./make-distribution.sh--name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provide
-
参考资料:
spark源码下载官方地址:
http://spark.apache.org/downloads.htmlspark源码编译官方指南:
http://spark.apache.org/docs/1.5.0/building-spark.htmlspark源码编译教程:
http://blog.csdn.net/yanran1991326/article/details/46506595Hive On Spark遇坑指南:
http://www.cnblogs.com/linbingdong/p/5806329.html
5.配置
将编译后的spark下的lib下的 spark-assembly-*.jar 拷贝到hive的lib下。
在hive-site.xml 添加如下配置
<!--修改hive的执行引擎为spark-->
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
<!--在hdfs上hive数据存放目录,启动hadoop后需要在hdfs上手动创建 -->
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>
<!--默认 metastore 在本地,添加配置改为非本地-->
<property>
<name>hive.metastore.local</name>
<value>false</value>
</property>-->
<!--记录 Spark事件,用于应用程序在完成后重构 webUI-->
<property>
<name>spark.eventLog.enabled</name>
<value>true</value>
</property>
<!—hdfs目录存在-->
<property>
<name>spark.eventLog.dir</name>
<value>hdfs:///hive_on_sparklogs</value>
</property>
<!--每个executor的内存大小-->
<property>
<name>spark.executor.memory</name>
<value>512m</value>
</property>
<!--序列化对象-->
<property>
<name>spark.serializer</name>
<value>org.apache.spark.serializer.KryoSerializer</value>
</property>
<!-- 先上传spark-assembly-1.6.1-hadoop2.6.0.jar包到hdfs上,并配置,避免任务运行时不需要下载-->
<property>
<name>spark.yarn.jar</name>
<value>hdfs://itcast01:9000/spark-assembly-1.6.1-hadoop2.6.0.jar</value>
</property>
喜欢就点赞评论+关注吧
感谢阅读,希望能帮助到大家,谢谢大家的支持!
上一篇: Hive on Spark
下一篇: Hive(on spark)优化