hive on spark

程序员文章站 2022-04-29 08:10:02

...

hive on spark

1.下载apache-hive-2.0.0-bin.tar.gz

注意：尽量安装和hive版本的spark
版本的查看可以通过查看当前源码下的pom.xml文件，看其他对应的应用版本

2.下载安装maven工具

下载地址：http://maven.apache.org/download.cgi
配置环境变量

3.安装对应版本的scala

hive-2.0.0对应版本的spark版本为
<spark.version>1.5.0</spark.version>
spark-1.5.0对应的scala版本为
<scala.version>2.10.4</scala.version>

4.编译spark

注意:编译spark选择不带hive的
将下载好的spark源码解压spark-1.5.0.tgz.解压完成后进入到目录。
执行命令：

./make-distribution.sh--name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provide

详细见：
参考资料:
spark源码下载官方地址:
http://spark.apache.org/downloads.html

spark源码编译官方指南:
http://spark.apache.org/docs/1.5.0/building-spark.html

spark源码编译教程:
http://blog.csdn.net/yanran1991326/article/details/46506595

Hive On Spark遇坑指南:
http://www.cnblogs.com/linbingdong/p/5806329.html

5.配置

将编译后的spark下的lib下的 spark-assembly-*.jar 拷贝到hive的lib下。
在hive-site.xml 添加如下配置

            <!--修改hive的执行引擎为spark-->
            <property>
                    <name>hive.execution.engine</name>
                    <value>spark</value>
            </property>

                <!--在hdfs上hive数据存放目录，启动hadoop后需要在hdfs上手动创建 -->
            <property> 
                <name>hive.metastore.schema.verification</name> 
                <value>false</value>     
            </property>

                 <!--默认 metastore 在本地，添加配置改为非本地-->
            <property>
                 <name>hive.metastore.local</name>
                 <value>false</value>
            </property>-->

                <!--记录 Spark事件,用于应用程序在完成后重构 webUI-->
            <property>
                <name>spark.eventLog.enabled</name>
                <value>true</value>
            </property>

                <!—hdfs目录存在-->
            <property>
                <name>spark.eventLog.dir</name>
                <value>hdfs:///hive_on_sparklogs</value>
            </property>

                <!--每个executor的内存大小-->
            <property>
                <name>spark.executor.memory</name>
                <value>512m</value>
            </property>

                <!--序列化对象-->
            <property>
                <name>spark.serializer</name>
                <value>org.apache.spark.serializer.KryoSerializer</value>
            </property>

                <!-- 先上传spark-assembly-1.6.1-hadoop2.6.0.jar包到hdfs上，并配置,避免任务运行时不需要下载-->
            <property>
                <name>spark.yarn.jar</name>
                <value>hdfs://itcast01:9000/spark-assembly-1.6.1-hadoop2.6.0.jar</value>
            </property>

喜欢就点赞评论+关注吧

hive on spark

感谢阅读，希望能帮助到大家，谢谢大家的支持！

上一篇： Hive on Spark

下一篇： Hive（on spark）优化

hive on spark

hive on spark

1.下载apache-hive-2.0.0-bin.tar.gz

2.下载安装maven工具

3.安装对应版本的scala

4.编译spark

5.配置

hive 标准hql建表语法格式

python远程访问hive

Hadoop学习(7)-hive的安装和命令行使用和java操作

Spark异常：A master URL must be set in your configuration处理记录

Hive的内置函数

spark读取hdfs文件规则（spark处理超大文件方法）

Spark RDD API详解之：Map和Reduce

spark平台基本组成（spark安装详细教程）

spark项目实战代码（spark菜鸟教程）

spark读取hbase数据速度（spark读取hbase提速的方法）