欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

hive on spark

程序员文章站 2022-04-29 08:10:02
...

hive on spark

1.下载apache-hive-2.0.0-bin.tar.gz

  • 注意:尽量安装和hive版本的spark
  • 版本的查看可以通过查看当前源码下的pom.xml文件,看其他对应的应用版本

2.下载安装maven工具

3.安装对应版本的scala

  • hive-2.0.0对应版本的spark版本为
    <spark.version>1.5.0</spark.version>
  • spark-1.5.0对应的scala版本为
    <scala.version>2.10.4</scala.version>

4.编译spark

  • 注意:编译spark选择不带hive的
  • 将下载好的spark源码解压spark-1.5.0.tgz.解压完成后进入到目录。
    执行命令:
./make-distribution.sh--name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provide

5.配置

  • 将编译后的spark下的lib下的 spark-assembly-*.jar 拷贝到hive的lib下。

  • 在hive-site.xml 添加如下配置

            <!--修改hive的执行引擎为spark-->
            <property>
                    <name>hive.execution.engine</name>
                    <value>spark</value>
            </property>

                <!--在hdfs上hive数据存放目录,启动hadoop后需要在hdfs上手动创建 -->
            <property> 
                <name>hive.metastore.schema.verification</name> 
                <value>false</value>     
            </property>

                 <!--默认 metastore 在本地,添加配置改为非本地-->
            <property>
                 <name>hive.metastore.local</name>
                 <value>false</value>
            </property>-->

                <!--记录 Spark事件,用于应用程序在完成后重构 webUI-->
            <property>
                <name>spark.eventLog.enabled</name>
                <value>true</value>
            </property>

                <!—hdfs目录存在-->
            <property>
                <name>spark.eventLog.dir</name>
                <value>hdfs:///hive_on_sparklogs</value>
            </property>

                <!--每个executor的内存大小-->
            <property>
                <name>spark.executor.memory</name>
                <value>512m</value>
            </property>

                <!--序列化对象-->
            <property>
                <name>spark.serializer</name>
                <value>org.apache.spark.serializer.KryoSerializer</value>
            </property>

                <!-- 先上传spark-assembly-1.6.1-hadoop2.6.0.jar包到hdfs上,并配置,避免任务运行时不需要下载-->
            <property>
                <name>spark.yarn.jar</name>
                <value>hdfs://itcast01:9000/spark-assembly-1.6.1-hadoop2.6.0.jar</value>
            </property>

喜欢就点赞评论+关注吧

hive on spark

感谢阅读,希望能帮助到大家,谢谢大家的支持!