欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

mahout脚本调用流程分析 博客分类: 开源框架mahouthadoop工作中问题总结 mahouthadoop推荐系统机器学习数据发掘 

程序员文章站 2024-03-16 11:33:22
...
欢迎喜欢深入了解推荐系统和mahout的兄弟加入群     推荐系统之Mahout  135918911
 
剖析mahout脚本
 

mahout 位于$MAHOUT_HOME/bin目录下,是所有mahout调用的入口。

主要会做各类环境变量的设置。

MAHOUT_JAVA_HOME:指定java的执行路劲,会覆盖$JAVA_HOME

MAHOUT_HEAPSIZE   :JAVA运行堆栈的内存大小

HADOOP_CONF_DIR  : hadoop 配置文件路径主要是*-site.xml这些文件的位置

MAHOUT_OPTS           : mahout运行时的java参数

MAHOUT_CONF_DIR    :类文件属性文件所在文件,文件名是类名简写,默认位置$MAHOUT_HOME/src/conf

MAHOUT_LOCAL         : 设置是否本地运行,如果设置这个参数就不会运行hadoop了,一旦设置这个参数,那HADOOP_CONF_DIR HADOOP_HOME 这两个参数的设置就自动失效了。

MAHOUT_CORE          :是否应用开发环境的core,还是发布的core

 

参数-core                  指定引用包的路径

 

 

  • 案例调用流程

要运行example的时候,最终的触发语句如下:

exec"$HADOOP_BINARY" jar $MAHOUT_JOB $CLASS "$@"

1$HADOOP_BINARY 就是hadoop的执行文件

2$MAHOUT_JOB:  就是mahout-examples-*-job.jar 所在位置

3$CLASS   :      是默认的 org.apache.mahout.driver.MahoutDriver

4$@           :      就是要调用的class名字,比如org.apache.mahout.clustering.syntheticcontrol.kmeans.Job