mahout脚本调用流程分析 博客分类: 开源框架mahouthadoop工作中问题总结 mahouthadoop推荐系统机器学习数据发掘
mahout 位于$MAHOUT_HOME/bin目录下,是所有mahout调用的入口。
主要会做各类环境变量的设置。
MAHOUT_JAVA_HOME:指定java的执行路劲,会覆盖$JAVA_HOME
MAHOUT_HEAPSIZE :JAVA运行堆栈的内存大小
HADOOP_CONF_DIR : hadoop 配置文件路径主要是*-site.xml这些文件的位置
MAHOUT_OPTS : mahout运行时的java参数
MAHOUT_CONF_DIR :类文件属性文件所在文件,文件名是类名简写,默认位置$MAHOUT_HOME/src/conf
MAHOUT_LOCAL : 设置是否本地运行,如果设置这个参数就不会运行hadoop了,一旦设置这个参数,那HADOOP_CONF_DIR 和HADOOP_HOME 这两个参数的设置就自动失效了。
MAHOUT_CORE :是否应用开发环境的core,还是发布的core。
参数-core 指定引用包的路径
- 案例调用流程
要运行example的时候,最终的触发语句如下:
exec"$HADOOP_BINARY" jar $MAHOUT_JOB $CLASS "$@"
1、$HADOOP_BINARY 就是hadoop的执行文件
2、$MAHOUT_JOB: 就是mahout-examples-*-job.jar 所在位置
3、$CLASS : 是默认的 org.apache.mahout.driver.MahoutDriver
4、$@ : 就是要调用的class名字,比如org.apache.mahout.clustering.syntheticcontrol.kmeans.Job