大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)
程序员文章站
2023-10-28 17:29:04
数据挖掘 推荐算法(Mahout工具) 一、简介 Apache*项目(2010.4) Hadoop上的开源机器学习库 可伸缩扩展的 Java库 推荐引擎(协同过滤)、聚类和分类 二、机器学习介绍 通常问题都归为这几类问题 分类问题 回归问题 聚类问题 推荐问题 三、安装方法 3.1 下载Mahou ......
数据挖掘---推荐算法(mahout工具)
一、简介
- apache*项目(2010.4)
- hadoop上的开源机器学习库
- 可伸缩扩展的
- java库
- 推荐引擎(协同过滤)、聚类和分类
二、机器学习介绍
- 通常问题都归为这几类问题
- 分类问题
- 回归问题
- 聚类问题
- 推荐问题
三、安装方法
3.1 下载mahout
wget http://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz
3.2 解压
tar -zxvf mahout-distribution-0.9.tar.gz
四、配置环境变量
4.1 配置mahout环境变量
# set mahout environment export mahout_home=/usr/local/src/mahout-distribution-0.9 export mahout_conf_dir=$mahout_home/conf export path=$mahout_home/conf:$mahout_home/bin:$path
4.2 配置mahout所需的hadoop环境变量
# set hadoop environment export hadoop_home=/usr/local/src/hadoop-1.2.1 export hadoop_conf_dir=$hadoop_home/conf export path=$path:$hadoop_home/bin export hadoop_home_warn_suppress=not_null
五、验证是否成功
直接执行mahout命令
支持算法列表
六、准备数据
数据格式: 1,100001,5 1,100002,3 1,100003,4 1,100004,3 1,100005,3 1,100007,4 1,100008,1 1,100009,5 1,1000011,2
七、训练
input="/movie_lens.data" tmp_dir="/mahout_temp" output="/cf_mahout_output" mahout_cmd="/usr/local/src/mahout-distribution-0.9/bin/mahout“ $mahout_cmd itemsimilarity -i $input -o $output --maxsimilaritiesperitem 1000 --threshold 0.0000001 --similarityclassname similarity_cosine --tempdir $tmp_dir
八、输出结果
上一篇: rabbitMQ模式
下一篇: 多线程核心1:实现多线程的方式