由于机器学习算法在处理大数据处理的时候在所难免的会效率降低,公司需要搭建hadoop集群,最后采用了商业版的Hadoop2(MapR)。
官网: http://doc.mapr.com/display/MapR/Installing+MapR+Software
一 前期有一些集群的准备工作:
请参考本人前几篇集群搭建的总结文档 及 官方文档 http://doc.mapr.com/display/MapR/Preparing+Each+Node
二 搭建MapR
1 创建本地仓库
1)root用户登陆,拥有最高权限
2)创建以下目录结构
~/mapr.├── dists│ └── binary│ └── optional│ └── binary-amd64└── mapr
3)下载两个文件到本地,url:注意替换相应的版本号: 本人使用的 v5.0.0
http://package.mapr.com/releases/v/ubuntu/mapr-v GA.deb.tgzhttp://package.mapr.com/releases/ecosystem-5.x/ubuntu/mapr-ecosystem-5.x- .deb.tgz
文件共7G,比较大,网速好的时候下。并解压文件。
4)进入路径/root/mapr/
, 并创建文件 Packages.gz
dpkg-scanpackages . /dev/null | gzip -9c > ./dists/binary/optional/binary-amd64/Packages.gz
5)把路径 /root/mapr
下的所有文件移动到路径 /var/www
下。为了方便 Apache HTTP Server 发布。/html
2 安装 Apache HTTP Server
sudo apt-get apache2
验证安装成功:浏览器 http://127.0.0.1 显示欢迎页面
注意:apache 发布的文件默认路径在 /var/www/html
3 配置apt命令
1)配置文件/etc/apt/sources.list,增加下面的一行:
deb http:///mapr binary optional
eg
deb http://10.4.45.249/mapr binary optional
本人的hostname是apm,在hostname表中配置,并且绑定静态ip,这些都是准备工作,可以查看本人前几篇文。
2)更新sources.list
文件:
apt-get update
4 安装mapr包的key:
wget -O - http://package.mapr.com/releases/pub/maprgpg.key | sudo apt-key add -
5 安装mapr的子模块:
apt-get install
具体例:eq 安装mapr-fileserver mapr-tasktracker两个模块
apt-get install mapr-fileserver mapr-tasktracker
对应的安装自己需要的模块即可。
自动在本地下载这些依赖。
6 查看安装成功否
# ls -l /opt/mapr/rolestotal 0-rwxr-xr-x 1 root root 0 Aug 29 17:59 fileserver-rwxr-xr-x 1 root root 0 Aug 29 17:58 tasktracker-rwxr-xr-x 1 root root 0 Aug 29 17:58 webserver-rwxr-xr-x 1 root root 0 Aug 29 17:58 zookeeper
说明 fileserver tasktracker webserver zookeeper 四个模块已经成功安装。
设置环境变量略,mapr的根目录在 /opt/mapr
插曲:开始本人使用联网下载方式安装这些模块,结果公司网络代理部给力,所以采用了本地的模式安装这个仓库。
若你也是这样,那一定要清空cache里的缓存,否则apt-get 的时候不会成功。
附录:各模块表,只参考YARN那一列 即可: