思考
1000台服务器的集群,最少要花费多长时间来搭建好Hadoop集群,包括 Hive、Hbase、Flume、Kafka、Spark等等
• 只给你一天时间,完成以上工作?
• 对于以上集群进行hadoop版本升级,你会选择什么升级方案,最少要花 费多长时间?
• 新版本的Hadoop,与Hive、Hbase、Flume、Kafka、Spark等等兼容?
Apache Hadoop 不足之处
• 版本管理混乱
• 部署过程繁琐、升级过程复杂
• 兼容性差
• 安全性低
Hadoop 发行版
•Apache Hadoop
• Cloudera’s Distribution Including Apache Hadoop(CDH)
• Hortonworks Data Platform (HDP)
• MapR
• EMR
• …
CDH
• Cloudera's Distribution, including Apache Hadoop
• 是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的 Apache Hadoop构建
• 提供了Hadoop的核心 – 可扩展存储 – 分布式计算
• 基于Web的用户界面
CDH优点
• 版本划分清晰
• 版本更新速度快
• 支持Kerberos安全认证
• 文档清晰
• 支持多种安装方式(Cloudera Manager方式)
CDH下载地址
• CDH5.4:http://archive.cloudera.com/cdh5/
• Cloudera Manager5.4.3: http://www.cloudera.com/downloads/manager/5-4-3.html
CDH安装方式
• Cloudera Manager
• Yum
• Rpm
• Tarball
CDH组成
Server
– 管理控制台服务器和应用程序逻辑
– 负责软件安装、配置
– 启动和停止服务
– 管理服务运行的群集
Agent
– 安装在每台主机上
– 负责启动和停止进程,配置,监控主机
Management Service
– 由一组角色组成的服务,执行各种监视、报警和报告功能
Database
Cloudera Repository
Clients
– Admin Console
– API
CDH部署流程
1、启动CM Server、 Agent
2、选择节点
3、选择本地Parcel
4、服务器检查
5、选择服务
6、服务配置
7、数据库设置
8、集群设置
9、安装完成
Cloudera Manager
Cloudera Manager是一个管理CDH的端到端的应用。
作用:
– 管理
– 监控
– 诊断
– 集成