一、基本概念
namenode:dfs的目录、数据块等元数据
datanode:具体的数据
journalnode namenodez 之间元数据的同步
dfs:distributed file system
mapred:map reduce
ResourceManager:总入口和总调度(针对一个app)
ApplicationMaster:具体的作业调度(支持非map reduce)
NodeManager:一个节点的管理daemon
container:节点内执行的环境(资源)
Job History Server(api +RPC):收集和展现log信息
WebAppProxy:内部与外部访问间的一个中转
yarn.nodemanager.health-checker.script.path:监控node
Rack Awareness:机架感知,提高调度的性能
二、安装:配置+start
1、配置:
etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
etc/hadoop/mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
etc/hadoop/yarn-site.xml:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
2、保证可以ssh localhost
3、start:
bin/hdfs namenode -format
sbin/start-dfs.sh
sbin/start-yarn.sh
4、url
http://localhost:50070/ # dfs
http://localhost:8088/ # yarn
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/root # 创建用户
$ bin/hdfs dfs -put etc/hadoop input
# 执行jar
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'
bin/hdfs dfs -get output output
cat output/*
5、停止
$ sbin/stop-yarn.sh
$ sbin/stop-dfs.sh
三、命令
hadoop archive -archiveName zoo.har -p /foo/bar -r 3 /outputdir
hadoop classpath --glob
hadoop jar *.jar # 执行jar
hadoop fs -appendToFile localfile /user/hadoop/hadoopfile # fs命令
四、文件系统常用命令
bin/hadoop fs -cat /user/root/output/*
hdfs dfsadmin -disallowSnapshot <path>
hdfs dfs -createSnapshot <path> [<snapshotName>]
hadoop dfs -df /user/hadoop/dir1
bin/hadoop fs -ls /user/root/output/*
五、其他
1、CLI MiniCluster:避免配置,参数化启动一个cluster
bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.3-tests.jar minicluster -rmport RM_PORT -jhsport JHS_PORT
2、Rack Awareness 机架感知 需要用脚本扩展来输出 /myrack/myhost
相关推荐
Hadoop开发、运维和调优实战考试资料.pdf
里面讲了一些hadoo是如何部署与运维的知识点,希望对初学者有所帮助!
Hadoop大数据平台运维杂记.pptx
hadoop大数据部署运维手册
大规模Hadoop集群运维经验谈
阿里的hadoop运维经验分享。内容: hadoop集群搭建 监控 集群性能调优 Hadoop如何被搞垮的
2012华东运维技术大会 hadoop运维经验分享
Linux运维入门Hadoop实验参照手册二(安装Hadoop)
Apache 推了一个Hadoop,这是一个开源的、免费的东东;每个人、每个公司都可以拿来修改,发布。...本文档以CDH为基础,讲述了系统搭建、运维方面的一些经验。它不是一个详细指导安装的文档、是一个杂记。
学习Hadoop开发运维和调优实战考试.pdf
Hadoop在蓝汛 说说Cloudera和它的产品们 运维杂记——几次重大事故
Apache Ambari是一种基于Web的运维工具,支持Apache Hadoop集群的自动化部署、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。 ...
《Hadoop系统搭建及项目实践》课程标准.pdf《Hadoop系统搭建及项目实践》课程标准.pdf《Hadoop系统搭建及项目实践》课程标准.pdf《Hadoop系统搭建及项目实践》课程标准.pdf《Hadoop系统搭建及项目实践》课程标准.pdf...
大数据运维技术第2章 Hadoop平台安装课件.pptx
Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据...
安装hadoop的时候或者使用的时候,会出现hadoop常见问题及解决方法
基于Hadoop大数据集群的水电机组数据运维平台.pdf
大数据平台技术实施与运维规范-Hadoop 分册.docx
Hadoop运维12问--应急手册(中国程序员) Hadoop运维12问--应急手册(中国程序员)