Hadoop学习笔记

配置环境:Vmware + CentOS

1、HDFS: Hadoop Distributed File System 分布式文件系统

2、YARN: Yet Another Resource Negotiator 资源管理调度系统

3、Mapreduce:分布式运算框架

4、hdfs通过分布式集群来存储文件;

5、文件在存储时,被切分成Blocks;

6、文件的Blocks存放于datanode节点;

7、hdfs文件系统中的文件与blocks的映射关系由namenode节点管理。

8、每个block在集群中都会有多个副本;

9、客户端上传文件时,namenode首先向edits log文件记录元数据的操作日志;

10、客户端开始上传文件,上传成功后,通知namenode,namenode就在内存中写入这次上传操作新产生的元数据信息;

11、每当editslog写满时,需要将这一时间段的新的元数据刷到fsimage文件中去;

2019年10月20日更新

1、hadoop在企业的三种典型应用:数据分析,数据实时查询,数据挖掘;

2、版本选择:个人:apache(2) ;企业:星环,hortonworks

直播地址: https://www.bilibili.com/video/av15390641/?p=8

http://open.163.com/newview/movie/free?pid=MEKD4Q6GG&mid=MEKDKN90T

安装教程: https://blog.csdn.net/hliq5399/article/details/78193113

标签:

发表评论

电子邮件地址不会被公开。 必填项已用*标注