---

2015/10/25

layout: post
title: "分布式计算开源框架Hadoop介绍"
category: Reading Notes

tags: ["读文章", "Hadoop", "分布式系统"]

{% include JB/setup %}

Hadoop框架最核心的设计就是：MapReduce和HDFS。

HDFS是分布式计算的存储基石。分布式文件系统基本的几个特点：

对于整个集群有单一的命名空间。
数据一致性。适合一次写入多次读取的模型，客户端在文件没有被成功创建之前无法看到文件的存在。
文件会被分割成多个文件块，每个文件块被分配存储到数据节点上，而且根据配置会由复制文件块来保证数据的安全性。

整个HDFS有三个重要角色：NameNode、DataNode和Client。

NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。

NameNode会将文件系统的metadata存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。
DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的metadata，同时周期性地将所有存在的Block信息发送给NameNode。
Client就是需要获取分布式文件系统文件的应用程序。

文件写入：

1、 client向NameNode发起文件写入的请求。

2、 NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

3、 Client将文件划分成多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

文件读取：

Client向NameNode发起文件读取的请求。

2、 NameNode返回文件存储的DataNode的信息。

3、 Client读取文件信息。

文件Block复制：

1、 NameNode发现部分文件的Block不符合最小复制数或者部分DataNode失效。

2、通知DataNode相互复制Block。

3、 DataNode开始直接相互复制。

HDFS的几个设计特点：

Block的放置：默认不配置。一个Block会有三分备份，一份放在NameNode指定的DataNode， 另一份放在与指定DataNode非同一Rack上的DataNode，最后一份放在与指定DataNode同一Rack上的DataNode上。
心跳检测DataNode的健康状态，如果发现问题就采取数据备份的方式来保证数据的安全性。
数据复制：使用HDFS的balancer命令，可以配置一个Threshold来平衡每一个DataNode磁盘利用率。执行balancer命令的时候，首先统计所有DataNode的磁盘利用率的均值，然后判断如果某一个DataNode的磁盘利用率超过这个均值Threshold以上，那么将会把这个DataNode的block转移到磁盘利用率低的DataNode，这对于新节点的加入来说十分有用。
数据交验：在文件Block写入的时候除了写入数据还会写入交验信息，在读取的时候需要交验后再读入。
NameNode是单点：如果失败的话，任务处理信息将会记录在本地文件系统和远端的文件系统中。
数据管道性的写入：当客户端要写入文件到DataNode上，首先客户端读取一个Block然后写到第一个DataNode上，然后有第一个DataBode传递到备份的DataNode上，一直到所有需要这个Block的DataNode都成功写入，客户端才会继续开始写下一个Block
安全模式：在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。

在Hadoop的系统中，会有一台Master，主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。还会有多台Slave，每一台Slave通常具有DataNode的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。

就是在分布式处理中，移动数据的代价总是高于转移计算的代价。简单来说就是分而治之的工作，需要将数据也分而存储，本地任务处理本地数据然后归总，这样才会保证分布式计算的高效性。

REFERENCE

岑文初，"分布式计算开源框架Hadoop介绍"

Copyright © 2016 Powered by MWeb, Theme used GitHub CSS.