---

2015/10/25

layout: post
title: "云计算系统的容错和故障恢复1 2"
category: Reading Notes

tags: ["读文章", "分布式系统"]

{% include JB/setup %}

  • 多副本的数据

    云计算分布式文件系统保存了数据的多个副本(GFS缺省保存3份)

  • Worker故障

    master通过内置的heartbeat/lease监控所有worker的状态,一旦确认某个worker故障,master会把该worker保存的数据的副本个数减一。

  • Master故障

    为了避免master成为系统的单点,master也有多个副本

  • 应用程序容错

    当应用程序需要使用数据时,云计算客户端库将询问云计算系统的master获得数据副本锁在的位置,并向其中一个副本(通常是与该客户端网络“距离”最近的)发出数据请求,如果该worker在开始或者中途出现故障或因为其他原因无法完成请求,则云计算客户端库会自动转向另外一个副本,这对上层应用是完全透明的。