layout: post
title: "云计算系统的容错和故障恢复1 2"
category: Reading Notes
tags: ["读文章", "分布式系统"]
{% include JB/setup %}
多副本的数据
云计算分布式文件系统保存了数据的多个副本(GFS缺省保存3份)
Worker故障
master通过内置的heartbeat/lease监控所有worker的状态,一旦确认某个worker故障,master会把该worker保存的数据的副本个数减一。
Master故障
为了避免master成为系统的单点,master也有多个副本
应用程序容错
当应用程序需要使用数据时,云计算客户端库将询问云计算系统的master获得数据副本锁在的位置,并向其中一个副本(通常是与该客户端网络“距离”最近的)发出数据请求,如果该worker在开始或者中途出现故障或因为其他原因无法完成请求,则云计算客户端库会自动转向另外一个副本,这对上层应用是完全透明的。