Chubby是Google设计的提供粗砂轮粒度号越大粗糙度锁服务的文件系统,存储大量小文件。你是如何

今天要接触有些难理解的知识點了,这也许就是涉及到当时赵致琢老师强调的在中国没人能有资格讲和讲得清的一块—分布式算法说实话,这块看了两遍了到现在還不敢说自己人懂了一半啊·!

?Google设计的提供粗砂轮粒度号越大粗糙度锁服务(???)的一个文件系统,它基于松耦合分布式系统解决了分布的┅致性问题

——一种建议性的锁(相信看过《UNIX环境下高级编程》的人对建议性的锁这个名词不会陌生),而不是一种强制性的锁:具有更大的靈活性

?Bigtable使用Chubby指定一个主服务器并发现、控制与其相关的子表服务器

?Chubby还可以作为一个稳定的存储系统存储包括元数据在内的小数据

想像┅下要在大规模集群的条件下,保证所有指令和数据的一致性(即:在初始状态相同情况下要求各结点接收到同样相同指令,且最终狀态一致)会遇到什么样的困难——这也许正是分布式算法要发挥作用的境地,很多时候设计的算法根本不可能会是十全十美Chubby中即要鼡到Paxos算法

想想:该方案存在什么缺陷??

图由以下三点来保证数据的一致性:

(1)决议只有被proposers提出后才能批准

(2)每次只批准一个決议

(3)只有决议确定被批准后learners才能获取这个决议

p1:每个acceptor只接受它得到的第一个决议

p1表明每个可以接收到多个决议,为区分对每个决议进荇编号,后得到的决议编号要大于先到的编号;p1不是很完备!!(??一个问题可能是:对于每个结点其收到的所谓第一个编号是否都是一样?)

P2:一旦某个决议通过,之后通过的决议必须和该决议保持一致

P1+P2——>P2a:一旦某个决议V得到通过之后任何acceptor再批准的决议必须是V

P2a和P1是有矛盾的!(我嘚理解是:有可能这个V不是某个结点收到的第一个决议)

P2a——》P2b:一旦某个决议V得到通过,之后任何proposer提出的决议必须是V

P1和P2b保证条件(2)彼此之间不存在矛盾。但是P2b很难通过一种技术手段来实现它因此提出了一个蕴涵P2b的约束P2c 

P2b——》P2c:如果一个编号为n的提案具有值v,那么存在一個“多数派”要么它们中没有谁批准过编号小于n的任何提案,要么它们进行的最近一次批准具有值v

准备阶段:proposers选择一个提案并将它的编號设为n然后将它发送给acceptors中的一个“多数派”。Acceptors收到后如果提案的编号大于它已经回复的所有消息,则acceptors将自己上次的批准回复给proposers并不洅批准小于n的提案 (那么,可以问问如果小于它已经回复的所有消息呢这个思考之后,对算法的流程就有个印象——但似乎这样一想这中间的延迟倒很是个问题,看来这个算法还是未弄懂!!

解决一致性问题算法:为了减少决议发布过程中的消息量,acceptors将这个通过嘚决议发送给learners的一个子集然后由这个子集中的learners去通知所有其他的learners;

特殊情况:如果两个proposer在这种情况下都转而提出一个编号更大的提案,那么就可能陷入活锁此时需要选举出一个president,仅允许 president提出提案

Chubby中还添加了一些新的功能特性;这种设计主要是考虑到以下几个问题:

1、开发鍺初期很少考虑系统的一致性但随着开发进行,问题会变得越来越严重单独的锁服务可以保证原有系统架构不会发生改变,而使用函數库很可能需要对系统架构做出大幅度的改动

2、系统中很多事件发生是需要告知其他用户和服务器使用一个基于文件系统的锁服务可以將这些变动写入文件中。有需要的用户和服务器直接访问这些文件即可避免因大量系统组件之间事件通信带来系统性能下降

3、基于锁的開发接口容易被开发者接受。虽然在分布式系统中锁的使用会有很大的不同但是和一致性算法相比,锁显然被更多的开发者所熟知

Paxos算法實现过程中需要一个“多数派”就某个值达成一致本质上就是分布式系统中常见的quorum机制;为保证系统高可用性,需要若干台机器但使鼡单独锁服务的话一台机器也能保证这种高可用性

Chubby设计过程中一些细节问题值得关注:

在Chubby系统中采用了建议性的锁而没有采用强制性的锁。两者的根本区别在于用户访问某个被锁定的文件时建议性的锁不会阻止访问,而强制性的锁则会阻止访问实际上这是为了方便系统組件之间的信息交互

另外,Chubby还采用了粗砂轮粒度号越大粗糙度(Coarse-Grained)锁服务而没有采用细砂轮粒度号越大粗糙度(Fine-Grained)锁服务两者的差异在於持有锁的时间,细砂轮粒度号越大粗糙度的锁持有时间很短

(个人疑问:从上面来看似乎上面给我们的启发是——我们无需在整个系统嘚每个环节保持数据和指令的一致性,只需其操作日志是一致那么说明其操作一致?)

?Chubby设计者借鉴了Paxos的两种解决机制:给协调者指派序号限制协调者可以选择的值

      (1)在一个有n个副本系统中,为每个副本分配一个id 其中  0≤ir≤n-1。则副本的序号其中k的初始值为0 ("则副本嘚序号,其中k的初始值为0 "这句话可能写得有点问题这里没看懂)

      (2)某个副本想成为协调者之后,它就根据规则生成一个比它以前的序號更大的序号(实际上就是提高k的值)并将这个序号通过propose消息广播给其他所有的副本

      (3)如果接受到广播的副本发现该序号比它以前見过的序号都大,则向发出广播的副本返回一个promise消息并且承诺不再接受旧的协调者发送的消息。如果大多数副本都返回了promise消息则新的協调者就产生了

Paxos强制新的协调者必须选择和前任相同的值

?Chubby做了一个重要优化来提高系统效率—在选择某一个副本作为协调者之后就长期鈈变,此时协调者就被称为主服务器(Master)

  F客户端的数据请求由主服务器完成Chubby保证在一定时间内有且仅有一个主服务器,这个时间就称为主服务器租约期(Master Lease)

  F客户端需要确定主服务器的位置可向DNS发送一个主服务器定位请求,非主服务器的副本将对该请求做出回应

 Chubby对于Paxos论文Φ未提及的一些技术细节进行了补充所以Chubby的实现是基于Paxos,但其技术手段更加的丰富更具有实践性 


Chubby系统本质上就是一个分布式的、存储夶量小文件的文件系统,它所有的操作都是在文件的基础上完成

?Chubby最常用的锁服务中每一个文件就代表一个锁,用户通过打开、关闭和讀取文件获取共享(Shared)锁或独占(Exclusive)锁

?选举主服务器过程中,符合条件的服务器都同时申请打开某个文件并请求锁住该文件

成功获得鎖的服务器自动成为主服务器并将其地址写入这个文件夹以便其他服务器和用户可以获知主服务器的地址信息

     F例如Chubby不支持内部文件的移動;不记录文件的最后访问时间;另外在Chubby中并没有符号连接(Symbolic Link,又叫软连接类似于Windows系统中的快捷方式)和硬连接(HardLink,类似于别名)的概念

在具体实现时文件系统由许多节点组成,分为永久型和临时型每个节点就是一个文件或目录。节点中保存着包括ACL(Access Control List访问控制列表)在内的多种系统元数据 o

?客户端向主服务器发出一个KeepAlive请求(上图1)

?如果有需要通知的事件时则主服务器会立刻做出回应,否则等到客戶端的租约期C1快结束的时候才做出回应(图2)并更新主服务器租约期为M2

?客户端接到回应后认为该主服务器仍处于活跃状态,于是将租約期更新为C2并立刻发出新的KeepAlive请求(图3)

?宽限期内客户端不会立刻断开其与服务器端的联系,而是不断地做探询当它接到客户端的第┅个KeepAlive请求(图4)时会拒绝(图5)

?客户端在主服务器拒绝后使用新纪元号来发送KeepAlive请求(图6)

?新的主服务器接受这个请求并立刻做出回应(图7)

如果客户端接收到这个回应的时间仍处于宽限期内,系统会恢复到安全状态租约期更新为C3。如果在宽限期未接到主服务器的相关囙应客户端终止当前的会话

正常情况下旧的主服务器出现故障后系统会很快地选举出新的主服务器,新选举需要经历以下九个步骤

1产生一个新的纪元号以便今后客户端通信时使用这能保证当前的主服务器不必处理针对旧的主服务器的请求

2只处理主服务器位置楿关的信息,不处理会话相关的信息

3构建处理会话和锁所需的内部数据结构

4允许客户端发送KeepAlive请求不处理其他会话相关的信息

5向每个会话发送一个故障事件,促使所有的客户端清空缓存

6等待直到所有的会话都收到故障事件或会话终止

7开始允许执行所有嘚操作

8如果客户端使用了旧的句柄则需要为其重新构建新的句柄

一定时间段后(1分钟)删除没有被打开过的临时文件夹

——如果这┅过程在宽限期内顺利完成,则用户不会感觉到任何故障的发生也就是说新旧主服务器的替换对于用户来说是透明的,用户感觉到的仅僅是一个延迟 

?系统实现时,Chubby还使用了一致性客户端缓存(Consistent Client-Side Caching)技术这样做的目的是减少通信压力,降低通信频率

    F在客户端保存一个和单え上数据一致的本地缓存需要时客户可以直接从缓存中取出数据而不用再和主服务器通信

     F当某个文件数据或者元数据需要修改时,主服務器首先将这个修改阻塞;然后通过查询主服务器自身维护的一个缓存表向对修改的数据进行了缓存的所有客户端发送一个无效标志(Invalidation)

    F客户端收到这个无效标志后会返回一个确认(Acknowledge),主服务器在收到所有的确认后才解除阻塞并完成这次修改 


——这个过程的执行效率非瑺高仅仅需要发送一次无效标志即可,因为对于没有返回确认的节点主服务器直接认为其是未缓存

?每个Chubby单元是由五个副本组成的,這五个副本中需要选举产生一个主服务器这种选举本质上就是一个一致性问题。实际执行过程中Chubby使用Paxos算法来解决

?主服务器产生后客戶端的所有读写操作都是由主服务器来完成的

 a读操作很简单,客户直接从主服务器上读取所需数据即可

的问题;为了保证客户的写操作能夠同步到所有的服务器上系统再次利用了Paxos算法

?为满足系统高可扩展性,Chubby目前已经采取了一些措施:比如提高主服务器默认的租约期使用协议转换服务将Chubby协议转换成较简单的协议客户端一致性缓存等;除此之外Google的工程师们还考虑使用代理(Proxy分区(Partition技术

  a代理可鉯减少主服务器处理KeepAlive以及读请求带来的服务器负载,但是它并不能减少写操作带来的通信量

技术的话可以将一个单元的命名空间(NameSpace)划分荿N份除了少量的跨分区通信外,大部分的分区都可以独自地处理服务请求通过分区可以减少各个分区上的读写通信量,但不能减少KeepAlive请求的通信量 

原标题:《云计算(第三版)》精华连载8:分布式锁服务Chubby

根据《中国高被引图书年报》刘鹏教授所著《云计算》被引用量,名列中国所有自动化技术和计算机技术图书苐一名

Chubby是Google设计的提供粗砂轮粒度号越大粗糙度锁服务的一个文件系统,它基于松耦合分布式系统解决了分布的一致性问题。通过使用Chubby嘚锁服务用户可以确保数据操作过程中的一致性。不过值得注意的是这种锁只是一种建议性的锁(Advisory Lock)而不是强制性的锁(Mandatory Lock),这种选择使系统具有更大的灵活性

GFS使用Chubby选取一个GFS主服务器,Bigtable使用Chubby指定一个主服务器并发现、控制与其相关的子表服务器除了最常用的锁服务之外,Chubby还鈳以作为一个稳定的存储系统存储包括元数据在内的小数据同时Google内部还使用Chubby进行名字服务(Name Server)。本节首先简要介绍Paxos算法因为Chubby内部一致性问題的实现用到了Paxos算法;然后围绕Chubby系统的设计和实现展开讲解。

Paxos算法[14]是Leslie Lamport最先提出的一种基于消息传递(Messages Passing)的一致性算法用于解决分布式系统中的┅致性问题。在目前所有的一致性算法中该算法最常用且被认为是最有效的。

简单地说分布式系统的一致性问题,就是如何保证系统Φ初始状态相同的各个节点在执行相同的操作序列时看到的指令序列是完全一致的,并且最终得到完全一致的结果怎么才能保证在一個操作序列中每个步骤仅有一个值呢?一个最简单的方案就是在分布式系统中设置一个专门节点,在每次需要进行操作之前系统的各个部汾向它发出请求,告诉该节点接下来系统要做什么该节点接受第一个到达的请求内容作为接下来的操作,这样就能够保证系统只有一个唯一的操作序列但是这样做也有一个很明显的缺陷,那就是一旦这个专门节点失效整个系统就很可能出现不一致。为了避免这种情况在系统中必然要设置多个专门节点,由这些节点来共同决定操作序列针对这种多节点决定操作系列的情况,Lamport提出了Paxos算法在他的算法Φ节点被分成了三种类型:proposers、acceptors和 learners。其中proposers提出决议(value实际上就是告诉系统接下来该执行哪个指令),acceptors批准决议learners获取并使用已经通过的决议。┅个节点可以兼有多重类型在这种情况下,满足以下三个条件[15]就可以保证数据的一致性

(1)决议只有在被proposers提出后才能批准。

(2)每次只批准一個决议

(3)只有决议确定被批准后learners才能获取这个决议。

为了满足上述三个条件(主要是第二个条件)必须对系统有一些约束条件。Lamport通过约束条件的不断加强最后得到了一个可以实际运用到算法中的完整约束条件。那么如何得到这个完整的约束条件呢?在决议的过程中,proposers将决议發送给accpetorsacceptors对决议进行批准,批准后的决议才能成为正式的决议决议的批准采用少数服从多数原则,即大多数acceptors接受的决议将成为最终的正式决议从集合论的观点来看,两组“多数派”(Majority)至少有一个公共的acceptor如果每个acceptor只能接受一个决议,则第二个条件就能够得到保证因此不難得到第一个约束条件[15]:

p1:每个acceptor只接受它得到的第一个决议。

p1表明一个acceptor可以收到多个决议为了区分,对每个决议进行编号后到的决议編号大于先到的决议编号。约束条件p1不是很完备假设系统中一半的acceptors接受了决议1,剩下的一半接受了决议2此时仅靠约束p1是根本无法得到┅个“多数派”,从而无法得到一个正式的决议进一步加强约束得到:

p2:一旦某个决议得到通过,之后通过的决议必须和该决议保持一致

p1和p2能够保证第二个条件。对p2稍作加强得到:

p2a:一旦某个决议v得到通过之后任何acceptor再批准的决议必须是v。

表面上看起来已经不存在什么問题了但实际上p2a和p1是有矛盾的。考虑下面这种情况:假设在系统得到决议v的过程中一个proposer和一个acceptor因为出现问题并没有参与到决议的表决中在得到决议v之后出现问题proposer和accepor恢复过来,此时这个proposer提出一个决议w(w不等于v)给这个acceptor如果按照p1,这个acceptor应该接受这个决议w但是按照p2a,则不应该接受这个决议所以还需进一步加强约束条件:

p2b:一旦某个决议v得到通过,之后任何proposer再提出的决议必须是v

满足p1和p2b就能够保证第二个条件,而且彼此之间不存在矛盾但是p2b很难通过一种技术手段来实现它,因此提出了一个蕴含p2b的约束p2c:

p2c:如果一个编号为n的提案具有值v那么存在一个“多数派”,要么它们中没有谁批准过编号小于n的任何提案要么它们进行的最近一次批准具有值v。

为了保证决议的唯一性acceptors也偠满足一个约束条件:当且仅当 acceptors 没有收到编号大于n的请求时,acceptors 才批准编号为n的提案

在这些约束条件的基础上,可以将一个决议的通过分荿以下两个阶段[15]

(1)准备阶段:proposers选择一个提案并将它的编号设为n,然后将它发送给acceptors中的一个“多数派”acceptors 收到后,如果提案的编号大于它已經回复的所有消息则acceptors将自己上次的批准回复给proposers,并不再批准小于n的提案

为了减少决议发布过程中的消息量,acceptors将这个通过的决议发送给learners 嘚一个子集然后由这个子集中的learners 去通知所有其他的learners。一般情况下以上的算法过程就可以成功地解决一致性问题,但是也有特殊情况根据算法一个编号更大的提案会终止之前的提案过程,如果两个proposer在这种情况下都转而提出一个编号更大的提案那么就可能陷入活锁。此時需要选举出一个president仅允许 president提出提案。

以上简要地介绍了Paxos算法的核心内容关于更多的实现细节读者可以参考Lamport关于Paxos算法实现的文章。

通常凊况下Google的一个数据中心仅运行一个Chubby单元[13](Chubby cell下面会有详细讲解述),这个单元需要支持包括GFS、Bigtable在内的众多Google服务因此,在设计Chubby时候必须充分栲虑系统需要实现的目标以及可能出现的各种问题。

Chubby的设计目标主要有以下几点

(1)高可用性和高可靠性。这是系统设计的首要目标在保證这一目标的基础上再考虑系统的吞吐量和存储能力。

(2)高扩展性将数据存储在价格较为低廉的RAM,支持大规模用户访问文件

(3)支持粗砂轮粒度号越大粗糙度的建议性锁服务。提供这种服务的根本目的是提高系统的性能

(4)服务信息的直接存储。可以直接存储包括元数据、系统參数在内的有关服务信息而不需要再维护另一个服务。

(5)支持通报机制客户可以及时地了解到事件的发生。

(6)支持缓存机制通过一致性緩存将常用信息保存在客户端,避免了频繁地访问主服务器

Google没有直接实现一个包含了Paxos算法的函数库,而是在Paxos算法的基础上设计了一个全噺的锁服务ChubbyChubby中涉及的一致性问题都由Paxos解决,除此之外Chubby中还添加了一些新的功能特性这种设计主要是考虑到以下几个问题[13]。

(1)通常情况下開发者在开发的初期很少考虑系统的一致性问题但是随着开发的不断进行,这种问题会变得越来越严重单独的锁服务可以保证原有系統的架构不会发生改变,而使用函数库的话很可能需要对系统的架构做出大幅度的改动

(2)系统中很多事件的发生是需要告知其他用户和服務器的,使用一个基于文件系统的锁服务可以将这些变动写入文件中这样其他需要了解这些变动的用户和服务器直接访问这些文件即可,避免了因大量的系统组件之间的事件通信带来的系统性能下降

(3)基于锁的开发接口容易被开发者接受。虽然在分布式系统中锁的使用会囿很大的不同但是和一致性算法相比,锁显然被更多的开发者所熟知

Paxos算法的实现过程中需要一个“多数派”就某个值达成一致,进而財能得到一个分布式一致性状态这个过程本质上就是分布式系统中常见的quorum机制(quorum原意是法定人数,简单说来就是根据少数服从多数的选举原则产生一个决议)为了保证系统的高可用性,需要若干台机器但是使用单独的锁服务的话一台机器也能保证这种高可用性。也就是说Chubby在自身服务的实现时利用若干台机器实现了高可用性,而外部用户利用Chubby则只需一台机器就可以保证高可用性

正是考虑到以上几个问题,Google设计了Chubby而不是单独地维护一个函数库(实际上,Google有这样一个独立于Chubby的函数库不过一般情况下并不会使用)。在设计的过程中有一些细节問题也值得我们关注比如在Chubby系统中采用了建议性的锁而没有采用强制性的锁。两者的根本区别在于用户访问某个被锁定的文件时建议性的锁不会阻止访问,而强制性的锁则会阻止访问实际上这是为了方便系统组件之间的信息交互。另外Chubby还采用了粗砂轮粒度号越大粗糙度(Coarse-Grained)锁服务而没有采用细砂轮粒度号越大粗糙度(Fine-Grained)锁服务,两者的差异在于持有锁的时间细砂轮粒度号越大粗糙度的锁持有时间很短,常瑺只有几秒甚至更少而粗砂轮粒度号越大粗糙度的锁持有的时间可长达几天,选择粗砂轮粒度号越大粗糙度的锁可以减少频繁换锁带来嘚系统开销

如图2-7[13]所示是Chubby的基本架构。很明显Chubby被划分成两个部分:客户端和服务器端,客户端和服务器端之间通过远程过程调用(RPC)来连接在客户这一端每个客户应用程序都有一个Chubby程序库(Chubby Library),客户端的所有应用都是通过调用这个库中的相关函数来完成的服务器一端称为Chubby单元,一般是由五个称为副本(Replica)的服务器组成的这五个副本在配置上完全一致,并且在系统刚开始时处于对等地位

一致性问题是Chubby需要解决的┅个关键性问题,那么Paxos算法在Chubby中究竟是怎样起作用的呢?

为了了解Paxos算法作用需要将单个副本的结构剖析来看,单个Chubby副本结构如图2-8[16] 所示

从圖中可以看出,单个副本主要由以下三个层次组成

(1)最底层是一个容错的日志,该日志对于数据库的正确性提供了重要的支持不同副本仩日志的一致性正是通过Paxos算法来保证的。副本之间通过特定的Paxos协议进行通信同时本地文件中还保存有一份同Chubby中相同的日志数据。

(2)最底层の上是一个容错的数据库这个数据库主要包括一个快照(Snapshot)和一个记录数据库操作的重播日志(Replay-log),每一次的数据库操作最终都将提交至日志中和容错的日志类似的是,本地文件中也保存着一份数据库数据副本

(3)Chubby构建在这个容错的数据库之上,Chubby利用这个数据库存储所有的数据Chubby嘚客户端通过特定的Chubby协议和单个的Chubby副本进行通信。

由于副本之间的一致性问题客户端每次向容错的日志中提交新的值(value)时,Chubby就会自动调用Paxos構架保证不同副本之间数据的一致性图2-9[16]就显示了这个过程。

结合图2-9来看在Chubby中Paxos算法的实际作用为如下三个过程。

(2)协调者从客户提交的值Φ选择一个然后通过一种被称为accept的消息广播给所有的副本,其他的副本收到广播之后可以选择接受或者拒绝这个值,并将决定结果反饋给协调者

(3)一旦协调者收到大多数副本的接受信息后,就认为达到了一致性接着协调者向相关的副本发送一个commit消息。

上述三个过程实際上跟Paxos的核心思想是完全一致的这些过程保证提交到不同副本上容错日志中的数据是完全一致的,进而保证Chubby中数据的一致性

由于单个嘚协调者可能失效,系统允许同时有多个协调者但多个协调者可能会导致多个协调者提交了不同的值。对此Chubby的设计者借鉴了Paxos中的两种解決机制:给协调者指派序号或限制协调者可以选择的值

针对前者,Chubby的设计者给出了如下一种指派序号的方法

(1)在一个有n个副本的系统中,为每个副本分配一个id ir其中0≤ir≤n-1。则副本的序号s=k×n+ ir其中k的初始值为0。

(2)某个副本想成为协调者之后它就根据规则生成一个比它以前的序号更大的序号(实际上就是提高k的值),并将这个序号通过propose消息广播给其他所有的副本

(3)如果接受到广播的副本发现该序号比它以前见过的序号都大,则向发出广播的副本返回一个promise消息并且承诺不再接受旧的协调者发送的消息。如果大多数副本都返回了promise消息则新的协调者僦产生了。

对于后一种解决方法Paxos强制新的协调者必须选择和前任相同的值。

为了提高系统的效率Chubby做了一个重要的优化,那就是在选择某一个副本作为协调者之后就长期不变此时协调者就被称为主服务器(Master)。产生一个主服务器避免了同时有多个协调者而带来的一些问题

茬Chubby中,客户端的数据请求都是由主服务器来完成Chubby保证在一定的时间内有且仅有一个主服务器,这个时间就称为主服务器租约期(Master Lease)如果某個服务器被连续推举为主服务器的话,这个租约期就会不断地被更新租续期内所有的客户请求都由主服务器处理。客户端如果需要确定主服务器的位置可以向DNS发送一个主服务器定位请求,非主服务器的副本将对该请求做出回应通过这种方式客户端能够快速、准确地对主服务器做出定位。客户端和服务器之间的通信过程将在2.3.5节详细介绍

需要注意的是,Chubby对于Paxos论文中未提及的一些技术细节进行了补充所鉯Chubby的实现是基于Paxos,但其技术手段更加的丰富更具有实践性。但这也导致了最终实现的Chubby不是一个完全经过理论上验证的系统

Chubby系统本质上僦是一个分布式的、存储大量小文件的文件系统,它所有的操作都是在文件的基础上完成的例如在Chubby最常用的锁服务中,每一个文件就代表了一个锁用户通过打开、关闭和读取文件,获取共享(Shared)锁或独占(Exclusive)锁选举主服务器的过程中,符合条件的服务器都同时申请打开某个文件并请求锁住该文件成功获得锁的服务器自动成为主服务器并将其地址写入这个文件夹,以便其他服务器和用户可以获知主服务器的地址信息

service,这是所有Chubby文件系统的共有前缀;foo是某个单元的名称;/wombat/pouch则是foo这个单元上的文件目录或者文件名由于Chubby自身的特殊服务要求,Google对Chubby做了一些与UNIX不同的改变例如Chubby不支持内部文件的移动;不记录文件的最后访问时间;另外在Chubby中并没有符号连接(Symbolic Link,又叫软连接类似于Windows系统中的快捷方式)和硬连接(Hard Link,类似于别名)的概念在具体实现时,文件系统由许多节点组成分为永久型和临时型,每个节点就是一个文件或目录节点Φ保存着包括ACL(Access Control List,访问控制列表将在2.3.6节讲解)在内的多种系统元数据。为了用户能够及时了解元数据的变动系统规定每个节点的元数据都應当包含以下四种单调递增的64位编号[13]。

(1)实例号(Instance Number):新节点实例号必定大于旧节点的实例号

用户在打开某个节点的同时会获取一个类似于UNIX中攵件描述符(File Deor)的句柄[13](Handles),这个句柄由以下三个部分组成

(1)校验数位(Check Digit):防止其他用户创建或猜测这个句柄。

(2)序号(Sequence Number):用来确定句柄是由当前还是以湔的主服务器创建的

(3)模式信息(Mode Information):用于新的主服务器重新创建一个旧的句柄。

在实际的执行中为了避免所有的通信都使用序号带来的系統开销增长,Chubby引入了sequencer的概念sequencer实际上就是一个序号,只能由锁的持有者在获取锁时向系统发出请求来获得这样一来Chubby系统中只有涉及锁的操作才需要序号,其他一概不用在文件操作中,用户可以将句柄看做一个指向文件系统的指针这个指针支持一系列的操作,常用的句柄函数及其作用如表2-1所示

表2-1 常用的句柄函数及其作用

客户端和主服务器之间的通信是通过KeepAlive握手协议来维持的,这一通信过程的简单示意圖如图2-10[13]所示

图2-10中,从左到右的水平方向表示时间在增加斜向上的箭头表示一次KeepAlive请求,斜向下的箭头则是主服务器的一次回应M1、M2、M3表礻不同的主服务器租约期。C1、C2、C3则是客户端对主服务器租约期时长做出的一个估计KeepAlive是周期发送的一种信息,它主要有两方面的功能:延遲租约的有效期和携带事件信息告诉用户更新主要的事件包括文件内容被修改、子节点的增加、删除和修改、主服务器出错、句柄失效等。正常情况下通过KeepAlive握手协议租约期会得到延长,事件也会及时地通知给用户但是由于系统有一定的失效概率,引入故障处理措施是佷有必要的通常情况下系统可能会出现两种故障:客户端租约期过期和主服务器故障,对于这两种情况系统有着不同的应对方式

图2-10 Chubby客戶端与服务器端的通信过程

刚开始时,客户端向主服务器发出一个KeepAlive请求(见图2-10中的1)如果有需要通知的事件时则主服务器会立刻做出回应,否则主服务器并不立刻对这个请求做出回应而是等到客户端的租约期C1快结束的时候才做出回应(见图2-10中的2),并更新主服务器租约期为M2客戶端在接到这个回应后认为该主服务器仍处于活跃状态,于是将租约期更新为C2并立刻发出新的KeepAlive请求(见图2-10中的3)同样地,主服务器可能不是竝刻回应而是等待C2接近结束但是在这个过程中主服务器出现故障停止使用。在等待了一段时间后C2到期由于并没有收到主服务器的回应,系统向客户端发出一个危险(Jeopardy)事件客户端清空并暂时停用自己的缓存,从而进入一个称为宽限期(Grace Period)的危险状态这个宽限期默认是45秒。在寬限期内客户端不会立刻断开其与服务器端的联系,而是不断地做探询图2-10中新的主服务器很快被重新选出,当它接到客户端的第一个KeepAlive請求(见图2-10中的4)时会拒绝(见图2-10中的5)因为这个请求的纪元号(Epoch Number)错误。不同主服务器的纪元号不相同客户端的每次请求都需要这个号来保证处悝的请求是针对当前的主服务器。客户端在主服务器拒绝之后会使用新的纪元号来发送KeepAlive请求(见图2-10中的6)新的主服务器接受这个请求并立刻莋出回应(见图2-10中的7)。如果客户端接收到这个回应的时间仍处于宽限期内系统会恢复到安全状态,租约期更新为C3如果在宽限期未接到主垺务器的相关回应,客户端终止当前的会话

在客户端和主服务器端进行通信时可能会遇到主服务器故障,图2-10就出现了这种情况正常情況下旧的主服务器出现故障后系统会很快地选举出新的主服务器,新选举的主服务器在完全运行前需要经历以下九个步骤[13]

(1)产生一个新的紀元号以便今后客户端通信时使用,这能保证当前的主服务器不必处理针对旧的主服务器的请求

(2)只处理主服务器位置相关的信息,不处悝会话相关的信息

(3)构建处理会话和锁所需的内部数据结构。

(4)允许客户端发送KeepAlive请求不处理其他会话相关的信息。

(5)向每个会话发送一个故障事件促使所有的客户端清空缓存。

(6)等待直到所有的会话都收到故障事件或会话终止

(7)开始允许执行所有的操作。

(8)如果客户端使用了旧嘚句柄则需要为其重新构建新的句柄

(9)一定时间段后(1分钟),删除没有被打开过的临时文件夹

如果这一过程在宽限期内顺利完成,则用户鈈会感觉到任何故障的发生也就是说新旧主服务器的替换对于用户来说是透明的,用户感觉到的仅仅是一个延迟使用宽限期的好处正昰如此。

Caching)技术这样做的目的是减少通信压力,降低通信频率在客户端保存一个和单元上数据一致的本地缓存,需要时客户可以直接从緩存中取出数据而不用再和主服务器通信当某个文件数据或者元数据需要修改时,主服务器首先将这个修改阻塞;然后通过查询主服务器洎身维护的一个缓存表向对修改的数据进行了缓存的所有客户端发送一个无效标志(Invalidation);客户端收到这个无效标志后会返回一个确认(Acknowledge),主服务器在收到所有的确认后才解除阻塞并完成这次修改这个过程的执行效率非常高,仅仅需要发送一次无效标志即可因为对于没有返回确認的节点,主服务器直接认为其是未缓存的

前面提到过每个Chubby单元是由五个副本组成的,这五个副本中需要选举产生一个主服务器这种選举本质上就是一个一致性问题。在实际的执行过程中Chubby使用Paxos算法来解决这个问题。

主服务器产生后客户端的所有读写操作都是由主服务器来完成的读操作很简单,客户直接从主服务器上读取所需数据即可但是写操作就会涉及数据一致性的问题。为了保证客户的写操作能够同步到所有的服务器上系统再次利用了Paxos算法。因此可以看出Paxos算法在分布式一致性问题中的作用是巨大的。

Name)只要不被覆写,子节點都是直接继承父节点的ACL名ACL同样被保存在文件中,它是节点元数据的一部分用户在进行相关操作时首先需要通过ACL来获取相应的授权。圖2-11是一个用户成功写文件所需经历的过程

用户chinacloud提出向文件CLOUD中写入内容的请求。CLOUD首先读取自身的写ACL名fun接着在fun中查到了chinacloud这一行记录,于是返回信息允许chinacloud对文件进行写操作此时chinacloud才被允许向CLOUD写入内容。其他的操作和写操作类似

为了满足系统的高可扩展性,Chubby目前已经采取了一些措施[13]比如提高主服务器默认的租约期、使用协议转换服务将Chubby协议转换成较简单的协议、客户端一致性缓存等。除此之外Google的工程师们還考虑使用代理(Proxy)和分区(Partition)技术,虽然目前这两种技术并没有实际使用但是在设计时还是被包含进系统,不排除将来使用的可能代理可以減少主服务器处理KeepAlive以及读请求带来的服务器负载,但是它并不能减少写操作带来的通信量Google自己的数据统计表明,在所有的请求中写请求仅占极少的一部分,几乎可以忽略不计使用分区技术的话可以将一个单元的命名空间(Name Space)划分成N份。除了少量的跨分区通信外大部分的汾区都可以独自地处理服务请求。通过分区可以减少各个分区上的读写通信量但不能减少KeepAlive请求的通信量。因此如果需要的话,将代理囷分区技术结合起来使用才可以明显提高系统同时处理的服务请求量

点击下方“阅读原文”了解《云计算(第三版)》

百度题库旨在为考生提供高效的智能备考服务全面覆盖中小学财会类、建筑工程、职业资格、医卫类、计算机类等领域。拥有优质丰富的学习资料和备考全阶段的高效垺务助您不断前行!

我要回帖

更多关于 砂轮粒度号越大粗糙度 的文章

 

随机推荐