分布式系统原理

高可用是指系统无中断的执行功能的能力,代表了系统的可用程度,是进行系统设计时必须要遵守的准则之一 。而高可用的实现方案,无外乎就是冗余,就存储的高可用而言,问题不在于如何进行数据备份,而在于如何规避数据不一致对业务造成的影响 。对于分布式系统而言,要保证分布式系统中的数据一致性就需要一种方案,可以保证数据在子系统中始终保持一致,避免业务出现问题 。这种实现方案就叫做分布式事务,要么一起成功,要么一起失败,必须是一个整体性的事务 。
1、理论基础1.1 CAPCAP,Consistency Availability Partition tolerance 的简写:
Consistency:一致性,对某个客户端来说,读操作能够返回最新的写操作结果 。 Availability:可用性,非故障节点在合理的时间内返回合理的响应 。 Partition tolerance:分区容错性,分布式系统中系统肯定部署在多台机器上,无法保证网络做到 100% 的可靠,所以网络分区一定存在,即 P 一定存在 。
在出现网络分区后,就出现了可用性和一致性的问题,我们必须要在这两者之间进行取舍,因此就有了两种架构:

  • CP 架构
  • AP 架构
1.2 BASE理论BASE 理论指的是基本可用 Basically Available,软状态 Soft State,最终一致性 Eventual Consistency,核心思想是即便无法做到强一致性,但应该采用适合的方式保证最终一致性 。
BASE,Basically Available Soft State Eventual Consistency 的简写: BA:Basically Available 基本可用,分布式系统在出现故障的时候,允许损失部分可用性,即保证核心可用 。 S:Soft State 软状态,允许系统存在中间状态,而该中间状态不会影响系统整体可用性 。 E:Consistency 最终一致性,系统中的所有数据副本经过一定时间后,最终能够达到一致的状态 。
BASE 理论本质上是对 CAP 理论的延伸,是对 CAP 中 AP 方案的一个补充 。
2、分布式事务协议2.1 二阶段提交协议:2PC2.1.1 概述二阶段提交(Two-phase Commit),是指,为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种算法(Algorithm) 。通常,二阶段提交也被称为是一种协议(Protocol) 。
在分布式系统中,每个节点虽然可以知晓自己的操作是成功或者失败,却无法知道其他节点的操作是成功或失败 。
当一个事务跨越多个节点时,为了保持事务的 ACID 特性,需要引入一个作为协调者的组件来统一掌控所有节点(称作参与者)的操作结果并最终指示这些节点是否要把操作结果进行真正的提交(比如将更新后的数据写入磁盘等等) 。
因此,二阶段提交的算法思路可以概括为:参与者将操作成败通知协调者,再由协调者根据所有参与者的反馈情报决定各参与者是否要提交操作还是中止操作 。
2.1.2 二阶段提交过程
  • 投票阶段

分布式系统原理

文章插图
 
image.png
投票阶段执行流程:
  1. 协调者向所有参与者询问是否可以执行提交操作,并开始等待各参与者的响应 。
  2. 参与者执行事务操作,如果执行成功就返回 Yes 响应,如果执行失败就返回 No 响应 。
  3. 如果协调者接受参与者响应超时,也会认为执行事务操作失败 。
  • 提交阶段

分布式系统原理

文章插图
 
image.png
提交阶段执行流程:
  1. 如果第一阶段汇总所有参与者都返回 Yes 响应,协调者向所有参与者发出提交请求,所有参与者提交事务 。
  2. 如果第一阶段中有一个或者多个参与者返回 No 响应,协调者向所有参与者发出回滚请求,所有参与者进行回滚操作 。
2.1.3 优缺点