开宗明义

集群与分布式

很多时候，我们在讨论技术架构时，都离不开集群、分布式以及现在的微服务。为了厘清三者关系，请看下方示例：

一个任务，1 台机器执行 1 个任务需要 1 小时完成，执行 10 个任务就需要 10 个小时，现在购置 10 台机器后，如何提升效率？

集群方案：10 台机器都部署该任务，若执行 1 个任务，只需要其中 1 台机器执行，时长 1 小时。若执行 10 个任务，每台执行 1 个，总耗费时间仍为 1 小时。
分布式方案：将该任务拆分成 10 个子任务，每个子任务只需要 0.1 小时完成，10 台机器分别部署不同的子任务，1 个任务完成总计需要 0.1 小时，10 个任务完成耗费 1 小时。

集群与分布式：

集群：代表业务的物理的形态，某个业务同时部署在了多个服务器上，通过提高单位时间内执行的任务数来提升效率。
分布式：代表业务的工作形态，某个业务被拆分成了多个子业务，子业务分别部署在不同的服务器上，通过缩短单个任务的执行时间来提升效率

由上我们可以看出，分布式中的每一个节点（服务器），都可以作为集群部署，而集群就不一定是分布式的了。

好的设计应该是分布式和集群的集合，先分布式再集群，具体实现就是业务拆分成很多子业务，然后针对子业务进行集群部署，这样每个独立的子业务出现了问题，不会对整个系统造成影响。

微服务与 SOA

微服务：
微服务只是一种架构风格，将一个大型软件拆分为多个松耦合的微服务，各个微服务可以独立部署，即将业务拆分为多个独立的单元，单元之间通过网络实现数据交互。

SOA：
业务系统分解为多个组件，让每个组件独立提供离散、自治、可复用的服务能力，通过服务的组合和编排来实现上层的业务流程。

笔者这里认为微服务其实是分布式理念按照 SOA 的设想后的一种严格实现，但是微服务的应用可以部署在多台服务器上，也可以在同一个服务器（原则上不允许）。

微服务相比分布式服务来说，服务粒度更小，服务之间耦合度更低，分布式服务最后都会向微服务架构演化，这是一种趋势，不过微服务化后也会带来很多新的挑战，如：服务粒度小、数量大造成的运维艰难，当然这时候也诞生了针对该问题的解决方案，如 docker，k8s。

分布式系统概念

分布式系统由一组计算节点组成，这些节点之间通过通过网络进行通信，并且能够协调工作以完成共同的任务，通过分布式，让多个廉价的计算机通过协作来达到昂贵的大型机的处理能力。相对而言，降低了成本。

常见的分布式应用主要包括：

分布式存储（storage）：每个节点存一部分数据，实践方式比如 hadoop 的 hdfs
分布式计算（computation）：对计算任务进行切换，每个节点算一些，实践方式比如 hadoop 的 mapreduce

分布式理论最大的挑战是如何将任务分发到不同的计算机节点，可以利用分片机制（partition）。

分布式系统特性与标准：

透明性：用户无需关心分布式系统如何实现，也不关心读到的数据来自哪个节点，在使用体验上，与单机系统无异
伸缩性：任务增加的时，分布式系统的处理能力需要随之增加，任务规模缩减时，多余机器可以裁撤
可用性：通过不可用时间与正常服务时间的比值来衡量
可靠性：计算结果正确、存储的数据不丢失
高性能：支持高并发与低延时，即单位时间内处理的多好，每个任务的处理时间短。
一致性：一致性有很多等级，一致性越强，对用户越友好，但会制约系统的可用性；一致性等级越低，用户就需要兼容数据不一致的情况，但系统的可用性、并发性很高很多。

分布式系统问题：

分布式与单机系统相比，会遇到更多的挑战：

单个节点的故障（进程 crash、断电、磁盘损坏）是小概率事件，但是节点越多，事故概率也就越高（指数级增加）
节点之间通过网络通信，网络本身可能出现断网、高延迟的情况

解决上述问题的办法是：冗余或者复制集（Replication），即多个节点负责同一个任务，最为常见的就是分布式存储中，多个节点复制存储同一份数据，以此增强可用性与可靠性。同时，Replication 也会带来性能的提升，比如数据的 locality 可以减少用户的等待时间。

Partition 和 Replication 是解决分布式系统问题利器，但也引入了更多的问题，最常见的问题是一致性问题：因为复制集各个副本之间需要保持数据的一致性，一致性在系统的角度和用户的角度又有不同的等级划分。如果要保证强一致性，那么会影响可用性与性能，在一些应用（比如电商、搜索）是难以接受的。如果是最终一致性，那么就需要处理数据冲突的情况，这也是不同的一致性解决方案理论的诞生缘由，如：CAP、FLP。

简单的分布式架构：

架构图如下所示：

在客户端，用户使用 Web、APP、SDK，通过 HTTP、TCP 连接到分布式系统后：

第一个问题：选择哪个节点来提供服务？
- 负载均衡：通常使用负载均衡（load balance）解决
第二个问题：被负载到的服务器节点如何处理请求？
- 分布式缓存：简单的请求，比如读取数据，那么很可能是有缓存的，即分布式缓存，如果缓存没有命中，那么需要去数据库拉取数据。
- rpc：对于复杂的请求，可能会调用到系统中其他的服务。假设服务 A 需要调用服务 B 的服务，首先两个节点需要通信，网络通信都是建立在 TCP/IP 协议的基础上，但是，每个应用都手写 socket 是一件冗杂、低效的事情，因此需要应用层的封装，因此有了 HTTP、FTP 等各种应用层协议。当系统愈加复杂，提供大量的 http 接口也是一件困难的事情。因此，有了更进一步的抽象，那就是 RPC（remote produce call），使得远程调用就跟本地过程调用一样方便，屏蔽了网络通信等诸多细节，增加新的接口也更加方便。
- 分布式事务：一个请求可能包含诸多操作，即在服务 A 上做一些操作，然后在服务 B 上做另一些操作。比如简化版的网络购物，在订单服务上发货，在账户服务上扣款。这两个操作需要保证原子性，要么都成功，要么都不操作。分布式事务是从应用层面保证一致性：某种守恒关系。
- 服务注册与发现：上面说到一个请求包含多个操作，其实就是涉及到多个服务，分布式系统中有大量的服务，每个服务又是多个节点组成。那么一个服务怎么找到另一个服务（的某个节点呢）？通信是需要地址的，怎么获取这个地址，最简单的办法就是配置文件写死，或者写入到数据库，但这些方法在节点数据巨大、节点动态增删的时候都不大方便，这个时候就需要服务注册与发现：提供服务的节点向一个协调中心注册自己的地址，使用服务的节点去协调中心拉取地址。
第三个问题：如何处理日志？
- 消息队列：请求操作会产生一些数据、日志，通常为信息，其他一些系统可能会对这些消息感兴趣，比如个性化推荐、监控等，这里就抽象出了两个概念，消息的生产者与消费者。那么生产者怎么讲消息发送给消费者呢，RPC 并不是一个很好的选择，因为 RPC 肯定得指定消息发给谁，但实际的情况是生产者并不清楚、也不关心谁会消费这个消息，这个时候消息队列就出马了。简单来说，生产者只用往消息队列里面发就行了，队列会将消息按主题（topic）分发给关注这个主题的消费者。消息队列起到了异步处理、应用解耦的作用。
- 分布式运算：用户操作会产生一些数据，这些数据忠实记录了用户的操作习惯、喜好，是各行各业最宝贵的财富。比如各种推荐、广告投放、自动识别。这就催生了分布式计算平台，比如 Hadoop，Storm 等，用来处理这些海量的数据。
第四个问题：用户数据如何持久化？
- 分布式存储：用户的数据需要持久化，但数据量很大，大到按个节点无法存储，那么这个时候就需要分布式存储：将数据进行划分放在不同的节点上，同时，为了防止数据的丢失，每一份数据会保存多分。传统的关系型数据库是单点存储，为了在应用层透明的情况下分库分表，会引用额外的代理层。

分布式常见的技术实现：

架构体系：      SOA、微服务、云原生
负载均衡：      Nginx、LVS
开发框架：      SpringCloud、ServiceComb、go-micro、go-kit
容器领域：      Docker、Kubernetes、Prometheus、Istio
缓存系统：      memcache、redis
协调中心：      zookeeper、etcd、consul
rpc框架：       grpc、dubbo、brpc
消息队列：      kafka、rabbitMQ、rocketMQ
数据存储：      mysql、oracle、MongoDB、HBase
数据搜索：      elasticsearch、solr
日志系统：      rsyslog、elk、flume
数据平台：      hadoop、spark、storm、akka

一架构相关书籍

1.1 架构基础

《从零开始学架构》：简单认识架构，并实践一些常见互联网技术
《互联网创业核心技术:构建可伸缩的 web 应用》：认识当前互联网架构的一些常见技术

1.2 分布式理论

经典书籍：

下列书籍评分不高，但是部分章节值得一看：

《从 Paxos 到 Zookeeper 分布式一致性原理与实践》
《深入分布式缓存：从原理到实践》
《etcd 技术内幕》
《分布式实时处理系统：原理、架构与实现》：利用 C++开发一套分布式实时处理系统
《大规模分布式存储系统》：构建分布式存储系统必备

1.3 微服务

微服务设计：

《微服务架构设计模式》：
《微服务设计》：学习微服务的一些基础概念，本书可以最后看
《微服务设计原理与架构郑天民》：冷门书籍，但是讲解也不错
《大型企业微服务架构实践与运营》：对微服务技术、理念的总结

微服务落地：

1.4 架构之术

二开发禅道

2.1 设计模式

2.2 代码之术

《代码整洁之道》
《架构整洁之道》
《代码大全（第 2 版）》
《重构（第 2 版）》：第 2 版基于 JavaScript，第 1 版基于 Java

2.3 软件工程

三常用软件

3.1 数据库

MySQL：

Redis：

《Redis 开发与运维》：基础入门
《Redis 深度历险》：开发技巧提升
《Redis 设计与实现》：redis 源码与架构

MongoDB：

暂无

PostgreSQL：

Oracle：

3.2 web 服务器

3.2 消息队列

3.4 Docker&k8s

docker:

k8s:

附录：笔记汇总

OverNote：https://github.com/overnote 笔者的地址：https://github.com/ruyuejun

OverNote 分类：

Golang：详尽的 Go 领域笔记：Go 语法、Go 并发编程、GoWeb 编程、Go 微服务等
大前端：包含 JavaScript、Node.js、vue/react、微信开发、Flutter 等大前端技术
数据结构与算法：以 Go 实现为主记录数据结构与算法的笔记，附带 C、JS 版本
服务端架构：分布式与微服务笔记，附 Nginx、Mysql、Redis 等常用服务端技术
Linux：计算机组成原理、操作系统、计算机网络基础学科笔记，完善中
大数据：大数据笔记，完善中
Python 与机器学习：Python 相关笔记，完善中

Cheap and reliable Node.js hosting starts at $3/month, and $1/month static HTML hosting

overnote / over-server

开宗明义

集群与分布式

微服务与 SOA

分布式系统概念

一架构相关书籍

1.1 架构基础

1.2 分布式理论

1.3 微服务

1.4 架构之术

二开发禅道

2.1 设计模式

2.2 代码之术

2.3 软件工程

三常用软件

3.1 数据库

3.2 web 服务器

3.2 消息队列

3.4 Docker&k8s

附录：笔记汇总

Cheap and reliable Node.js hosting starts at $3/month, and $1/month static HTML hosting

overnote / over-server

开宗明义

集群与分布式

微服务与 SOA

分布式系统概念

一 架构相关书籍

1.1 架构基础

1.2 分布式理论

1.3 微服务

1.4 架构之术

二 开发禅道

2.1 设计模式

2.2 代码之术

2.3 软件工程

三 常用软件

3.1 数据库

3.2 web 服务器

3.2 消息队列

3.4 Docker&k8s

附录：笔记汇总

一架构相关书籍

二开发禅道

三常用软件