负载均衡

    使用带有负载均衡的多个服务器组件,取代单一的组件,可以通过冗余提高可靠性。负载均衡服务通常是由专用软体和硬件来完成。

    负载均衡最重要的一个应用是利用多台服务器提供单一服务,这种方案有时也称之为服务器农场。通常,负载均衡主要应用于 Web 网站,大型的 Internet Relay Chat 网络,高流量的文件下载网站,NNTP(Network News Transfer Protocol)服务和 DNS 服务。现在负载均衡器也开始支持数据库服务,称之为数据库负载均衡器。

    对于互联网服务,负载均衡器通常是一个软体程序,这个程序侦听一个外部端口,互联网用户可以通过这个端口来访问服务,而作为负载均衡器的软体会将用户的请求转发给后台内网服务器,内网服务器将请求的响应返回给负载均衡器,负载均衡器再将响应发送到用户,这样就向互联网用户隐藏了内网结构,阻止了用户直接访问后台(内网)服务器,使得服务器更加安全,可以阻止对核心网络栈和运行在其它端口服务的攻击。

    当所有后台服务器出现故障时,有些负载均衡器会提供一些特殊的功能来处理这种情况。例如转发请求到一个备用的负载均衡器、显示一条关于服务中断的消息等。负载均衡器使得 IT 团队可以显著提高容错能力。它可以自动提供大量的容量以处理任何应用程序流量的增加或减少。

    负载均衡在互联网世界中的作用如此重要,本章我们一起了解一下 Nginx 是如何帮我们完成 HTTP 协议负载均衡的。

    upstream 负载均衡概要

    配置示例,如下:

    upstream 是 Nginx 的 HTTP Upstream 模块,这个模块通过一个简单的调度算法来实现客户端 IP 到后端服务器的负载均衡。在上面的设定中,通过 upstream 指令指定了一个负载均衡器的名称 test.net。这个名称可以任意指定,在后面需要用到的地方直接调用即可。

    upstream 支持的负载均衡算法

    Nginx 的负载均衡模块目前支持 6 种调度算法,下面进行分别介绍,其中后两项属于第三方调度算法。

    • 轮询(默认):每个请求按时间顺序逐一分配到不同的后端服务器,如果后端某台服务器宕机,故障系统被自动剔除,使用户访问不受影响。Weight 指定轮询权值,Weight 值越大,分配到的访问机率越高,主要用于后端每个服务器性能不均的情况下。
    • ip_hash:每个请求按访问 IP 的 hash 结果分配,这样来自同一个 IP 的访客固定访问一个后端服务器,有效解决了动态网页存在的 session 共享问题。
    • fair:这是比上面两个更加智能的负载均衡算法。此种算法可以依据页面大小和加载时间长短智能地进行负载均衡,也就是根据后端服务器的响应时间来分配请求,响应时间短的优先分配。Nginx 本身是不支持 fair 的,如果需要使用这种调度算法,必须下载 Nginx 的 upstream_fair 模块。
    • url_hash:此方法按访问 url 的 hash 结果来分配请求,使每个 url 定向到同一个后端服务器,可以进一步提高后端缓存服务器的效率。Nginx 本身是不支持 url_hash 的,如果需要使用这种调度算法,必须安装 Nginx 的 hash 软件包。
    • least_conn:最少连接负载均衡算法,简单来说就是每次选择的后端都是当前最少连接的一个 server(这个最少连接不是共享的,是每个 worker 都有自己的一个数组进行记录后端 server 的连接数)。
    • hash:这个 hash 模块又支持两种模式 hash, 一种是普通的 hash, 另一种是一致性 hash(consistent)。
    upstream 支持的状态参数

    在 HTTP Upstream 模块中,可以通过 server 指令指定后端服务器的 IP 地址和端口,同时还可以设定每个后端服务器在负载均衡调度中的状态。常用的状态有:

    • down:表示当前的 server 暂时不参与负载均衡。
    • backup:预留的备份机器。当其他所有的非 backup 机器出现故障或者忙的时候,才会请求 backup 机器,因此这台机器的压力最轻。
    • max_fails:允许请求失败的次数,默认为 1 。当超过最大次数时,返回 proxy_next_upstream 模块定义的错误。
    • fail_timeout:在经历了 max_fails 次失败后,暂停服务的时间。max_fails 可以和 fail_timeout 一起使用。

    当负载调度算法为 ip_hash 时,后端服务器在负载均衡调度中的状态不能是 backup。

    配置 Nginx 负载均衡

    1. server 192.168.18.201 weight=1;
    2. server 192.168.18.202 weight=1;
    3. }
    4. server {
    5. listen 80;
    6. server_name localhost;
    7. #charset koi8-r;
    8. #access_log logs/host.access.log main;
    9. location / {
    10. proxy_pass http://webservers;
    11. proxy_set_header X-Real-IP $remote_addr;
    12. }
    13. }

    注,upstream 是定义在 server{ } 之外的,不能定义在 server{ } 内部。定义好 upstream 之后,用 proxy_pass 引用一下即可。

    重新加载一下配置文件

    1. # service nginx reload
    2. nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
    3. nginx: configuration file /etc/nginx/nginx.conf test is successful
    1. # curl http://192.168.18.208
    2. web1.test.com
    3. # curl http://192.168.18.208
    4. web2.test.com
    5. # curl http://192.168.18.208
    6. web1.test.com
    7. web2.test.com

    注,大家可以不断的刷新浏览的内容,可以发现 web1 与 web2 是交替出现的,达到了负载均衡的效果。

    Web1:

    1. # tail /var/log/nginx/access_log
    2. 192.168.18.138 - - [04/Sep/2013:09:41:58 +0800] "GET / HTTP/1.0" 200 23 "-"
    3. 192.168.18.138 - - [04/Sep/2013:09:41:58 +0800] "GET / HTTP/1.0" 200 23 "-"
    4. 192.168.18.138 - - [04/Sep/2013:09:41:59 +0800] "GET / HTTP/1.0" 200 23 "-"
    5. 192.168.18.138 - - [04/Sep/2013:09:41:59 +0800] "GET / HTTP/1.0" 200 23 "-"
    6. 192.168.18.138 - - [04/Sep/2013:09:42:00 +0800] "GET / HTTP/1.0" 200 23 "-"
    7. 192.168.18.138 - - [04/Sep/2013:09:42:00 +0800] "GET / HTTP/1.0" 200 23 "-"
    8. 192.168.18.138 - - [04/Sep/2013:09:42:00 +0800] "GET / HTTP/1.0" 200 23 "-"
    9. 192.168.18.138 - - [04/Sep/2013:09:44:21 +0800] "GET / HTTP/1.0" 200 23 "-"
    10. 192.168.18.138 - - [04/Sep/2013:09:44:22 +0800] "GET / HTTP/1.0" 200 23 "-"

    Web2:

    先修改一下,Web 服务器记录日志的格式。

    1. # LogFormat "%{X-Real-IP}i %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
    2. # tail /var/log/nginx/access_log
    3. 192.168.18.138 - - [04/Sep/2013:09:50:28 +0800] "GET / HTTP/1.0" 200 23 "-"
    4. 192.168.18.138 - - [04/Sep/2013:09:50:28 +0800] "GET / HTTP/1.0" 200 23 "-"
    5. 192.168.18.138 - - [04/Sep/2013:09:50:28 +0800] "GET / HTTP/1.0" 200 23 "-"
    6. 192.168.18.138 - - [04/Sep/2013:09:50:28 +0800] "GET / HTTP/1.0" 200 23 "-"
    7. 192.168.18.138 - - [04/Sep/2013:09:50:28 +0800] "GET / HTTP/1.0" 200 23 "-"
    8. 192.168.18.138 - - [04/Sep/2013:09:50:28 +0800] "GET / HTTP/1.0" 200 23 "-"
    9. 192.168.18.138 - - [04/Sep/2013:09:50:28 +0800] "GET / HTTP/1.0" 200 23 "-"
    10. 192.168.18.138 - - [04/Sep/2013:09:50:28 +0800] "GET / HTTP/1.0" 200 23 "-"
    11. 192.168.18.138 - - [04/Sep/2013:09:50:29 +0800] "GET / HTTP/1.0" 200 23 "-"
    12. 192.168.18.138 - - [04/Sep/2013:09:50:29 +0800] "GET / HTTP/1.0" 200 23 "-"

    注,大家可以看到,两台服务器日志都记录是 192.168.18.138 访问的日志,也说明了负载均衡配置成功。

    配置 Nginx 进行健康状态检查

    利用 max_fails、fail_timeout 参数,控制异常情况,示例配置如下:

    1. upstream webservers {
    2. server 192.168.18.201 weight=1 max_fails=2 fail_timeout=2;
    3. server 192.168.18.202 weight=1 max_fails=2 fail_timeout=2;
    4. }

    重新加载一下配置文件:

    先停止 Web1,进行测试:

    1. # service nginx stop
    2. 停止 nginx [确定]
    1. # curl http://192.168.18.208
    2. web2.test.com
    3. # curl http://192.168.18.208
    4. web2.test.com
    5. # curl http://192.168.18.208
    6. web2.test.com
    1. # service nginx start
    2. 正在启动 nginx [确定]
    1. # curl http://192.168.18.208
    2. web1.test.com
    3. web2.test.com
    4. # curl http://192.168.18.208
    5. web1.test.com
    6. # curl http://192.168.18.208
    7. web2.test.com

    PS:大家可以看到,现在又可以重新访问,说明 Nginx 的健康状态查检配置成功。但大家想一下,如果不幸的是所有服务器都不能提供服务了怎么办,用户打开页面就会出现出错页面,那么会带来用户体验的降低,所以我们能不能像配置 LVS 是配置 sorry_server 呢,答案是可以的,但这里不是配置 sorry_server 而是配置 backup。

    配置 backup 服务器

    备份服务器配置:

    1. listen 8080;
    2. server_name localhost;
    3. root /data/www/errorpage;
    4. index index.html;
    5. }
    1. # cat index.html
    2. <h1>Sorry......</h1>

    负载均衡配置:

    重新加载配置文件:

    1. # service nginx reload
    2. nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
    3. nginx: configuration file /etc/nginx/nginx.conf test is successful
    4. 重新载入 nginx [确定]

    关闭 Web 服务器并进行测试:

    1. # service nginx stop
    2. 停止 nginx [确定]

    进行测试:

    1. # curl http://192.168.18.208
    2. <h1>Sorry......</h1>
    3. # curl http://192.168.18.208
    4. <h1>Sorry......</h1>
    5. # curl http://192.168.18.208
    6. <h1>Sorry......</h1>

    注,大家可以看到,当所有服务器都不能工作时,就会启动备份服务器。好了,backup 服务器就配置到这里,下面我们来配置 ip_hash 负载均衡。

    配置 ip_hash 负载均衡

    ip_hash:每个请求按访问 IP 的 hash 结果分配,这样来自同一个 IP 的访客固定访问一个后端服务器,有效解决了动态网页存在的 session 共享问题,电子商务网站用的比较多。

    1. # vim /etc/nginx/nginx.conf
    2. upstream webservers {
    3. ip_hash;
    4. server 192.168.18.201 weight=1 max_fails=2 fail_timeout=2;
    5. server 192.168.18.202 weight=1 max_fails=2 fail_timeout=2;
    6. #server 127.0.0.1:8080 backup;
    7. }

    注,当负载调度算法为 ip_hash 时,后端服务器在负载均衡调度中的状态不能有 backup。有人可能会问,为什么呢?大家想啊,如果负载均衡把你分配到 backup 服务器上,你能访问到页面吗?不能,所以了不能配置 backup 服务器。

    重新加载一下服务器:

    1. # service nginx reload
    2. nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
    3. nginx: configuration file /etc/nginx/nginx.conf test is successful
    4. 重新载入 nginx [确定]
    1. # curl http://192.168.18.208
    2. web2.test.com
    3. # curl http://192.168.18.208
    4. web2.test.com

    注,大家可以看到,你不断的刷新页面一直会显示 Web2,说明 ip_hash 负载均衡配置成功。