逐出算法

取决于异常值检测的类型,弹出或者以行内(例如在连续5xx的情况下)或以指定的间隔(例如在定期成功率的情况下)运行。逐出算法的工作原理如下:

  1. Envoy检查以确保逐出的主机数量低于允许的阈值(通过设置指定)。如果逐出的主机数量超过阈值,主机不会被逐出。
  2. 主机被逐出几毫秒。意味着主机被标记为不健康,在负载平衡期间不会使用,除非负载平衡器处于紧急情况。毫秒数等于outlier_detection.base_ejection_time_ms值乘以主机被逐出的次数。这会导致主机如果继续失败,则会被逐出更长和更长的时间。
  3. 逐出的主机将在逐出时间满之后自动重新投入使用。一般而言,异常值检测与主动健康检查一起使用,用于全面的健康检查解决方案。

Envoy支持以下异常检测类型:

连续5xx

如果上游主机返回一些连续的5xx,它将被逐出。请注意,在这种情况下,5xx意味着一个实际的5xx响应代码,或者一个会导致HTTP路由器代表上游返回的事件(复位,连接失败等)。逐出所需的连续5xx数量由outlier_detection.consecutive_5xx值控制。

连续的网关故障

如果上游主机返回一些连续的“网关错误”(502,503或504状态码),它将被逐出。请注意,这包括HTTP路由代表上游返回其中一个状态码的事件(重置,连接失败等)。逐出所需的连续网关故障的数量由outlier_detection.consecutive_gateway_failure值控制。

成功率

基于成功率的异常值逐出汇总来自群集中每个主机的成功率数据。然后以给定的时间间隔,基于统计异常值检测来逐出主机。如果主机在一个时间间隔内的,请求量小于outlier_detection.success_rate_request_volume值,则不会为认为该主机成功率异常值。此外,如果一个时间间隔内请求量最小的主机,请求数小于值,则不会对群集执行检测。

逐出事件记录

time

  1. 事件发生的时间。

secs_since_last_action

  1. 自从上一次操作(逐出或未逐出)发生以来的时间,以秒为单位。如果是第一次,之前没有动作,该值将为-1

cluster

  1. 被逐出主机所在的群集。

upstream_url

action

  1. 触发的动作(`eject`/`uneject`

num_ejections

    enforced

    host_success_rate

    1. 如果`action``eject`,并且`type``SuccessRate`,主机在被逐出时的成功率(0~100范围)。

    cluster_success_rate_average

    1. 如果`action``eject`,并且`type``SuccessRate`,主机在被逐出时所在的集群平均成功率(0~100范围)。

    cluster_success_rate_ejection_threshold

    1. 如果`action``eject`,并且`type``SuccessRate`,指定逐出事件的成功率阈值。