SpringCloud

[Spring Cloud 를 활용한 MSA 기초] 4. Circuit Breaker - Hystrix

nineDeveloper 2021. 2. 7.
728x90

4. Circuit Breaker - Hystrix


youtu.be/iHHuYGdG_Yk


Netflix OSS

  • 50 개 이상의 사내 프로젝트를 오픈소스로 공개
  • 플랫폼(AWS) 안의 여러 컴포넌트와 자동화 도구를 사용하면서 파악한 패턴해결방법을 블로그, 오픈소스로 공개

출처: https://netflixtechblog.com/netflixoss-season-2-episode-1-b477d8879799


Spring Cloud

  • Spring Cloud 란
  • 교집합이 spring-cloud-netflix


모놀리틱에서의 의존성 호출

  • 모놀리틱에서의 의존성 호출은 100% 신뢰

https://netflixtechblog.com/keystone-real-time-stream-processing-platform-a3ee651812a


Failure as a First Class Citizen

  • 분산 시스템, 특히 클라우드 환경에선 실패(Failure) 는 일반적인 표준이다
  • 모놀리틱엔 없던(별로 신경 안썼던..) 장애 유형
  • 한 서비스의 가동율(uptime) 최대 99.99%
    • 99.99^30 = 99.7% uptime
    • 10 억 요청 중 0.3% 실패 = 300만 요청이 실패
    • 모든 서비스들이 이상적인 uptime 을 갖고 있어도 매 달마다 2시간 이상의 downtime 이 발생


Circuit Breaker - Hystrix

  • Latency Tolerance and Fault Tolerance for Distributed Systems


Hystrix 적용하기

@HystrixCommand
public String anyMethodWithExternalDependency() {
    URI uri = URI.create("http://172.32.1.22:8090/recommended");
    String result = this.restTemplate.getForObject(uri, String.class);
    return result; 
}

위의 메소드를 호출할 때 벌어지는 일

  • 이 메소드 호출을 'Intercept' 하여 '대신' 실행
  • 실행된 결과의 성공 / 실패 (Exception) 여부를 기록하고 '통계'를 낸다. - 통계 ??
  • 실행 결과 '통계'에 따라 Circuit Open 여부를 판단하고 필요한 '조치'를 취한다

Hystrix - Circuit Breaker

  • Circuit Open ??
    • Circuit이 오픈된 Method는 (주어진 시간동안) 호출이 “제한”되며, “즉시” 에러를 반환한다
  • Why ?
    • 특정 메소드에서의 지연 (주로 외부 연동에서의 지연)이 시스템 전체의 Resource 를 (Thread, Memory등)를 모두 소모하여 시스템 전체의 장애를 유발한다
    • 특정 외부 시스템에서 계속 에러를 발생 시킨다면, 지속적인 호출이 에러 상황을 더 욱 악화 시킨다
  • So !
    • 장애를 유발하는 (외부) 시스템에 대한 연동을 조기에 차단 (Fail Fast) 시킴으로서 나의 시스템을 보 호한다
  • 기본 설정
    • 10초동안 20개 이상의 호출이 발생 했을때 50% 이상의 호출에서 에러가 발생하 면 Circuit Open
  • Circuit이 오픈된 경우의 에러 처리는 ? - Fallback
    • Fallback method는 Circuit이 오픈된 경우 혹은 Exception이 발생한 경우 대신 호출될 Method
      장애 발생시 Exception 대신 응답할 Default 구현을 넣는다
@HystrixCommand(commandKey = 'ExtDep1', fallbackMethod='recommendFallback')
public String anyMethodWithExternalDependency1() {
    URI uri = URI.create("http://172.32.1.22:8090/recommended");
    String result = this.restTemplate.getForObject(uri, String.class);
    return result;
}

public String recommendFallback() {
    return "No recommend available";
}
  • 오랫동안 응답이 없는 메소드에 대한 처리 방법은 ? - Timeout
@HystrixCommand(commandKey = 'ExtDep1', fallbackMethod='recommendFallback'
  commandProperties = {
    @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "500")
})

public String anyMethodWithExternalDependency1() {
    URI uri = URI.create("http://172.32.1.22:8090/recommended");
    String result = this.restTemplate.getForObject(uri, String.class);
    return result;
}

public String recommendFallback() {
    return "No recommend available";
}
  • 설정하지 않으면 default 1,000ms
  • 설정 시간동안 메소드가 끝나지 않으면 (return / exception) Hystrix는 메소드를 실제 실행중인 Thread에 interrupt() 를 호출 하고, 자신은 즉시 HystrixException 을 발생시킨다
  • 물론 이경우에도 Fallback이 있다면 Fallback을 수행


[실습 Step-2] Hystrix 사용하기

Tag : step-2-hystrix-basic

  • 배경
    • Display 서비스는 외부 Server인 Product API와 연동되어있음
    • Product API에 장애가 나더라도 Display의 다른 서비스는 이상없이 동작하였으면 합니다
    • Product API에 응답 오류인경우, Default값을 넣어 주고 싶습니다
  • 결정 내용
    • Display -> Product 연동 구간에 Circuit Breaker를 적용 !

1. [display] build.gradle에 hystrix dependency추가

  • compile('org.springframework.cloud:spring-cloud-starter-netflix-hystrix')

2. [display] DisplayApplication에 @EnableCircuitBreaker추가

  • @EnableCircuitBreaker

3. [display] ProductRemoteServiceImp에 @HystrixCommand추가

  • @HystrixCommand

[실습 Step-2] Hystrix Fallback 적용하기

Tag : step-2-hystrix-fallback

4. [product] ProductController에서 항상 Exception 던지게 수정하기 (장애 상황 흉내)

  • throw new RuntimeException(“I/O Error”)

5. [display] ProductRemoteServiceImp에 Fallback Method 작성하기

@Override
@HystrixCommand(fallbackMethod = "getProductInfoFallback")
public String getProductInfo(String productId) {
    return this.restTemplate.getForObject(url + productId, String.class);
}

public String getProductInfoFallback(String productId) {
    return "[ this product is sold out ]";
}

6. 확인

Hystrix가 발생한 Exception을 잡아서 Fallback을 실행

Fallback 정의 여부와 상관없이 Circuit 오픈 여부 판단을 위한 에러통계는 계산하고 있음 아직, Circuit이 오픈된 상태 X

Tag : step-2-hystrix-fallback2

7. Fallback 원인 출력하기

  • Fallback 메소드의 마지막 파라매터를 Throwable로 추가하면 Fallback 일으킨 Exception을 전달 해줌
public String getProductInfoFallback(String productId, Throwable t) {
    System.out.println("t = " + t);
    return "[ this product is sold out ]";
}

8. 정리

  • Hystrix에서 Fallback의 실행 여부는 Exception이 발생 했는가 여부
  • Fallback의 정의 여부는 Circuit Breaker Open과 무관
  • Throwable 파래매터의 추가로. Fallback 원인을 알 수 있다

[실습 Step-2] Hystrix로 Timeout 처리하기

Tag : step-2-hystrix-timeout

Hystrix로 할 수 있는 또 한가지 ! Timeout 처리

@HystrixCommand로 표시된 메소드는 지정된 시간안에 반환되지 않으면 자동으로 Exception 발생 (기존 설정 : 1,000ms)

1. [product] ProductController의 throw Exception을 Thread.sleep(2000)로 수정

@GetMapping(path = "{productId}")
public String getProductInfo(@PathVariable String productId) {
    try {
        Thread.sleep(2000);
    } catch (InterruptedException e) {
        e.printStackTrace();
    }

    return "[product id = " + productId + " at " + System.currentTimeMillis() + "]";
    //throw new RuntimeException("I/O Exception");
}

2. 확인

  • Product API를 직접 호출하는 경우는 동작하나, Display는 동작 안함
  • t = com.netflix.hystrix.exception.HystrixTimeoutException

3. [display] application.yml 수정하여 Hystrix Timeout 시간 조정하기

  • hystrix.command.default.execution.isolation.thread.timeoutInMilliseconds=3000
hystrix:
  command:
    default:    # command key. use 'default' for global setting.
      execution:
        isolation:
          thread:
            timeoutInMilliseconds: 3000

4. 다시 확인 -> Product/Display 모두 동작

5. 정리

  • Hystrix를 통해 실행 되는 모든 메소드는 정해진 응답시간 내에 반환 되어야 한다
  • 그렇지 못한 경우, Exception이 발생하며, Fallback이 정의된 경우 수행된다
  • Timeout 시간은 조절할 수 있다 (Circuit 별로 세부 수정 가능하며 뒷 부분에 설명)
  • 언제 유용한가 ?
    • 항상 !!
    • 모든 외부 연동은 최대 응답 시간을 가정할 수 있어야 한다
    • 여러 연동을 사용하는 경우 최대 응답시간을 직접 Control하는 것은 불가능하다 (다양한 timeout, 다양한 지연등..)

[실습 Step-2] Hystrix Circuit Open 테스트

Tag : step-2-hystrix-circuit-open

1. [display] application.yml 수정하여 Hystrix 프로퍼티 추가

  • 기본 설정 (테스트 하기 힘들다)
  • 10초동안 20개 이상의 호출이 발생 했을때 50% 이상의 호출에서 에러가 발생하면 Circuit Open
hystrix:
  command:
    default:    # command key. use 'default' for global setting.
      execution:
        isolation:
          thread:
            timeoutInMilliseconds: 3000   # default 1,000ms
      circuitBreaker:
        requestVolumeThreshold: 1   # Minimum number of request to calculate circuit breaker's health. default 20
        errorThresholdPercentage: 50 # Error percentage to open circuit. default 50

변경설정

  • h.c.d.circuitBreaker.requestVolumeThreshold: 1
  • h.c.d.circuitBreaker.errorThresholdPercentage: 50

2. [product] ProductController 다시 수정하여 Exception 던지도록 수정

@RestController
@RequestMapping("/products")
public class ProductController {

    @GetMapping(path = "{productId}")
    public String getProductInfo(@PathVariable String productId) {
//        try {
//            Thread.sleep(2000);
//        } catch (InterruptedException e) {
//            e.printStackTrace();
//        }
//
//        return "[product id = " + productId + " at " + System.currentTimeMillis() + "]";
        throw new RuntimeException("I/O Exception");
    }
}

Thread.sleep(2000) 제거 - 테스트 편의

Throw new RuntimeException 복원 - Exception 발생으로 Circuit Open 유도하기 위해

3. 확인

  • Product Console 지운 후 Display 호출 및 확인
    • 'Hystrix Circuit Short-Circuited and is OPEN”이 Display 에 출력되는 경우는 Product 콘솔에는 아무것도 찍히지 않는다
    • Circuit Open (호출 차단)

4. 부가 설명

  • Circuit Open 여부는 통계를 기반으로 한다
  • 최근 10초간 호출 통계 (metrics.rollingStats.timeInMilliseconds : 10000)
  • 최소 요청 갯수(20) 넘는 경우만 (circuitBreaker.requestVolumeThreshold : 20)
  • 에러 비율 넘는 경우(50%) (circuitBreaker.errorThresholdPercentage : 50)
  • 한번 Circuit이 오픈되면 5초간 호출이 차단되며, 5초 경과후 단 “1개”의 호출을 허용하며 (Half-Open), 이것이 성공하면 Circuit을 다시 CLOSE하고, 여전히 실패하면 Open이 5초 연장된다
    (circuitBreaker.sleepWindowInMilliseconds : 5000)

[실습 Step-2] Hystrix Circuit Breaker의 단위는 ??

Tag : step-2-hystrix-command-key

  • Circuit Breaker의 단위 ?
    • 에러 비율을 통계의 단위
    • Circuit Open / Close가 함께 적용되는 단위
    • 즉, A 메소드와 B 메소드가 같은 Circuit Breaker를 사용한다면, A와 B의 에러 비 율이 함께 통계내어지고, Circuit이 오픈되면 함께 차단된다
  • Circuit의 지정은 ?
    • commandKey라는 프로퍼티로 지정 가능
  • @HystrixCommand에서는 지정하지 않는 경우 메소드 이름 사용
    • 이렇게 사용하지 말것 !
    • 메소드 이름은 겹칠 수 있으며, 나중에 나오는 Feign의 경우 또 다르기 때문에 헷갈릴 수 있다
    • 항상 직접 지정 해서 사용하기

1. [display] commandKey 부여하기

@Override
@HystrixCommand(commandKey = "productInfo", fallbackMethod = "getProductInfoFallback")
public String getProductInfo(String productId) {
    return this.restTemplate.getForObject(url + productId, String.class);
}

2. [display] application.yml에 commandKey로 속성 지정해보기

hystrix:
  command:
    default:    # command key. use 'default' for global setting.
      execution:
        isolation:
          thread:
            timeoutInMilliseconds: 3000   # default 1,000ms
      circuitBreaker:
        requestVolumeThreshold: 1   # Minimum number of request to calculate circuit breaker's health. default 20
        errorThresholdPercentage: 50 # Error percentage to open circuit. default 50

default : global 설정. 이 위치에 commandKey값을 넣으면, 해당 Circuit Breaker에만 해 당 속성 적용된다


Hystrix - Circuit Breaker

Hystrix를 쓴다는 것의 또다른 의미

  • Hystrix를 통해 실행한다는 것은 별도의 Thread Pool에서 내 Code를 실행한다는 것
  • ThreadPool을 여러개의 Circuit Breaker가 공유할 수 있다

ThreadPool 사용을 통해서 얻을 수 있는 것

  • 내 시스템의 Resource가 다양한 기능(서비스)들을 위해 골고루 분배 될 수 있 도록

출처: https://netflixtechblog.com/fault-tolerance-in-a-high-volume-distributed-system-91ab4faae74a

동시에 실행될 수 있는 Command의 갯수 제한 - ThreadPool 설정

  • HystrixCommand로 선언된 Method는 default로 호출한 Thread가 아닌 별도의 ThreadPool에서 '대신' 실행된다
  • ThreadPool에 대한 설정을 하지 않으면 Default로는 @HystrixCommand선언된 클래스 이름이 ThreadPool 이름으로 사용된다
public class MySerice {
    @HystrixCommand(commandKey = 'serviceA')
    public String anyMethodWithExternalDependency1() {
        URI uri = URI.create("http://172.32.1.22:8090/recommended");
        String result = this.restTemplate.getForObject(uri, String.class);
        return result;
    }

    @HystrixCommand(commandKey = 'serviceB')
    public String anyMethodWithExternalDependency2() {
        URI uri = URI.create("http://172.32.2.33:8090/search");
        String result = this.restTemplate.getForObject(uri, String.class);
        return result;
    }
}
  • 위의 같은 경우 두개의 메소드는 각각 Circuit Breaker를 갖지만, 두개의 Command가 'MyService'라는 하나의 ThreadPool에서 수행됨

ThreadPool의 세부 옵션 설정

@HystrixCommand(commandKey = 'ExtDep1', fallbackMethod='recommendFallback', commandGroupKey = 'Myservice1', commandProperties = {
  @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "500")
},
threadPoolProperties = {
  @HystrixProperty(name = "coreSize", value = "30"),
  @HystrixProperty(name = "maxQueueSize", value = "101"),
  @HystrixProperty(name = "keepAliveTimeMinutes", value = "2"),
  @HystrixProperty(name = "queueSizeRejectionThreshold", value = "15"),
  @HystrixProperty(name = "metrics.rollingStats.numBuckets", value = "12"),
  @HystrixProperty(name = "metrics.rollingStats.timeInMilliseconds", value ="1440")
}

Project에 적용 하기

public class CommandHelloWorld extends HystrixCommand<String> {

    private final String name;

    public CommandHelloWorld(String name) {
        super(HystrixCommandGroupKey.Factory.asKey("ExampleGroup"));
        this.name = name;
    }

    @Override
    protected String run() {
        return "Hello " + name + "!";
    }
}
728x90

댓글

💲 추천 글