4. Circuit Breaker - Hystrix
Netflix OSS
- 50 개 이상의 사내 프로젝트를 오픈소스로 공개
- 플랫폼(AWS) 안의 여러 컴포넌트와 자동화 도구를 사용하면서 파악한 패턴과 해결방법을 블로그, 오픈소스로 공개
출처: https://netflixtechblog.com/netflixoss-season-2-episode-1-b477d8879799
Spring Cloud
- Spring Cloud 란
- 교집합이 spring-cloud-netflix
모놀리틱에서의 의존성 호출
- 모놀리틱에서의 의존성 호출은 100% 신뢰
https://netflixtechblog.com/keystone-real-time-stream-processing-platform-a3ee651812a
Failure as a First Class Citizen
- 분산 시스템, 특히 클라우드 환경에선 실패(Failure) 는 일반적인 표준이다
- 모놀리틱엔 없던(별로 신경 안썼던..) 장애 유형
- 한 서비스의 가동율(uptime) 최대 99.99%
- 99.99^30 = 99.7% uptime
- 10 억 요청 중 0.3% 실패 = 300만 요청이 실패
- 모든 서비스들이 이상적인 uptime 을 갖고 있어도 매 달마다 2시간 이상의 downtime 이 발생
Circuit Breaker - Hystrix
- Latency Tolerance and Fault Tolerance for Distributed Systems
Hystrix 적용하기
@HystrixCommand
public String anyMethodWithExternalDependency() {
URI uri = URI.create("http://172.32.1.22:8090/recommended");
String result = this.restTemplate.getForObject(uri, String.class);
return result;
}
위의 메소드를 호출할 때 벌어지는 일
- 이 메소드 호출을 'Intercept' 하여 '대신' 실행
- 실행된 결과의 성공 / 실패 (Exception) 여부를 기록하고 '통계'를 낸다. - 통계 ??
- 실행 결과 '통계'에 따라 Circuit Open 여부를 판단하고 필요한 '조치'를 취한다
Hystrix - Circuit Breaker
- Circuit Open ??
- Circuit이 오픈된 Method는 (주어진 시간동안) 호출이 “제한”되며, “즉시” 에러를 반환한다
- Why ?
- 특정 메소드에서의 지연 (주로 외부 연동에서의 지연)이 시스템 전체의 Resource 를 (Thread, Memory등)를 모두 소모하여 시스템 전체의 장애를 유발한다
- 특정 외부 시스템에서 계속 에러를 발생 시킨다면, 지속적인 호출이 에러 상황을 더 욱 악화 시킨다
- So !
- 장애를 유발하는 (외부) 시스템에 대한 연동을 조기에 차단 (Fail Fast) 시킴으로서 나의 시스템을 보 호한다
- 기본 설정
- 10초동안 20개 이상의 호출이 발생 했을때 50% 이상의 호출에서 에러가 발생하 면 Circuit Open
- Circuit이 오픈된 경우의 에러 처리는 ? - Fallback
- Fallback method는 Circuit이 오픈된 경우 혹은 Exception이 발생한 경우 대신 호출될 Method
장애 발생시 Exception 대신 응답할 Default 구현을 넣는다
- Fallback method는 Circuit이 오픈된 경우 혹은 Exception이 발생한 경우 대신 호출될 Method
@HystrixCommand(commandKey = 'ExtDep1', fallbackMethod='recommendFallback')
public String anyMethodWithExternalDependency1() {
URI uri = URI.create("http://172.32.1.22:8090/recommended");
String result = this.restTemplate.getForObject(uri, String.class);
return result;
}
public String recommendFallback() {
return "No recommend available";
}
- 오랫동안 응답이 없는 메소드에 대한 처리 방법은 ? - Timeout
@HystrixCommand(commandKey = 'ExtDep1', fallbackMethod='recommendFallback'
commandProperties = {
@HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "500")
})
public String anyMethodWithExternalDependency1() {
URI uri = URI.create("http://172.32.1.22:8090/recommended");
String result = this.restTemplate.getForObject(uri, String.class);
return result;
}
public String recommendFallback() {
return "No recommend available";
}
- 설정하지 않으면 default 1,000ms
- 설정 시간동안 메소드가 끝나지 않으면 (return / exception) Hystrix는 메소드를 실제 실행중인 Thread에 interrupt() 를 호출 하고, 자신은 즉시 HystrixException 을 발생시킨다
- 물론 이경우에도 Fallback이 있다면 Fallback을 수행
[실습 Step-2] Hystrix 사용하기
Tag : step-2-hystrix-basic
- 배경
- Display 서비스는 외부 Server인 Product API와 연동되어있음
- Product API에 장애가 나더라도 Display의 다른 서비스는 이상없이 동작하였으면 합니다
- Product API에 응답 오류인경우, Default값을 넣어 주고 싶습니다
- 결정 내용
- Display -> Product 연동 구간에 Circuit Breaker를 적용 !
1. [display] build.gradle에 hystrix dependency추가
compile('org.springframework.cloud:spring-cloud-starter-netflix-hystrix')
2. [display] DisplayApplication에 @EnableCircuitBreaker
추가
@EnableCircuitBreaker
3. [display] ProductRemoteServiceImp에 @HystrixCommand
추가
@HystrixCommand
[실습 Step-2] Hystrix Fallback 적용하기
Tag : step-2-hystrix-fallback
4. [product] ProductController에서 항상 Exception 던지게 수정하기 (장애 상황 흉내)
throw new RuntimeException(“I/O Error”)
5. [display] ProductRemoteServiceImp에 Fallback Method 작성하기
@Override
@HystrixCommand(fallbackMethod = "getProductInfoFallback")
public String getProductInfo(String productId) {
return this.restTemplate.getForObject(url + productId, String.class);
}
public String getProductInfoFallback(String productId) {
return "[ this product is sold out ]";
}
6. 확인
Hystrix가 발생한 Exception을 잡아서 Fallback을 실행
Fallback 정의 여부와 상관없이 Circuit 오픈 여부 판단을 위한 에러통계
는 계산하고 있음 아직, Circuit이 오픈된 상태 X
Tag : step-2-hystrix-fallback2
7. Fallback 원인 출력하기
- Fallback 메소드의 마지막 파라매터를
Throwable
로 추가하면 Fallback 일으킨 Exception을 전달 해줌
public String getProductInfoFallback(String productId, Throwable t) {
System.out.println("t = " + t);
return "[ this product is sold out ]";
}
8. 정리
- Hystrix에서 Fallback의 실행 여부는 Exception이 발생 했는가 여부
- Fallback의 정의 여부는 Circuit Breaker Open과 무관
- Throwable 파래매터의 추가로. Fallback 원인을 알 수 있다
[실습 Step-2] Hystrix로 Timeout 처리하기
Tag : step-2-hystrix-timeout
Hystrix로 할 수 있는 또 한가지 ! Timeout 처리
@HystrixCommand
로 표시된 메소드는 지정된 시간안에 반환되지 않으면 자동으로 Exception 발생 (기존 설정 : 1,000ms)
1. [product] ProductController의 throw Exception을 Thread.sleep(2000)로 수정
@GetMapping(path = "{productId}")
public String getProductInfo(@PathVariable String productId) {
try {
Thread.sleep(2000);
} catch (InterruptedException e) {
e.printStackTrace();
}
return "[product id = " + productId + " at " + System.currentTimeMillis() + "]";
//throw new RuntimeException("I/O Exception");
}
2. 확인
- Product API를 직접 호출하는 경우는 동작하나, Display는 동작 안함
t = com.netflix.hystrix.exception.HystrixTimeoutException
3. [display] application.yml 수정하여 Hystrix Timeout 시간 조정하기
hystrix.command.default.execution.isolation.thread.timeoutInMilliseconds=3000
hystrix:
command:
default: # command key. use 'default' for global setting.
execution:
isolation:
thread:
timeoutInMilliseconds: 3000
4. 다시 확인 -> Product/Display 모두 동작
5. 정리
- Hystrix를 통해 실행 되는 모든 메소드는 정해진 응답시간 내에 반환 되어야 한다
- 그렇지 못한 경우, Exception이 발생하며, Fallback이 정의된 경우 수행된다
- Timeout 시간은 조절할 수 있다 (Circuit 별로 세부 수정 가능하며 뒷 부분에 설명)
- 언제 유용한가 ?
- 항상 !!
- 모든 외부 연동은 최대 응답 시간을 가정할 수 있어야 한다
- 여러 연동을 사용하는 경우 최대 응답시간을 직접 Control하는 것은 불가능하다 (다양한 timeout, 다양한 지연등..)
[실습 Step-2] Hystrix Circuit Open 테스트
Tag : step-2-hystrix-circuit-open
1. [display] application.yml 수정하여 Hystrix 프로퍼티 추가
- 기본 설정 (테스트 하기 힘들다)
- 10초동안 20개 이상의 호출이 발생 했을때 50% 이상의 호출에서 에러가 발생하면 Circuit Open
hystrix:
command:
default: # command key. use 'default' for global setting.
execution:
isolation:
thread:
timeoutInMilliseconds: 3000 # default 1,000ms
circuitBreaker:
requestVolumeThreshold: 1 # Minimum number of request to calculate circuit breaker's health. default 20
errorThresholdPercentage: 50 # Error percentage to open circuit. default 50
변경설정
- h.c.d.circuitBreaker.requestVolumeThreshold: 1
- h.c.d.circuitBreaker.errorThresholdPercentage: 50
2. [product] ProductController 다시 수정하여 Exception 던지도록 수정
@RestController
@RequestMapping("/products")
public class ProductController {
@GetMapping(path = "{productId}")
public String getProductInfo(@PathVariable String productId) {
// try {
// Thread.sleep(2000);
// } catch (InterruptedException e) {
// e.printStackTrace();
// }
//
// return "[product id = " + productId + " at " + System.currentTimeMillis() + "]";
throw new RuntimeException("I/O Exception");
}
}
Thread.sleep(2000) 제거 - 테스트 편의
Throw new RuntimeException 복원 - Exception 발생으로 Circuit Open 유도하기 위해
3. 확인
- http://localhost:8082/products/22222
- Exception 발생 확인
- http://localhost:8081/displays/11111
- 10초 이상 호출. Exception 메세지 변경되었나 확인
- Product Console 지운 후 Display 호출 및 확인
- 'Hystrix Circuit Short-Circuited and is OPEN”이 Display 에 출력되는 경우는 Product 콘솔에는 아무것도 찍히지 않는다
- Circuit Open (호출 차단)
4. 부가 설명
- Circuit Open 여부는 통계를 기반으로 한다
- 최근 10초간 호출 통계 (
metrics.rollingStats.timeInMilliseconds : 10000
) - 최소 요청 갯수(20) 넘는 경우만 (
circuitBreaker.requestVolumeThreshold : 20
) - 에러 비율 넘는 경우(50%) (
circuitBreaker.errorThresholdPercentage : 50
) - 한번 Circuit이 오픈되면 5초간 호출이 차단되며, 5초 경과후 단 “1개”의 호출을 허용하며 (Half-Open), 이것이 성공하면 Circuit을 다시 CLOSE하고, 여전히 실패하면 Open이 5초 연장된다
(circuitBreaker.sleepWindowInMilliseconds : 5000
)
[실습 Step-2] Hystrix Circuit Breaker의 단위는 ??
Tag : step-2-hystrix-command-key
- Circuit Breaker의 단위 ?
- 에러 비율을 통계의 단위
- Circuit Open / Close가 함께 적용되는 단위
- 즉, A 메소드와 B 메소드가 같은 Circuit Breaker를 사용한다면, A와 B의 에러 비 율이 함께 통계내어지고, Circuit이 오픈되면 함께 차단된다
- Circuit의 지정은 ?
commandKey
라는 프로퍼티로 지정 가능
@HystrixCommand
에서는 지정하지 않는 경우 메소드 이름 사용- 이렇게 사용하지 말것 !
- 메소드 이름은 겹칠 수 있으며, 나중에 나오는 Feign의 경우 또 다르기 때문에 헷갈릴 수 있다
- 항상 직접 지정 해서 사용하기
1. [display] commandKey
부여하기
@Override
@HystrixCommand(commandKey = "productInfo", fallbackMethod = "getProductInfoFallback")
public String getProductInfo(String productId) {
return this.restTemplate.getForObject(url + productId, String.class);
}
2. [display] application.yml에 commandKey로 속성 지정해보기
hystrix:
command:
default: # command key. use 'default' for global setting.
execution:
isolation:
thread:
timeoutInMilliseconds: 3000 # default 1,000ms
circuitBreaker:
requestVolumeThreshold: 1 # Minimum number of request to calculate circuit breaker's health. default 20
errorThresholdPercentage: 50 # Error percentage to open circuit. default 50
default
: global 설정. 이 위치에 commandKey
값을 넣으면, 해당 Circuit Breaker에만 해 당 속성 적용된다
Hystrix - Circuit Breaker
Hystrix를 쓴다는 것의 또다른 의미
- Hystrix를 통해 실행한다는 것은 별도의 Thread Pool에서 내 Code를 실행한다는 것
- ThreadPool을 여러개의 Circuit Breaker가 공유할 수 있다
ThreadPool 사용을 통해서 얻을 수 있는 것
- 내 시스템의 Resource가 다양한 기능(서비스)들을 위해 골고루 분배 될 수 있 도록
출처: https://netflixtechblog.com/fault-tolerance-in-a-high-volume-distributed-system-91ab4faae74a
동시에 실행될 수 있는 Command의 갯수 제한 - ThreadPool 설정
- HystrixCommand로 선언된 Method는 default로 호출한 Thread가 아닌 별도의 ThreadPool에서 '대신' 실행된다
- ThreadPool에 대한 설정을 하지 않으면 Default로는
@HystrixCommand
가 선언된 클래스 이름이 ThreadPool 이름으로 사용된다
public class MySerice {
@HystrixCommand(commandKey = 'serviceA')
public String anyMethodWithExternalDependency1() {
URI uri = URI.create("http://172.32.1.22:8090/recommended");
String result = this.restTemplate.getForObject(uri, String.class);
return result;
}
@HystrixCommand(commandKey = 'serviceB')
public String anyMethodWithExternalDependency2() {
URI uri = URI.create("http://172.32.2.33:8090/search");
String result = this.restTemplate.getForObject(uri, String.class);
return result;
}
}
- 위의 같은 경우 두개의 메소드는 각각 Circuit Breaker를 갖지만, 두개의 Command가 'MyService'라는 하나의 ThreadPool에서 수행됨
ThreadPool의 세부 옵션 설정
@HystrixCommand(commandKey = 'ExtDep1', fallbackMethod='recommendFallback', commandGroupKey = 'Myservice1', commandProperties = {
@HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "500")
},
threadPoolProperties = {
@HystrixProperty(name = "coreSize", value = "30"),
@HystrixProperty(name = "maxQueueSize", value = "101"),
@HystrixProperty(name = "keepAliveTimeMinutes", value = "2"),
@HystrixProperty(name = "queueSizeRejectionThreshold", value = "15"),
@HystrixProperty(name = "metrics.rollingStats.numBuckets", value = "12"),
@HystrixProperty(name = "metrics.rollingStats.timeInMilliseconds", value ="1440")
}
- Hystrix에 관한 모든 세부 옵션 : https://github.com/Netflix/Hystrix/wiki/ Configuration
- ThreadPool의 기본 사이즈는 10이므로 적용시 필히 상향 여부 검토 필요
Project에 적용 하기
- Spring Boot 프로젝트인 경우
- Spring Cloud Dependency 추가 와
@EnableHystrix
주석
- Spring Cloud Dependency 추가 와
- Spring 프로젝트인 경우 혹은 AOP 사용 가능한 경우
- Netflix Hystrix-Javanica
- https://github.com/Netflix/Hystrix/tree/master/hystrix-contrib/ hystrix- javanica
- 기타 Java Project인 경우
- (Pure) Netflix Hystrix
- 주석 없이 Coding으로 가능
- https://github.com/Netflix/Hystrix
public class CommandHelloWorld extends HystrixCommand<String> {
private final String name;
public CommandHelloWorld(String name) {
super(HystrixCommandGroupKey.Factory.asKey("ExampleGroup"));
this.name = name;
}
@Override
protected String run() {
return "Hello " + name + "!";
}
}
'SpringCloud' 카테고리의 다른 글
[Spring Cloud 를 활용한 MSA 기초] 6. Service Registry - Eureka (0) | 2021.02.07 |
---|---|
[Spring Cloud 를 활용한 MSA 기초] 5. Client LoadBalancer - Ribbon (0) | 2021.02.07 |
[Spring Cloud 를 활용한 MSA 기초] 3. Cloud Native 이해 (0) | 2021.02.07 |
[Spring Cloud 를 활용한 MSA 기초] 2. 마이크로서비스 아키텍처(MSA) 이해 (0) | 2021.02.07 |
[Spring Cloud 를 활용한 MSA 기초] 1. 모놀리틱 아키텍처 이해 (0) | 2021.02.07 |
댓글