[115]쿠팡 서비스 클라우드 마이그레이션 통해 배운것들

Download as PDF, PPTX

Most read

30 / 45

Circuit Breaker 오작동 하는 서비스 연동 중지 | 장애 전파 방지 | 빠르게 실패하고 자동 회복 | 자체 솔루션, Hystrix 중앙관리, 분산 Service Consumer Circuit Breaker CLOSED microservice Service Consumer ! Circuit Breaker OPEN microservice

31 / 45

예측 못하는 것을 예측하라 Fault Injection Testing | 복구 기능 테스트 | 약점 찾아내기 | Chaos Engineering Chaos Monkey

32 / 45

마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈속에서 살기 Auto Scaling 다른 장애로 부터 배우기

33 / 45

"장애 복구 되었나요?" "1시간 내에 배포나 변경된 내역 확인 부탁드려요!" | 복잡한 시스템 상황에서 상태 확인 어려움 | 모든 서비스 관계를 알기 어려움 장애 채널 스케치

34 / 45

주문, 결제 카운트 | 서비스의 건강도 측정 | 주기 적극 활용 매달 1일 00시 일요일 밤 23:59분 매일 23:59 안정 상태 찾기

35 / 45

변경 내역 확인 하기 모두에게 필요한 기본 정보 수집 | 각 서비스의 상태 | 배포 이력 | 인프라 변경 이력 dns, security, auth

36 / 45

마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈 속에서 살기 Auto Scaling 다른 장애로 부터 배우기

37 / 45

Auto Scaling | 요청에 따라 자동 조절 | 이벤트 준비 시간 단축 | Target Tracking Policy 메트릭 정보(CPU, Request 등) Auto Scaling

38 / 45

Auto Scaling의 조건 폐기 가능 (Disposability) | 빠른 시작과 빠른 정상 종료 보장 시작이 오래걸리면 Auto Scaling이 트래픽을 따라가지 못함 정상 종료가 오래 걸리면 새로운 배포시 리소스 문제 발생 | 빠르게 늘리고 천천히 줄인다

39 / 45

마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 안정 상태 Auto Scaling 다른 장애로 부터 배우기

40 / 45

사건 사고는 필연적인 것 | 대용량의 복잡한 분산 시스템 | 끊임없는 변화 | 지속적인 안정화 다른 장애로부터 배우기

41 / 45

장애 리포트 타임라인 | Detection 에 걸린 시간 | 원인 찾는데 걸린 시간 | 복구에 걸린 시간 원인 찾기 | 고객 관점에서 5 why 작성 재발 방지 | Poka-Yoke 14:29 xx 서비스 배포 완료 14:32 yy 서비스 및 3개 서비스 에러카운트 증가로 alert 발생 14:33 oncall 담당자 noti 완료 14:34 주문 숫자 하락 확인/장애채널 생성 14:36 장애 등급 메이저 상향 14:42 xx 서비스 롤백 결정 14:45 xx 서비스 롤백 완료 14:47 주문 숫자 정상화 확인 14:50 서비스 정상화 판정 Q1. 왜 고객 주문을 하지 못했는가? A1. 고객이 주문 페이지에 접근 하지 못했다. Q2. 왜 고객이 주문 페이지에 접근 하지 못했는가? A2. 마이쿠팡 페이지에서 주문 페이지로 넘어가는 동안 문제가 발생했다. Q3. 왜 주문 페이지로 넘어가는 동안 문제가 발생했는가? A3. xx 서비스가 사용하고 있는 YY 서비스가 응답이 느려지면서 문제가 발생했다. ...

42 / 45

다른 장애로 부터 배우기 Site Reliability Engineering (SRE) | Service Reliability를 책임 | 복잡한 장애 상황에서 컨트롤 타워 | 장애에 대한 지식 공유 | 장애 재발 방지 및 복구 자동화를 위한 노력

43 / 45

44 / 45

감사합니다. October 2018 100% November 2018 100% December 2018 100%

45 / 45

질문은 Slido에 남겨 주세요. sli.do #deview TRACK1

쿠팡 서비스 클라우드 마이그레이션 (Coupang Cloud Journey) Oct. 11. 2018 / 양원석

양원석 Principal S/W Engineer Coupang, Core Platform Systems 2015. 9 ~ API Gateway, Common Framework About Me

클라우드 이전 전략 Roman Ride | 데이터센터와 클라우드 동시운영 | 리스크 최소화 작은 변화 빠른 rollback

클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장

Dynamic Routing I DB 이관 순서 | DB Replication | Read DB 연결 이동 | Write DB 연결 이동 Replication On-Prem Cloud Application Admin write read (1)read (2)write

클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장

Canary Testing Blue Green Deployment | 무중단 배포 | 빠른 Rollback 지원 Load Balancer v1.0 Old Version New Version

Canary Testing | 기존 환경과 비교 테스트 | 10분간 테스트 진행 metric 정보 비교 cpu, memory, load, etc Load Balancer v1.0 Old Version New Version v1.1 Canary

Canary Testing | 기존 환경과 비교 테스트 | 10분간 테스트 진행 metric 정보 비교 cpu, memory, load, etc

클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장

그리고 1년 ...

클라우드 이후 1년간 Blocker, Critical 장애 : 67건 관련 작업 : 167건

마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈 속에 살기 Auto Scaling 다른 장애로 부터 배우기

예측 못하는 것을 예측하라 Fault Injection Testing | 복구 기능 테스트 | 약점 찾아내기 | Chaos Engineering Chaos Monkey

마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈속에서 살기 Auto Scaling 다른 장애로 부터 배우기

주문, 결제 카운트 | 서비스의 건강도 측정 | 주기 적극 활용 매달 1일 00시 일요일 밤 23:59분 매일 23:59 안정 상태 찾기

변경 내역 확인 하기 모두에게 필요한 기본 정보 수집 | 각 서비스의 상태 | 배포 이력 | 인프라 변경 이력 dns, security, auth

마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈 속에서 살기 Auto Scaling 다른 장애로 부터 배우기

Auto Scaling | 요청에 따라 자동 조절 | 이벤트 준비 시간 단축 | Target Tracking Policy 메트릭 정보(CPU, Request 등) Auto Scaling

마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 안정 상태 Auto Scaling 다른 장애로 부터 배우기

사건 사고는 필연적인 것 | 대용량의 복잡한 분산 시스템 | 끊임없는 변화 | 지속적인 안정화 다른 장애로부터 배우기

감사합니다. October 2018 100% November 2018 100% December 2018 100%

질문은 Slido에 남겨 주세요. sli.do #deview TRACK1

Change Language

[115]쿠팡 서비스 클라우드 마이그레이션 통해 배운것들

Embed presentation

More Related Content

What's hot

Similar to [115]쿠팡 서비스 클라우드 마이그레이션 통해 배운것들

More from NAVER D2

[115]쿠팡 서비스 클라우드 마이그레이션 통해 배운것들