[フレーム]
PDF, PPTX10,154 views

[115]쿠팡 서비스 클라우드 마이그레이션 통해 배운것들

[115]쿠팡 서비스 클라우드 마이그레이션 통해 배운것들

Embed presentation

Download as PDF, PPTX
41 / 45
장애 리포트 타임라인 | Detection 에 걸린 시간 | 원인 찾는데 걸린 시간 | 복구에 걸린 시간 원인 찾기 | 고객 관점에서 5 why 작성 재발 방지 | Poka-Yoke 14:29 xx 서비스 배포 완료 14:32 yy 서비스 및 3개 서비스 에러카운트 증가로 alert 발생 14:33 oncall 담당자 noti 완료 14:34 주문 숫자 하락 확인/장애채널 생성 14:36 장애 등급 메이저 상향 14:42 xx 서비스 롤백 결정 14:45 xx 서비스 롤백 완료 14:47 주문 숫자 정상화 확인 14:50 서비스 정상화 판정 Q1. 왜 고객 주문을 하지 못했는가? A1. 고객이 주문 페이지에 접근 하지 못했다. Q2. 왜 고객이 주문 페이지에 접근 하지 못했는가? A2. 마이쿠팡 페이지에서 주문 페이지로 넘어가는 동안 문제가 발생했다. Q3. 왜 주문 페이지로 넘어가는 동안 문제가 발생했는가? A3. xx 서비스가 사용하고 있는 YY 서비스가 응답이 느려지면서 문제가 발생했다. ...
쿠팡 서비스 클라우드 마이그레이션 (Coupang Cloud Journey) Oct. 11. 2018 / 양원석
양원석 Principal S/W Engineer Coupang, Core Platform Systems 2015. 9 ~ API Gateway, Common Framework About Me
지난 2년 동안 쿠팡 서비스 클라우드 이전하면서 마주쳤던 문제들과 해결책 그리고 클라우드와 마이크로서비스가 만나면서 마주친 새로운 문제들과 정리했던 생각들을 공유합니다.
2017 1Q ~ 2Q 2017 4Q ~ CURRENT 2016 3Q ~ 4Q 2017 3Q | 클라우드 마이그레이션 원칙 | 클라우드 마이그레이션 TF 조직 | 인프라 구축 및 보안 정의 | 플랫폼 서비스 재구축 및 이전 | 개발용 클라우드 구축 | 아키텍쳐 리뷰 | 서비스 마이그레이션 | 클라우드 네이티브
구매 상품 검색 결제 배송 물류 회원 {RESTful} MESSAGE 쿠팡 서비스 상태 | 100개의 microservice | 목동 IDC, 분당 IDC 문제점 | 추가 및 확장 진행 시간 | 확장하지 못해서 장애 발생 2016년, 여름
클라우드 이전 원칙 확장성을 확보하기 위해 클라우드로 이전한다. (Scalability) 서비스는 무중단으로 이전한다. (Availability) 고객에게 만족도에 영향을 주지 않는다. (Performance)
클라우드 이전 전략 Roman Ride | 데이터센터와 클라우드 동시운영 | 리스크 최소화 작은 변화 빠른 rollback
클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장
클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장
Dynamic Routing I DB Connection Manager | 공통 라이브러리 형태 | Dynamic Config | 상태 모니터링과 조작을 위한 Admin | 빠른 rollback 지원 DBCMRoutingDataSource DBCMLookUp DBCMRoutingMap Datasource Datasource Replication On-Prem Cloud Admin 공용 라이브러리 모니터링 & 조작 설정 저장소
Dynamic Routing I DB 이관 순서 | DB Replication | Read DB 연결 이동 | Write DB 연결 이동 Replication On-Prem Cloud Application Admin write read (1)read (2)write
Dynamic Routing I Write 기능 일시 실패 | Conflict를 막기 위한 전략 | microservice들의 retry를 활용 | Long Transaction 강제 실패 Replication On-Prem Cloud Application Admin write read (1)read (2)write
API G/W를 통한 트래픽 조절 | 기존 API G/W 활용 | 2개 의 Domain Name을 사용 트래픽 조절 | 빠른 Rollback 지원 Dynamic Routing II APIGateway 구매 ON-PREM CLOUD 구매 상품 검색 결제 배송 물류 회원
마이크로서비스 클라우드 이관 | 트래픽이 작고, 영향도가 낮은 것부터 진행 | 0 - 100% 까지 트래픽 Ramp-up | 빠른 Rollback instance size 이슈 Load Balancer Warm-up 이슈 Dynamic Routing II APIGateway 구매 ON-PREM CLOUD 구매 상품 검색 결제 배송 물류 회원
클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장
Canary Testing Blue Green Deployment | 무중단 배포 | 빠른 Rollback 지원 Load Balancer v1.0 Old Version New Version
Canary Testing | 기존 환경과 비교 테스트 | 10분간 테스트 진행 metric 정보 비교 cpu, memory, load, etc Load Balancer v1.0 Old Version New Version v1.1 Canary
Canary Testing | 기존 환경과 비교 테스트 | 10분간 테스트 진행 metric 정보 비교 cpu, memory, load, etc
클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장
Log 수집, 검색 ELK Stack | docker image 형태 | app, metric, syslog 수집 | custom log는 공통 디렉토리 수집 /pang/logs/app/ Instance Broker Reverse Proxy Application Log Shipper Metric Shipper Elastic Search Kibana Dashboard
Log 저장, 분석 로그 저장 & 분석 | Object Storage | 압축, 라이프 사이클 적용 Instance Broker Reverse Proxy Application Log Shipper Metric Shipper Elastic Search Kibana Dashboard Log Archiver Log Analysis Object Storage
구매 상품 검색 결제 배송 물류 회원 {RESTful} MESSAGE 쿠팡 서비스 상태 | 클라우드로 이동 완료 | 200개의 microservice | 5000대의 인스턴스 기존 문제점은? | 추가 및 확장 리드 타임 감소 | 확장관련 장애 감소 2017년, 8월 CLOUD
그리고 1년 ...
2018년, 현재 쿠팡 서비스 상태 | 313 release/day | 300개의 microservice | 10,000대의 인스턴스 | 18,000,000 metric/day | 7,000,000,000 req/day
새로운 문제들 전파되는 장애 | 낮아지는 SLA (99.9910 = 99.9) 예상치 못한 곳에서 발생하는 장애 | Noisy Neighbor Problem 공용 자원, 클라우드 서비스 제공 자원 | 자동화와 장애
클라우드 이후 1년간 Blocker, Critical 장애 : 67건 관련 작업 : 167건
마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈 속에 살기 Auto Scaling 다른 장애로 부터 배우기
마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈 속에 살기 Auto Scaling 다른 장애로 부터 배우기
모든 것을 리소스로 생각하고 대비 필요 | Retry | Fallback | Circuit Breaker Instance 사용하는 모든 것에서 실패가 가능하다. Downstream App Main App Load Balancer DB CacheQueueObject Storage Block Storage
Circuit Breaker 오작동 하는 서비스 연동 중지 | 장애 전파 방지 | 빠르게 실패하고 자동 회복 | 자체 솔루션, Hystrix 중앙관리, 분산 Service Consumer Circuit Breaker CLOSED microservice Service Consumer ! Circuit Breaker OPEN microservice
예측 못하는 것을 예측하라 Fault Injection Testing | 복구 기능 테스트 | 약점 찾아내기 | Chaos Engineering Chaos Monkey
마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈속에서 살기 Auto Scaling 다른 장애로 부터 배우기
"장애 복구 되었나요?" "1시간 내에 배포나 변경된 내역 확인 부탁드려요!" | 복잡한 시스템 상황에서 상태 확인 어려움 | 모든 서비스 관계를 알기 어려움 장애 채널 스케치
주문, 결제 카운트 | 서비스의 건강도 측정 | 주기 적극 활용 매달 1일 00시 일요일 밤 23:59분 매일 23:59 안정 상태 찾기
변경 내역 확인 하기 모두에게 필요한 기본 정보 수집 | 각 서비스의 상태 | 배포 이력 | 인프라 변경 이력 dns, security, auth
마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈 속에서 살기 Auto Scaling 다른 장애로 부터 배우기
Auto Scaling | 요청에 따라 자동 조절 | 이벤트 준비 시간 단축 | Target Tracking Policy 메트릭 정보(CPU, Request 등) Auto Scaling
Auto Scaling의 조건 폐기 가능 (Disposability) | 빠른 시작과 빠른 정상 종료 보장 시작이 오래걸리면 Auto Scaling이 트래픽을 따라가지 못함 정상 종료가 오래 걸리면 새로운 배포시 리소스 문제 발생 | 빠르게 늘리고 천천히 줄인다
마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 안정 상태 Auto Scaling 다른 장애로 부터 배우기
사건 사고는 필연적인 것 | 대용량의 복잡한 분산 시스템 | 끊임없는 변화 | 지속적인 안정화 다른 장애로부터 배우기
장애 리포트 타임라인 | Detection 에 걸린 시간 | 원인 찾는데 걸린 시간 | 복구에 걸린 시간 원인 찾기 | 고객 관점에서 5 why 작성 재발 방지 | Poka-Yoke 14:29 xx 서비스 배포 완료 14:32 yy 서비스 및 3개 서비스 에러카운트 증가로 alert 발생 14:33 oncall 담당자 noti 완료 14:34 주문 숫자 하락 확인/장애채널 생성 14:36 장애 등급 메이저 상향 14:42 xx 서비스 롤백 결정 14:45 xx 서비스 롤백 완료 14:47 주문 숫자 정상화 확인 14:50 서비스 정상화 판정 Q1. 왜 고객 주문을 하지 못했는가? A1. 고객이 주문 페이지에 접근 하지 못했다. Q2. 왜 고객이 주문 페이지에 접근 하지 못했는가? A2. 마이쿠팡 페이지에서 주문 페이지로 넘어가는 동안 문제가 발생했다. Q3. 왜 주문 페이지로 넘어가는 동안 문제가 발생했는가? A3. xx 서비스가 사용하고 있는 YY 서비스가 응답이 느려지면서 문제가 발생했다. ...
다른 장애로 부터 배우기 Site Reliability Engineering (SRE) | Service Reliability를 책임 | 복잡한 장애 상황에서 컨트롤 타워 | 장애에 대한 지식 공유 | 장애 재발 방지 및 복구 자동화를 위한 노력
정리 잘한것 | 작은 변화와 빠른 rollback | 공통 배포 파이프라인 유지 | 만든 사람이 운영하는 문화 | 장애 관리 문화 다르게해보고싶은것 | 복잡도 관리 | 도커 오케스트레이션 적용 | 클라우드 네이티브
감사합니다. October 2018 100% November 2018 100% December 2018 100%
질문은 Slido에 남겨 주세요. sli.do #deview TRACK1

More Related Content

AWS와 함께하는 클라우드 컴퓨팅 (강철 AWS 매니저) :: AWS 기초 교육 온라인 세미나
PDF
AWS와 함께하는 클라우드 컴퓨팅 (강철 AWS 매니저) :: AWS 기초 교육 온라인 세미나
1시간으로 끝내는 클라우드 개념_김민형 클라우드 솔루션 아키텍트
PDF
1시간으로 끝내는 클라우드 개념_김민형 클라우드 솔루션 아키텍트
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
PDF
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반 클라우드 아키텍처 모범사례 - 삼성전자 개발자 포털/개발자 워크스페이스 - 정영준 솔루션즈 아키텍트, AWS / 유현성 수석,...
PDF
AWS 기반 클라우드 아키텍처 모범사례 - 삼성전자 개발자 포털/개발자 워크스페이스 - 정영준 솔루션즈 아키텍트, AWS / 유현성 수석,...
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
PDF
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
금융 서비스 패러다임의 전환 가속화 시대, 신한금융투자의 Cloud First 전략 - 신중훈 AWS 솔루션즈 아키텍트 / 최성봉 클라우...
PDF
금융 서비스 패러다임의 전환 가속화 시대, 신한금융투자의 Cloud First 전략 - 신중훈 AWS 솔루션즈 아키텍트 / 최성봉 클라우...
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
PDF
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
장애 관리 방안
PDF
장애 관리 방안
AWS와 함께하는 클라우드 컴퓨팅 (강철 AWS 매니저) :: AWS 기초 교육 온라인 세미나
AWS와 함께하는 클라우드 컴퓨팅 (강철 AWS 매니저) :: AWS 기초 교육 온라인 세미나
1시간으로 끝내는 클라우드 개념_김민형 클라우드 솔루션 아키텍트
1시간으로 끝내는 클라우드 개념_김민형 클라우드 솔루션 아키텍트
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반 클라우드 아키텍처 모범사례 - 삼성전자 개발자 포털/개발자 워크스페이스 - 정영준 솔루션즈 아키텍트, AWS / 유현성 수석,...
AWS 기반 클라우드 아키텍처 모범사례 - 삼성전자 개발자 포털/개발자 워크스페이스 - 정영준 솔루션즈 아키텍트, AWS / 유현성 수석,...
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
금융 서비스 패러다임의 전환 가속화 시대, 신한금융투자의 Cloud First 전략 - 신중훈 AWS 솔루션즈 아키텍트 / 최성봉 클라우...
금융 서비스 패러다임의 전환 가속화 시대, 신한금융투자의 Cloud First 전략 - 신중훈 AWS 솔루션즈 아키텍트 / 최성봉 클라우...
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
장애 관리 방안
장애 관리 방안

What's hot

AWS로 사용자 천만 명 서비스 만들기 (윤석찬)- 클라우드 태권 2015
PDF
AWS로 사용자 천만 명 서비스 만들기 (윤석찬)- 클라우드 태권 2015
Security on AWS :: 이경수 솔루션즈아키텍트
PDF
Security on AWS :: 이경수 솔루션즈아키텍트
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
PDF
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
멀티·하이브리드 클라우드 구축 전략 - 네이버비즈니스플랫폼 박기은 CTO
PDF
멀티·하이브리드 클라우드 구축 전략 - 네이버비즈니스플랫폼 박기은 CTO
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
PDF
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
오픈소스 네트워킹
PDF
오픈소스 네트워킹
多要素認証による Amazon WorkSpaces の利用
PDF
多要素認証による Amazon WorkSpaces の利用
AWS Black Belt Online Seminar 2017 Auto Scaling
PDF
AWS Black Belt Online Seminar 2017 Auto Scaling
[오픈소스컨설팅] EFK Stack 소개와 설치 방법
PDF
[오픈소스컨설팅] EFK Stack 소개와 설치 방법
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
PDF
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20180509 AWS Black Belt Online Seminar Amazon GuardDuty
PDF
20180509 AWS Black Belt Online Seminar Amazon GuardDuty
20190723 AWS Black Belt Online Seminar AWS CloudHSM
PDF
20190723 AWS Black Belt Online Seminar AWS CloudHSM
[2018] 고객 사례를 통해 본 클라우드 전환 전략
PDF
[2018] 고객 사례를 통해 본 클라우드 전환 전략
금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...
PDF
금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...
금융 회사를 위한 클라우드 이용 가이드 – 신은수 AWS 솔루션즈 아키텍트, 김호영 AWS 정책협력 담당:: AWS Cloud Week ...
PDF
금융 회사를 위한 클라우드 이용 가이드 – 신은수 AWS 솔루션즈 아키텍트, 김호영 AWS 정책협력 담당:: AWS Cloud Week ...
KB국민은행은 시작했다 - 쉽고 빠른 클라우드 거버넌스 적용 전략 - 강병억 AWS 솔루션즈 아키텍트 / 장강홍 클라우드플랫폼단 차장, ...
PDF
KB국민은행은 시작했다 - 쉽고 빠른 클라우드 거버넌스 적용 전략 - 강병억 AWS 솔루션즈 아키텍트 / 장강홍 클라우드플랫폼단 차장, ...
AWS 클라우드 핵심 서비스로 클라우드 기반 아키텍처 빠르게 구성하기 - 문종민 솔루션즈 아키텍트, AWS :: AWS Summit Seo...
PDF
AWS 클라우드 핵심 서비스로 클라우드 기반 아키텍처 빠르게 구성하기 - 문종민 솔루션즈 아키텍트, AWS :: AWS Summit Seo...
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
PDF
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
20210526 AWS Expert Online マルチアカウント管理の基本
PDF
20210526 AWS Expert Online マルチアカウント管理の基本
세션 3: IT 담당자를 위한 Cloud 로의 전환
PDF
세션 3: IT 담당자를 위한 Cloud 로의 전환
AWS로 사용자 천만 명 서비스 만들기 (윤석찬)- 클라우드 태권 2015
AWS로 사용자 천만 명 서비스 만들기 (윤석찬)- 클라우드 태권 2015
Security on AWS :: 이경수 솔루션즈아키텍트
Security on AWS :: 이경수 솔루션즈아키텍트
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
멀티·하이브리드 클라우드 구축 전략 - 네이버비즈니스플랫폼 박기은 CTO
멀티·하이브리드 클라우드 구축 전략 - 네이버비즈니스플랫폼 박기은 CTO
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
오픈소스 네트워킹
오픈소스 네트워킹
多要素認証による Amazon WorkSpaces の利用
多要素認証による Amazon WorkSpaces の利用
AWS Black Belt Online Seminar 2017 Auto Scaling
AWS Black Belt Online Seminar 2017 Auto Scaling
[오픈소스컨설팅] EFK Stack 소개와 설치 방법
[오픈소스컨설팅] EFK Stack 소개와 설치 방법
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20180509 AWS Black Belt Online Seminar Amazon GuardDuty
20180509 AWS Black Belt Online Seminar Amazon GuardDuty
20190723 AWS Black Belt Online Seminar AWS CloudHSM
20190723 AWS Black Belt Online Seminar AWS CloudHSM
[2018] 고객 사례를 통해 본 클라우드 전환 전략
[2018] 고객 사례를 통해 본 클라우드 전환 전략
금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...
금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...
금융 회사를 위한 클라우드 이용 가이드 – 신은수 AWS 솔루션즈 아키텍트, 김호영 AWS 정책협력 담당:: AWS Cloud Week ...
금융 회사를 위한 클라우드 이용 가이드 – 신은수 AWS 솔루션즈 아키텍트, 김호영 AWS 정책협력 담당:: AWS Cloud Week ...
KB국민은행은 시작했다 - 쉽고 빠른 클라우드 거버넌스 적용 전략 - 강병억 AWS 솔루션즈 아키텍트 / 장강홍 클라우드플랫폼단 차장, ...
KB국민은행은 시작했다 - 쉽고 빠른 클라우드 거버넌스 적용 전략 - 강병억 AWS 솔루션즈 아키텍트 / 장강홍 클라우드플랫폼단 차장, ...
AWS 클라우드 핵심 서비스로 클라우드 기반 아키텍처 빠르게 구성하기 - 문종민 솔루션즈 아키텍트, AWS :: AWS Summit Seo...
AWS 클라우드 핵심 서비스로 클라우드 기반 아키텍처 빠르게 구성하기 - 문종민 솔루션즈 아키텍트, AWS :: AWS Summit Seo...
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
20210526 AWS Expert Online マルチアカウント管理の基本
20210526 AWS Expert Online マルチアカウント管理の基本
세션 3: IT 담당자를 위한 Cloud 로의 전환
세션 3: IT 담당자를 위한 Cloud 로의 전환

Similar to [115]쿠팡 서비스 클라우드 마이그레이션 통해 배운것들

클라우드 춘추전국시대 서버 개발자 생존기
PDF
클라우드 춘추전국시대 서버 개발자 생존기
[웨비나] Follow me! 클라우드 인프라 구축 기본편 - 강지나 테크 에반젤리스트
PDF
[웨비나] Follow me! 클라우드 인프라 구축 기본편 - 강지나 테크 에반젤리스트
AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018
PDF
AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018
엔터프라이즈 기업의 AWS 도입과 구축 그리고 이후 :: BD 윤기성:: AWS Summit Seoul 2016
PDF
엔터프라이즈 기업의 AWS 도입과 구축 그리고 이후 :: BD 윤기성:: AWS Summit Seoul 2016
AWS 와 함께하는 클라우드 컴퓨팅:: 방희란 :: AWS Summit Seoul 2016
PDF
AWS 와 함께하는 클라우드 컴퓨팅:: 방희란 :: AWS Summit Seoul 2016
전자 상거래 기업을 위한 클라우드 성공 전략 - AWS Summit Seoul 2017
PDF
전자 상거래 기업을 위한 클라우드 성공 전략 - AWS Summit Seoul 2017
멸종하는 공룡이 되지 않으려면
PPTX
멸종하는 공룡이 되지 않으려면
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
PDF
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017
PDF
클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017
AWS 클라우드 기반 확장성 높은 천만 사용자 웹 서비스 만들기 - 윤석찬
PDF
AWS 클라우드 기반 확장성 높은 천만 사용자 웹 서비스 만들기 - 윤석찬
All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택
PDF
All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택
왜 네이버클라우드플랫폼인가?(박기은 CTO) - 대구 Cloud Innovation summit
PDF
왜 네이버클라우드플랫폼인가?(박기은 CTO) - 대구 Cloud Innovation summit
AWS와 함께하는 스타트업의 성장곡선 (윤석찬)- 클라우드 태권 2015
PDF
AWS와 함께하는 스타트업의 성장곡선 (윤석찬)- 클라우드 태권 2015
컨테이너와 서버리스 기술을 통한 디지털 트랜스포메이션::정도현::AWS Summit Seoul 2018
PDF
컨테이너와 서버리스 기술을 통한 디지털 트랜스포메이션::정도현::AWS Summit Seoul 2018
네이버클라우드플랫폼이 제안하는 멀티클라우드(박기은 CTO) - IBM 스토리지 세미나
PDF
네이버클라우드플랫폼이 제안하는 멀티클라우드(박기은 CTO) - IBM 스토리지 세미나
Open infra and cloud native
PDF
Open infra and cloud native
01. 클라우드 기업 도입 사례
PPTX
01. 클라우드 기업 도입 사례
Go Hybrid Cloud, 엔터프라이즈 마이그레이션 전략 및 사례 - AWS Summit Seoul 2017
PDF
Go Hybrid Cloud, 엔터프라이즈 마이그레이션 전략 및 사례 - AWS Summit Seoul 2017
AWS Enterprise Summit :: 클라우드 도입 사례를 통한 적용 대상과 실행 전략 (정우진 이사)
PDF
AWS Enterprise Summit :: 클라우드 도입 사례를 통한 적용 대상과 실행 전략 (정우진 이사)
AWS re:Invent 특집(2) – 서버리스(Serverless) 마이크로서비스를 위한 일곱 가지 모범 사례 (윤석찬)
PDF
AWS re:Invent 특집(2) – 서버리스(Serverless) 마이크로서비스를 위한 일곱 가지 모범 사례 (윤석찬)
클라우드 춘추전국시대 서버 개발자 생존기
클라우드 춘추전국시대 서버 개발자 생존기
[웨비나] Follow me! 클라우드 인프라 구축 기본편 - 강지나 테크 에반젤리스트
[웨비나] Follow me! 클라우드 인프라 구축 기본편 - 강지나 테크 에반젤리스트
AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018
AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018
엔터프라이즈 기업의 AWS 도입과 구축 그리고 이후 :: BD 윤기성:: AWS Summit Seoul 2016
엔터프라이즈 기업의 AWS 도입과 구축 그리고 이후 :: BD 윤기성:: AWS Summit Seoul 2016
AWS 와 함께하는 클라우드 컴퓨팅:: 방희란 :: AWS Summit Seoul 2016
AWS 와 함께하는 클라우드 컴퓨팅:: 방희란 :: AWS Summit Seoul 2016
전자 상거래 기업을 위한 클라우드 성공 전략 - AWS Summit Seoul 2017
전자 상거래 기업을 위한 클라우드 성공 전략 - AWS Summit Seoul 2017
멸종하는 공룡이 되지 않으려면
멸종하는 공룡이 되지 않으려면
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017
클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017
AWS 클라우드 기반 확장성 높은 천만 사용자 웹 서비스 만들기 - 윤석찬
AWS 클라우드 기반 확장성 높은 천만 사용자 웹 서비스 만들기 - 윤석찬
All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택
All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택
왜 네이버클라우드플랫폼인가?(박기은 CTO) - 대구 Cloud Innovation summit
왜 네이버클라우드플랫폼인가?(박기은 CTO) - 대구 Cloud Innovation summit
AWS와 함께하는 스타트업의 성장곡선 (윤석찬)- 클라우드 태권 2015
AWS와 함께하는 스타트업의 성장곡선 (윤석찬)- 클라우드 태권 2015
컨테이너와 서버리스 기술을 통한 디지털 트랜스포메이션::정도현::AWS Summit Seoul 2018
컨테이너와 서버리스 기술을 통한 디지털 트랜스포메이션::정도현::AWS Summit Seoul 2018
네이버클라우드플랫폼이 제안하는 멀티클라우드(박기은 CTO) - IBM 스토리지 세미나
네이버클라우드플랫폼이 제안하는 멀티클라우드(박기은 CTO) - IBM 스토리지 세미나
Open infra and cloud native
Open infra and cloud native
01. 클라우드 기업 도입 사례
01. 클라우드 기업 도입 사례
Go Hybrid Cloud, 엔터프라이즈 마이그레이션 전략 및 사례 - AWS Summit Seoul 2017
Go Hybrid Cloud, 엔터프라이즈 마이그레이션 전략 및 사례 - AWS Summit Seoul 2017
AWS Enterprise Summit :: 클라우드 도입 사례를 통한 적용 대상과 실행 전략 (정우진 이사)
AWS Enterprise Summit :: 클라우드 도입 사례를 통한 적용 대상과 실행 전략 (정우진 이사)
AWS re:Invent 특집(2) – 서버리스(Serverless) 마이크로서비스를 위한 일곱 가지 모범 사례 (윤석찬)
AWS re:Invent 특집(2) – 서버리스(Serverless) 마이크로서비스를 위한 일곱 가지 모범 사례 (윤석찬)

More from NAVER D2

[211] 인공지능이 인공지능 챗봇을 만든다
PDF
[211] 인공지능이 인공지능 챗봇을 만든다
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
PDF
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[215] Druid로 쉽고 빠르게 데이터 분석하기
PDF
[215] Druid로 쉽고 빠르게 데이터 분석하기
[245]Papago Internals: 모델분석과 응용기술 개발
PDF
[245]Papago Internals: 모델분석과 응용기술 개발
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
PDF
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[235]Wikipedia-scale Q&A
PDF
[235]Wikipedia-scale Q&A
[244]로봇이 현실 세계에 대해 학습하도록 만들기
PDF
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[243] Deep Learning to help student’s Deep Learning
PDF
[243] Deep Learning to help student’s Deep Learning
[234]Fast & Accurate Data Annotation Pipeline for AI applications
PDF
[234]Fast & Accurate Data Annotation Pipeline for AI applications
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
PDF
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
PDF
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
PDF
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[224]네이버 검색과 개인화
PDF
[224]네이버 검색과 개인화
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
PDF
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
PDF
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[213] Fashion Visual Search
PDF
[213] Fashion Visual Search
[232] TensorRT를 활용한 딥러닝 Inference 최적화
PDF
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
PDF
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
PDF
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[223]기계독해 QA: 검색인가, NLP인가?
PDF
[223]기계독해 QA: 검색인가, NLP인가?
[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[213] Fashion Visual Search
[213] Fashion Visual Search
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?

[115]쿠팡 서비스 클라우드 마이그레이션 통해 배운것들

  • 1.
    쿠팡 서비스 클라우드 마이그레이션 (Coupang Cloud Journey) Oct. 11. 2018 / 양원석
  • 2.
    양원석 Principal S/W Engineer Coupang, Core Platform Systems 2015. 9 ~ API Gateway, Common Framework About Me
  • 3.
    지난 2년 동안 쿠팡 서비스 클라우드 이전하면서 마주쳤던 문제들과 해결책 그리고 클라우드와 마이크로서비스가 만나면서 마주친 새로운 문제들과 정리했던 생각들을 공유합니다.
  • 4.
    2017 1Q ~ 2Q 2017 4Q ~ CURRENT 2016 3Q ~ 4Q 2017 3Q | 클라우드 마이그레이션 원칙 | 클라우드 마이그레이션 TF 조직 | 인프라 구축 및 보안 정의 | 플랫폼 서비스 재구축 및 이전 | 개발용 클라우드 구축 | 아키텍쳐 리뷰 | 서비스 마이그레이션 | 클라우드 네이티브
  • 5.
    구매 상품 검색 결제 배송 물류 회원 {RESTful} MESSAGE 쿠팡 서비스 상태 | 100개의 microservice | 목동 IDC, 분당 IDC 문제점 | 추가 및 확장 진행 시간 | 확장하지 못해서 장애 발생 2016년, 여름
  • 6.
    클라우드 이전 원칙 확장성을 확보하기 위해 클라우드로 이전한다. (Scalability) 서비스는 무중단으로 이전한다. (Availability) 고객에게 만족도에 영향을 주지 않는다. (Performance)
  • 7.
    클라우드 이전 전략 Roman Ride | 데이터센터와 클라우드 동시운영 | 리스크 최소화 작은 변화 빠른 rollback
  • 8.
    클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장
  • 9.
    클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장
  • 10.
    Dynamic Routing I DB Connection Manager | 공통 라이브러리 형태 | Dynamic Config | 상태 모니터링과 조작을 위한 Admin | 빠른 rollback 지원 DBCMRoutingDataSource DBCMLookUp DBCMRoutingMap Datasource Datasource Replication On-Prem Cloud Admin 공용 라이브러리 모니터링 & 조작 설정 저장소
  • 11.
    Dynamic Routing I DB 이관 순서 | DB Replication | Read DB 연결 이동 | Write DB 연결 이동 Replication On-Prem Cloud Application Admin write read (1)read (2)write
  • 12.
    Dynamic Routing I Write 기능 일시 실패 | Conflict를 막기 위한 전략 | microservice들의 retry를 활용 | Long Transaction 강제 실패 Replication On-Prem Cloud Application Admin write read (1)read (2)write
  • 13.
    API G/W를 통한 트래픽 조절 | 기존 API G/W 활용 | 2개 의 Domain Name을 사용 트래픽 조절 | 빠른 Rollback 지원 Dynamic Routing II APIGateway 구매 ON-PREM CLOUD 구매 상품 검색 결제 배송 물류 회원
  • 14.
    마이크로서비스 클라우드 이관 | 트래픽이 작고, 영향도가 낮은 것부터 진행 | 0 - 100% 까지 트래픽 Ramp-up | 빠른 Rollback instance size 이슈 Load Balancer Warm-up 이슈 Dynamic Routing II APIGateway 구매 ON-PREM CLOUD 구매 상품 검색 결제 배송 물류 회원
  • 15.
    클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장
  • 16.
    Canary Testing Blue Green Deployment | 무중단 배포 | 빠른 Rollback 지원 Load Balancer v1.0 Old Version New Version
  • 17.
    Canary Testing | 기존 환경과 비교 테스트 | 10분간 테스트 진행 metric 정보 비교 cpu, memory, load, etc Load Balancer v1.0 Old Version New Version v1.1 Canary
  • 18.
    Canary Testing | 기존 환경과 비교 테스트 | 10분간 테스트 진행 metric 정보 비교 cpu, memory, load, etc
  • 19.
    클라우드 이전 준비 Dynamic Routing Canary Testing Log 수집, 저장
  • 20.
    Log 수집, 검색 ELK Stack | docker image 형태 | app, metric, syslog 수집 | custom log는 공통 디렉토리 수집 /pang/logs/app/ Instance Broker Reverse Proxy Application Log Shipper Metric Shipper Elastic Search Kibana Dashboard
  • 21.
    Log 저장, 분석 로그 저장 & 분석 | Object Storage | 압축, 라이프 사이클 적용 Instance Broker Reverse Proxy Application Log Shipper Metric Shipper Elastic Search Kibana Dashboard Log Archiver Log Analysis Object Storage
  • 22.
    구매 상품 검색 결제 배송 물류 회원 {RESTful} MESSAGE 쿠팡 서비스 상태 | 클라우드로 이동 완료 | 200개의 microservice | 5000대의 인스턴스 기존 문제점은? | 추가 및 확장 리드 타임 감소 | 확장관련 장애 감소 2017년, 8월 CLOUD
  • 23.
  • 24.
    2018년, 현재 쿠팡 서비스 상태 | 313 release/day | 300개의 microservice | 10,000대의 인스턴스 | 18,000,000 metric/day | 7,000,000,000 req/day
  • 25.
    새로운 문제들 전파되는 장애 | 낮아지는 SLA (99.9910 = 99.9) 예상치 못한 곳에서 발생하는 장애 | Noisy Neighbor Problem 공용 자원, 클라우드 서비스 제공 자원 | 자동화와 장애
  • 26.
    클라우드 이후 1년간 Blocker, Critical 장애 : 67건 관련 작업 : 167건
  • 27.
    마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈 속에 살기 Auto Scaling 다른 장애로 부터 배우기
  • 28.
    마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈 속에 살기 Auto Scaling 다른 장애로 부터 배우기
  • 29.
    모든 것을 리소스로 생각하고 대비 필요 | Retry | Fallback | Circuit Breaker Instance 사용하는 모든 것에서 실패가 가능하다. Downstream App Main App Load Balancer DB CacheQueueObject Storage Block Storage
  • 30.
    Circuit Breaker 오작동 하는 서비스 연동 중지 | 장애 전파 방지 | 빠르게 실패하고 자동 회복 | 자체 솔루션, Hystrix 중앙관리, 분산 Service Consumer Circuit Breaker CLOSED microservice Service Consumer ! Circuit Breaker OPEN microservice
  • 31.
    예측 못하는 것을 예측하라 Fault Injection Testing | 복구 기능 테스트 | 약점 찾아내기 | Chaos Engineering Chaos Monkey
  • 32.
    마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈속에서 살기 Auto Scaling 다른 장애로 부터 배우기
  • 33.
    "장애 복구 되었나요?" "1시간 내에 배포나 변경된 내역 확인 부탁드려요!" | 복잡한 시스템 상황에서 상태 확인 어려움 | 모든 서비스 관계를 알기 어려움 장애 채널 스케치
  • 34.
    주문, 결제 카운트 | 서비스의 건강도 측정 | 주기 적극 활용 매달 1일 00시 일요일 밤 23:59분 매일 23:59 안정 상태 찾기
  • 35.
    변경 내역 확인 하기 모두에게 필요한 기본 정보 수집 | 각 서비스의 상태 | 배포 이력 | 인프라 변경 이력 dns, security, auth
  • 36.
    마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 혼돈 속에서 살기 Auto Scaling 다른 장애로 부터 배우기
  • 37.
    Auto Scaling | 요청에 따라 자동 조절 | 이벤트 준비 시간 단축 | Target Tracking Policy 메트릭 정보(CPU, Request 등) Auto Scaling
  • 38.
    Auto Scaling의 조건 폐기 가능 (Disposability) | 빠른 시작과 빠른 정상 종료 보장 시작이 오래걸리면 Auto Scaling이 트래픽을 따라가지 못함 정상 종료가 오래 걸리면 새로운 배포시 리소스 문제 발생 | 빠르게 늘리고 천천히 줄인다
  • 39.
    마이크로서비스와 클라우드를 통해 배운 것 모든 것에서 실패 가능 안정 상태 Auto Scaling 다른 장애로 부터 배우기
  • 40.
    사건 사고는 필연적인 것 | 대용량의 복잡한 분산 시스템 | 끊임없는 변화 | 지속적인 안정화 다른 장애로부터 배우기
  • 41.
    장애 리포트 타임라인 | Detection 에 걸린 시간 | 원인 찾는데 걸린 시간 | 복구에 걸린 시간 원인 찾기 | 고객 관점에서 5 why 작성 재발 방지 | Poka-Yoke 14:29 xx 서비스 배포 완료 14:32 yy 서비스 및 3개 서비스 에러카운트 증가로 alert 발생 14:33 oncall 담당자 noti 완료 14:34 주문 숫자 하락 확인/장애채널 생성 14:36 장애 등급 메이저 상향 14:42 xx 서비스 롤백 결정 14:45 xx 서비스 롤백 완료 14:47 주문 숫자 정상화 확인 14:50 서비스 정상화 판정 Q1. 왜 고객 주문을 하지 못했는가? A1. 고객이 주문 페이지에 접근 하지 못했다. Q2. 왜 고객이 주문 페이지에 접근 하지 못했는가? A2. 마이쿠팡 페이지에서 주문 페이지로 넘어가는 동안 문제가 발생했다. Q3. 왜 주문 페이지로 넘어가는 동안 문제가 발생했는가? A3. xx 서비스가 사용하고 있는 YY 서비스가 응답이 느려지면서 문제가 발생했다. ...
  • 42.
    다른 장애로 부터 배우기 Site Reliability Engineering (SRE) | Service Reliability를 책임 | 복잡한 장애 상황에서 컨트롤 타워 | 장애에 대한 지식 공유 | 장애 재발 방지 및 복구 자동화를 위한 노력
  • 43.
    정리 잘한것 | 작은 변화와 빠른 rollback | 공통 배포 파이프라인 유지 | 만든 사람이 운영하는 문화 | 장애 관리 문화 다르게해보고싶은것 | 복잡도 관리 | 도커 오케스트레이션 적용 | 클라우드 네이티브
  • 44.
    감사합니다. October 2018 100% November 2018 100% December 2018 100%
  • 45.
    질문은 Slido에 남겨 주세요. sli.do #deview TRACK1

AltStyle によって変換されたページ (->オリジナル) /