기타/다이어리
RoadMap (2025.04 - 2026.04)
kwohyuno
2025. 4. 11. 00:54
너의 현재 위치와 계획은 정말 강력해. 이미 기술력도 있고 방향성도 분명해서, 제대로 전략만 짜면 12개월 안에 Microsoft, Meta, Amazon, Uber 같은 회사에서 매력적인 후보자가 될 수 있어. 아래에 월별 로드맵, 논문 주제, 기술 스택 확장, 그리고 최종 목표 전략까지 구체적으로 정리해봤어.
🧠 논문 주제 제안 (MLOps/DevOps + Deep Learning/RL)
"Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure - Enabling Latency-aware, Cost-efficient Deployment of Deep Learning Models in Production"
- Kubernetes + Ray + FastAPI 기반의 Auto Scaling Inference Architecture
- Meta나 Uber가 선호하는 시스템 최적화 능력 보여줌
🗓️ 12개월 로드맵 (2025.04 ~ 2026.03)
📍공통 지속 루틴
- LeetCode/시스템디자인 주 2~3회
- 블로그/노션 정리 (논문 요약, 실습 기록)
- Hackathon & Open Source 기회 노려보기
- GitHub 프로필 관리 (Star 있는 레포에 기여하거나 나만의 프로젝트 진행)
🌸 2025년 4월
- DevOps, AI 수업 정리 및 블로그 업로드
- 논문 아이디어 탐색 시작 (논문 5편 서칭 + 정리)
- Ameniti 실무에서 얻은 경험 문서화 (CI/CD, 자동화 내용)
🌱 5월
- 학기 종료 → 본격 논문 주제 선정 및 제안서 작성
- Open Source Contribution 준비 (MLOps 관련 프로젝트 기여 추천)
- Hackathon 1회 참가 (AI Infra 또는 LLM 응용 아이디어)
☀️ 6월
- 논문 구현 시작: 실험 환경 구축 (Docker, MLflow, K8s 등)
- Open Source 1개 기여 (Star 있는 유명 레포)
- LLM Infra 구축 실습 (LangChain + Vector DB + OpenAI API)
🌊 7월
- 논문 베이스라인 모델 구축 완료
- RL or LLM-based 모델 접목 시작
- FAANG 지원용 Resume/LinkedIn/포트폴리오 정비 시작
🍂 8월
- 논문 중간 결과 정리 + 교수와 리뷰
- Master’s Project 아이디어 정리 및 준비
- New Grad SWE/ML 엔지니어 포지션 선지원 시작
🍁 9월 (가을학기 시작)
- Master’s Project 시작 (가능하면 논문과 연계되도록)
- 논문 모델 개선 및 실험 반복
- 시스템 프로그래밍/Big Data 수업에서의 산출물은 포트폴리오화
🎃 10월
- 논문 결과 정리 + 시각화 + 최적화
- Master’s Project 중간 발표 대비
- Interview Focus → Mock Interview 주 2회 + Feedback 정리
❄️ 11월
- 논문 거의 완성 단계 → 최종 피드백 반영
- LeetCode 집중 + System Design 개념 정리
- 컨퍼런스 제출 여부 검토 (NeurIPS/ICLR/AAAI 워크숍 등)
🎄 12월
- 논문 완성 → 지도교수 검토 → 제출 준비
- GitHub 리팩토링 및 기술 포트폴리오 깔끔하게 정리
- 프로젝트 발표 연습 (AI Explorer 경험도 통합)
❄️ 2026년 1월
- 최종 논문 제출
- Master’s Project Demo 영상 제작 (유튜브/블로그 업로드)
- 취업용 포트폴리오 완성 → 지원 라운드 2
🌟 2~3월
- 졸업 전 발표/리뷰 준비
- 최종 논문 블로그/LinkedIn 게시
- 면접 일정 마무리 → Offer 수령 목표
📦 기술 스택 정리 (General SWE + ML/MLOps Engineer로)
분야기술
Frontend | React.js, TypeScript, MUI, Zustand/Redux |
Backend | Nest.js, Node.js, REST API, GraphQL, JWT |
DevOps | Docker, GitHub Actions, Jenkins, Kubernetes, Prometheus, Grafana |
ML | PyTorch, scikit-learn, HuggingFace, Transformers |
MLOps | MLflow, DVC, Ray, KServe, LangChain, FastAPI |
Infra | AWS (EC2, S3, SageMaker), GCP (Vertex AI), Terraform(optional) |
✍️ 추가 추천
- FAANG ML 면접 대비:
- 머신러닝 이론 + 코드 구현 연습 (ex. Decision Tree, SVM, CNN, RNN from scratch)
- ML System Design (Serving, Monitoring, Drift Detection 등)
- 링크드인 글쓰기:
- “내가 만든 LangChain 기반 자동화툴”, “논문 요약: RL로 MLOps 최적화한 논문”, 등
You said:
"Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure - Enabling Latency-aware, Cost-efficient Deployment of Deep Learning Models in Production" 이거를 쓰기 위한 그럼 공부해야 하는 사항과 논문 접근 방식, 읽어야 하는 논문들, 논문 개요 등에 대해 짜줘봐
ChatGPT said:
좋아, 이 논문은 네가 가진 실무 감각(DevOps/MLOps + Software Engineering) 과 AI 연구역량을 완벽히 결합할 수 있는 최고의 주제야.
아래에 이 논문을 성공적으로 쓰기 위해 필요한 것을 4가지로 나눠서 정리했어:
🧠 1. 공부해야 할 핵심 지식 (Skill Stack)
🧱 인프라/서빙 기초
주제학습 포인트
Kubernetes | Pod, Service, HPA, Custom Metrics, Helm |
Ray Serve | Deployment, Replica Scaling, Model Routing |
FastAPI | Model serving endpoint 구성, 비동기 처리 |
Docker | 모델 컨테이너화 |
Prometheus + Grafana | 실시간 metric 수집 및 시각화 |
🧠 머신러닝 & RL
주제학습 포인트
Reinforcement Learning | MDP, Policy, Reward, DQN/PPO 개념 |
RL 적용 사례 | 시스템 최적화에 RL이 사용되는 방식 |
Scheduling & Resource Allocation | Multi-armed bandit, RL-Scheduler 논문 읽기 |
📚 2. 참고 논문 및 실무자료
🎓 논문 추천
논문요약
Decentralized RL for Scheduling in Distributed Systems (ICLR) | 분산 시스템에서 RL로 스케줄링 |
Reinforcement Learning for Cloud Resource Scheduling | 클라우드 환경에서 자원 할당 문제에 RL 적용 |
Ray Serve: Scalable Python Serve Framework | 공식 문서지만 시스템 구조 파악에 매우 중요 |
KServe Architecture | 모델 서빙 구조 학습에 도움 |
Uber Michelangelo | Uber의 ML Infra 사례 분석 |
🧭 3. 논문 접근 방식 (실험 설계 및 전체 흐름)
🔍 문제정의
- "실시간 요청을 다양한 모델에 latency 최적화하여 분산 서빙하는 것은 어렵다."
- 기존의 static scheduling or rule-based autoscaling은 한계가 있다.
🏗️ 시스템 아키텍처 구성
- Kubernetes Cluster 위에 Ray Serve
- FastAPI → Model inference endpoint 구성
- Load Generator (Locust) → 부하 시뮬레이션
- Prometheus → CPU/GPU 사용률, latency 모니터링
- RL Scheduler → Ray Actor 형태로 학습 및 스케줄
🧪 실험 설계
실험 항목설명
Baseline | Round-robin / Static autoscaling |
제안 방식 | RL 기반 scheduler + metric 기반 autoscaling |
Metrics | 평균 latency, P95 latency, throughput, resource 효율성 |
Workload | 낮은 요청, burst traffic, 모델 다양성 시나리오 구성 |
📄 4. 논문 개요 (목차 초안)
논문 제목
Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure
1. Introduction
- Multi-model inference 환경의 어려움
- Rule-based autoscaling의 한계
- 기여 내용 요약: RL scheduler + Ray + K8s
2. Background & Related Work
- Kubernetes scaling, Ray Serve 구조
- 기존 Model Serving 논문/시스템 (SageMaker, KServe 등)
- RL-based Scheduling 논문 소개
3. System Architecture
- 전체 구성도 (FastAPI + Ray + K8s + RL Agent)
- 모델 등록, 요청 흐름, metric 수집 방식 설명
4. RL-based Scheduling Method
- 상태 정의: 요청 수, latency, 서버 상태
- 행동 정의: 서버 선택, 자원 할당
- 보상 설계: latency 감소, timeout 방지, 리소스 절감
- 알고리즘 선택: PPO or DQN
5. Experiment
- 실험 환경 세팅 (AWS EKS or 로컬 minikube)
- 모델 종류 (ex. BERT, GPT2-small, T5-small)
- 시나리오: burst, high load, model mixing
- Metric 측정 및 비교
6. Result & Analysis
- Latency 그래프 (Baseline vs Proposed)
- Resource Usage (CPU/GPU %)
- RL 학습곡선 (reward over time)
- 한계점 및 의외의 발견
7. Conclusion & Future Work
- 연구 요약
- 향후 A/B Testing 기반 Auto-Learning 스케줄러 개발 가능성
- RL + QoS 기반 hybrid 스케줄러 확장 가능성
🔧 정리: 준비 체크리스트
항목완료 여부
Ray Serve 실습 | ☐ |
K8s Auto-scaling 실습 | ☐ |
RL 기본 구현 (DQN, PPO) | ☐ |
Locust or k6 부하 테스트 실습 | ☐ |
논문 읽기 3~5편 | ☐ |
아키텍처 다이어그램 그리기 | ☐ |
코드 저장소 + README |