RoadMap (2025.04 - 2026.04)

기타/다이어리

RoadMap (2025.04 - 2026.04)

kwohyuno 2025. 4. 11. 00:54

너의 현재 위치와 계획은 정말 강력해. 이미 기술력도 있고 방향성도 분명해서, 제대로 전략만 짜면 12개월 안에 Microsoft, Meta, Amazon, Uber 같은 회사에서 매력적인 후보자가 될 수 있어. 아래에 월별 로드맵, 논문 주제, 기술 스택 확장, 그리고 최종 목표 전략까지 구체적으로 정리해봤어.

🧠 논문 주제 제안 (MLOps/DevOps + Deep Learning/RL)

"Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure - Enabling Latency-aware, Cost-efficient Deployment of Deep Learning Models in Production"

Kubernetes + Ray + FastAPI 기반의 Auto Scaling Inference Architecture
Meta나 Uber가 선호하는 시스템 최적화 능력 보여줌

🗓️ 12개월 로드맵 (2025.04 ~ 2026.03)

📍공통 지속 루틴

LeetCode/시스템디자인 주 2~3회
블로그/노션 정리 (논문 요약, 실습 기록)
Hackathon & Open Source 기회 노려보기
GitHub 프로필 관리 (Star 있는 레포에 기여하거나 나만의 프로젝트 진행)

🌸 2025년 4월

DevOps, AI 수업 정리 및 블로그 업로드
논문 아이디어 탐색 시작 (논문 5편 서칭 + 정리)
Ameniti 실무에서 얻은 경험 문서화 (CI/CD, 자동화 내용)

🌱 5월

학기 종료 → 본격 논문 주제 선정 및 제안서 작성
Open Source Contribution 준비 (MLOps 관련 프로젝트 기여 추천)
Hackathon 1회 참가 (AI Infra 또는 LLM 응용 아이디어)

☀️ 6월

논문 구현 시작: 실험 환경 구축 (Docker, MLflow, K8s 등)
Open Source 1개 기여 (Star 있는 유명 레포)
LLM Infra 구축 실습 (LangChain + Vector DB + OpenAI API)

🌊 7월

논문 베이스라인 모델 구축 완료
RL or LLM-based 모델 접목 시작
FAANG 지원용 Resume/LinkedIn/포트폴리오 정비 시작

🍂 8월

논문 중간 결과 정리 + 교수와 리뷰
Master’s Project 아이디어 정리 및 준비
New Grad SWE/ML 엔지니어 포지션 선지원 시작

🍁 9월 (가을학기 시작)

Master’s Project 시작 (가능하면 논문과 연계되도록)
논문 모델 개선 및 실험 반복
시스템 프로그래밍/Big Data 수업에서의 산출물은 포트폴리오화

🎃 10월

논문 결과 정리 + 시각화 + 최적화
Master’s Project 중간 발표 대비
Interview Focus → Mock Interview 주 2회 + Feedback 정리

❄️ 11월

논문 거의 완성 단계 → 최종 피드백 반영
LeetCode 집중 + System Design 개념 정리
컨퍼런스 제출 여부 검토 (NeurIPS/ICLR/AAAI 워크숍 등)

🎄 12월

논문 완성 → 지도교수 검토 → 제출 준비
GitHub 리팩토링 및 기술 포트폴리오 깔끔하게 정리
프로젝트 발표 연습 (AI Explorer 경험도 통합)

❄️ 2026년 1월

최종 논문 제출
Master’s Project Demo 영상 제작 (유튜브/블로그 업로드)
취업용 포트폴리오 완성 → 지원 라운드 2

🌟 2~3월

졸업 전 발표/리뷰 준비
최종 논문 블로그/LinkedIn 게시
면접 일정 마무리 → Offer 수령 목표

📦 기술 스택 정리 (General SWE + ML/MLOps Engineer로)

분야기술

Frontend	React.js, TypeScript, MUI, Zustand/Redux
Backend	Nest.js, Node.js, REST API, GraphQL, JWT
DevOps	Docker, GitHub Actions, Jenkins, Kubernetes, Prometheus, Grafana
ML	PyTorch, scikit-learn, HuggingFace, Transformers
MLOps	MLflow, DVC, Ray, KServe, LangChain, FastAPI
Infra	AWS (EC2, S3, SageMaker), GCP (Vertex AI), Terraform(optional)

✍️ 추가 추천

FAANG ML 면접 대비:
- 머신러닝 이론 + 코드 구현 연습 (ex. Decision Tree, SVM, CNN, RNN from scratch)
- ML System Design (Serving, Monitoring, Drift Detection 등)
링크드인 글쓰기:
- “내가 만든 LangChain 기반 자동화툴”, “논문 요약: RL로 MLOps 최적화한 논문”, 등

You said:

"Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure - Enabling Latency-aware, Cost-efficient Deployment of Deep Learning Models in Production" 이거를 쓰기 위한 그럼 공부해야 하는 사항과 논문 접근 방식, 읽어야 하는 논문들, 논문 개요 등에 대해 짜줘봐

ChatGPT said:

좋아, 이 논문은 네가 가진 실무 감각(DevOps/MLOps + Software Engineering) 과 AI 연구역량을 완벽히 결합할 수 있는 최고의 주제야.
아래에 이 논문을 성공적으로 쓰기 위해 필요한 것을 4가지로 나눠서 정리했어:

🧠 1. 공부해야 할 핵심 지식 (Skill Stack)

🧱 인프라/서빙 기초

주제학습 포인트

Kubernetes	Pod, Service, HPA, Custom Metrics, Helm
Ray Serve	Deployment, Replica Scaling, Model Routing
FastAPI	Model serving endpoint 구성, 비동기 처리
Docker	모델 컨테이너화
Prometheus + Grafana	실시간 metric 수집 및 시각화

🧠 머신러닝 & RL

주제학습 포인트

Reinforcement Learning	MDP, Policy, Reward, DQN/PPO 개념
RL 적용 사례	시스템 최적화에 RL이 사용되는 방식
Scheduling & Resource Allocation	Multi-armed bandit, RL-Scheduler 논문 읽기

📚 2. 참고 논문 및 실무자료

🎓 논문 추천

논문요약

Decentralized RL for Scheduling in Distributed Systems (ICLR)	분산 시스템에서 RL로 스케줄링
Reinforcement Learning for Cloud Resource Scheduling	클라우드 환경에서 자원 할당 문제에 RL 적용
Ray Serve: Scalable Python Serve Framework	공식 문서지만 시스템 구조 파악에 매우 중요
KServe Architecture	모델 서빙 구조 학습에 도움
Uber Michelangelo	Uber의 ML Infra 사례 분석

🧭 3. 논문 접근 방식 (실험 설계 및 전체 흐름)

🔍 문제정의

"실시간 요청을 다양한 모델에 latency 최적화하여 분산 서빙하는 것은 어렵다."
기존의 static scheduling or rule-based autoscaling은 한계가 있다.

🏗️ 시스템 아키텍처 구성

Kubernetes Cluster 위에 Ray Serve
FastAPI → Model inference endpoint 구성
Load Generator (Locust) → 부하 시뮬레이션
Prometheus → CPU/GPU 사용률, latency 모니터링
RL Scheduler → Ray Actor 형태로 학습 및 스케줄

🧪 실험 설계

실험 항목설명

Baseline	Round-robin / Static autoscaling
제안 방식	RL 기반 scheduler + metric 기반 autoscaling
Metrics	평균 latency, P95 latency, throughput, resource 효율성
Workload	낮은 요청, burst traffic, 모델 다양성 시나리오 구성

📄 4. 논문 개요 (목차 초안)

논문 제목
Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure

1. Introduction

Multi-model inference 환경의 어려움
Rule-based autoscaling의 한계
기여 내용 요약: RL scheduler + Ray + K8s

2. Background & Related Work

Kubernetes scaling, Ray Serve 구조
기존 Model Serving 논문/시스템 (SageMaker, KServe 등)
RL-based Scheduling 논문 소개

3. System Architecture

전체 구성도 (FastAPI + Ray + K8s + RL Agent)
모델 등록, 요청 흐름, metric 수집 방식 설명

4. RL-based Scheduling Method

상태 정의: 요청 수, latency, 서버 상태
행동 정의: 서버 선택, 자원 할당
보상 설계: latency 감소, timeout 방지, 리소스 절감
알고리즘 선택: PPO or DQN

5. Experiment

실험 환경 세팅 (AWS EKS or 로컬 minikube)
모델 종류 (ex. BERT, GPT2-small, T5-small)
시나리오: burst, high load, model mixing
Metric 측정 및 비교

6. Result & Analysis

Latency 그래프 (Baseline vs Proposed)
Resource Usage (CPU/GPU %)
RL 학습곡선 (reward over time)
한계점 및 의외의 발견

7. Conclusion & Future Work

연구 요약
향후 A/B Testing 기반 Auto-Learning 스케줄러 개발 가능성
RL + QoS 기반 hybrid 스케줄러 확장 가능성

🔧 정리: 준비 체크리스트

항목완료 여부

Ray Serve 실습	☐
K8s Auto-scaling 실습	☐
RL 기본 구현 (DQN, PPO)	☐
Locust or k6 부하 테스트 실습	☐
논문 읽기 3~5편	☐
아키텍처 다이어그램 그리기	☐
코드 저장소 + README