기타/다이어리

RoadMap (2025.04 - 2026.04)

kwohyuno 2025. 4. 11. 00:54

너의 현재 위치와 계획은 정말 강력해. 이미 기술력도 있고 방향성도 분명해서, 제대로 전략만 짜면 12개월 안에 Microsoft, Meta, Amazon, Uber 같은 회사에서 매력적인 후보자가 될 수 있어. 아래에 월별 로드맵, 논문 주제, 기술 스택 확장, 그리고 최종 목표 전략까지 구체적으로 정리해봤어.


🧠 논문 주제 제안 (MLOps/DevOps + Deep Learning/RL)

"Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure - Enabling Latency-aware, Cost-efficient Deployment of Deep Learning Models in Production

  • Kubernetes + Ray + FastAPI 기반의 Auto Scaling Inference Architecture
  • Meta나 Uber가 선호하는 시스템 최적화 능력 보여줌

🗓️ 12개월 로드맵 (2025.04 ~ 2026.03)

📍공통 지속 루틴

  • LeetCode/시스템디자인 주 2~3회
  • 블로그/노션 정리 (논문 요약, 실습 기록)
  • Hackathon & Open Source 기회 노려보기
  • GitHub 프로필 관리 (Star 있는 레포에 기여하거나 나만의 프로젝트 진행)

🌸 2025년 4월

  • DevOps, AI 수업 정리 및 블로그 업로드
  • 논문 아이디어 탐색 시작 (논문 5편 서칭 + 정리)
  • Ameniti 실무에서 얻은 경험 문서화 (CI/CD, 자동화 내용)

🌱 5월

  • 학기 종료 → 본격 논문 주제 선정 및 제안서 작성
  • Open Source Contribution 준비 (MLOps 관련 프로젝트 기여 추천)
  • Hackathon 1회 참가 (AI Infra 또는 LLM 응용 아이디어)

☀️ 6월

  • 논문 구현 시작: 실험 환경 구축 (Docker, MLflow, K8s 등)
  • Open Source 1개 기여 (Star 있는 유명 레포)
  • LLM Infra 구축 실습 (LangChain + Vector DB + OpenAI API)

🌊 7월

  • 논문 베이스라인 모델 구축 완료
  • RL or LLM-based 모델 접목 시작
  • FAANG 지원용 Resume/LinkedIn/포트폴리오 정비 시작

🍂 8월

  • 논문 중간 결과 정리 + 교수와 리뷰
  • Master’s Project 아이디어 정리 및 준비
  • New Grad SWE/ML 엔지니어 포지션 선지원 시작

🍁 9월 (가을학기 시작)

  • Master’s Project 시작 (가능하면 논문과 연계되도록)
  • 논문 모델 개선 및 실험 반복
  • 시스템 프로그래밍/Big Data 수업에서의 산출물은 포트폴리오화

🎃 10월

  • 논문 결과 정리 + 시각화 + 최적화
  • Master’s Project 중간 발표 대비
  • Interview Focus → Mock Interview 주 2회 + Feedback 정리

❄️ 11월

  • 논문 거의 완성 단계 → 최종 피드백 반영
  • LeetCode 집중 + System Design 개념 정리
  • 컨퍼런스 제출 여부 검토 (NeurIPS/ICLR/AAAI 워크숍 등)

🎄 12월

  • 논문 완성 → 지도교수 검토 → 제출 준비
  • GitHub 리팩토링 및 기술 포트폴리오 깔끔하게 정리
  • 프로젝트 발표 연습 (AI Explorer 경험도 통합)

❄️ 2026년 1월

  • 최종 논문 제출
  • Master’s Project Demo 영상 제작 (유튜브/블로그 업로드)
  • 취업용 포트폴리오 완성 → 지원 라운드 2

🌟 2~3월

  • 졸업 전 발표/리뷰 준비
  • 최종 논문 블로그/LinkedIn 게시
  • 면접 일정 마무리 → Offer 수령 목표

📦 기술 스택 정리 (General SWE + ML/MLOps Engineer로)

분야기술
Frontend React.js, TypeScript, MUI, Zustand/Redux
Backend Nest.js, Node.js, REST API, GraphQL, JWT
DevOps Docker, GitHub Actions, Jenkins, Kubernetes, Prometheus, Grafana
ML PyTorch, scikit-learn, HuggingFace, Transformers
MLOps MLflow, DVC, Ray, KServe, LangChain, FastAPI
Infra AWS (EC2, S3, SageMaker), GCP (Vertex AI), Terraform(optional)

✍️ 추가 추천

  • FAANG ML 면접 대비:
    • 머신러닝 이론 + 코드 구현 연습 (ex. Decision Tree, SVM, CNN, RNN from scratch)
    • ML System Design (Serving, Monitoring, Drift Detection 등)
  • 링크드인 글쓰기:
    • “내가 만든 LangChain 기반 자동화툴”, “논문 요약: RL로 MLOps 최적화한 논문”, 등

 

 

 

 

 

You said:

"Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure - Enabling Latency-aware, Cost-efficient Deployment of Deep Learning Models in Production" 이거를 쓰기 위한 그럼 공부해야 하는 사항과 논문 접근 방식, 읽어야 하는 논문들, 논문 개요 등에 대해 짜줘봐 
 

ChatGPT said:

좋아, 이 논문은 네가 가진 실무 감각(DevOps/MLOps + Software Engineering)  AI 연구역량을 완벽히 결합할 수 있는 최고의 주제야.
아래에 이 논문을 성공적으로 쓰기 위해 필요한 것을 4가지로 나눠서 정리했어:


🧠 1. 공부해야 할 핵심 지식 (Skill Stack)

🧱 인프라/서빙 기초

주제학습 포인트
Kubernetes Pod, Service, HPA, Custom Metrics, Helm
Ray Serve Deployment, Replica Scaling, Model Routing
FastAPI Model serving endpoint 구성, 비동기 처리
Docker 모델 컨테이너화
Prometheus + Grafana 실시간 metric 수집 및 시각화

🧠 머신러닝 & RL

주제학습 포인트
Reinforcement Learning MDP, Policy, Reward, DQN/PPO 개념
RL 적용 사례 시스템 최적화에 RL이 사용되는 방식
Scheduling & Resource Allocation Multi-armed bandit, RL-Scheduler 논문 읽기

📚 2. 참고 논문 및 실무자료

🎓 논문 추천

논문요약
Decentralized RL for Scheduling in Distributed Systems (ICLR) 분산 시스템에서 RL로 스케줄링
Reinforcement Learning for Cloud Resource Scheduling 클라우드 환경에서 자원 할당 문제에 RL 적용
Ray Serve: Scalable Python Serve Framework 공식 문서지만 시스템 구조 파악에 매우 중요
KServe Architecture 모델 서빙 구조 학습에 도움
Uber Michelangelo Uber의 ML Infra 사례 분석

🧭 3. 논문 접근 방식 (실험 설계 및 전체 흐름)

🔍 문제정의

  • "실시간 요청을 다양한 모델에 latency 최적화하여 분산 서빙하는 것은 어렵다."
  • 기존의 static scheduling or rule-based autoscaling은 한계가 있다.

🏗️ 시스템 아키텍처 구성

  • Kubernetes Cluster 위에 Ray Serve
  • FastAPI → Model inference endpoint 구성
  • Load Generator (Locust) → 부하 시뮬레이션
  • Prometheus → CPU/GPU 사용률, latency 모니터링
  • RL Scheduler → Ray Actor 형태로 학습 및 스케줄

🧪 실험 설계

실험 항목설명
Baseline Round-robin / Static autoscaling
제안 방식 RL 기반 scheduler + metric 기반 autoscaling
Metrics 평균 latency, P95 latency, throughput, resource 효율성
Workload 낮은 요청, burst traffic, 모델 다양성 시나리오 구성

📄 4. 논문 개요 (목차 초안)

논문 제목
Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure


1. Introduction

  • Multi-model inference 환경의 어려움
  • Rule-based autoscaling의 한계
  • 기여 내용 요약: RL scheduler + Ray + K8s

2. Background & Related Work

  • Kubernetes scaling, Ray Serve 구조
  • 기존 Model Serving 논문/시스템 (SageMaker, KServe 등)
  • RL-based Scheduling 논문 소개

3. System Architecture

  • 전체 구성도 (FastAPI + Ray + K8s + RL Agent)
  • 모델 등록, 요청 흐름, metric 수집 방식 설명

4. RL-based Scheduling Method

  • 상태 정의: 요청 수, latency, 서버 상태
  • 행동 정의: 서버 선택, 자원 할당
  • 보상 설계: latency 감소, timeout 방지, 리소스 절감
  • 알고리즘 선택: PPO or DQN

5. Experiment

  • 실험 환경 세팅 (AWS EKS or 로컬 minikube)
  • 모델 종류 (ex. BERT, GPT2-small, T5-small)
  • 시나리오: burst, high load, model mixing
  • Metric 측정 및 비교

6. Result & Analysis

  • Latency 그래프 (Baseline vs Proposed)
  • Resource Usage (CPU/GPU %)
  • RL 학습곡선 (reward over time)
  • 한계점 및 의외의 발견

7. Conclusion & Future Work

  • 연구 요약
  • 향후 A/B Testing 기반 Auto-Learning 스케줄러 개발 가능성
  • RL + QoS 기반 hybrid 스케줄러 확장 가능성

🔧 정리: 준비 체크리스트

항목완료 여부
Ray Serve 실습
K8s Auto-scaling 실습
RL 기본 구현 (DQN, PPO)
Locust or k6 부하 테스트 실습
논문 읽기 3~5편
아키텍처 다이어그램 그리기
코드 저장소 + README