kwohyuno 2025. 4. 14. 05:12

제목: Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure
부제: Enabling Latency-aware, Cost-efficient Deployment of Deep Learning Models in Production

 

 

📚 학습 및 준비 로드맵

1. 강화학습 (Reinforcement Learning)

목표: Policy Gradient, DQN, PPO 등 주요 알고리즘의 이해 및 구현 능력 배양

  • 학습 자료:
  • 실습: OpenAI Gym, Stable Baselines3 등을 활용한 알고리즘 구현

 

 

 

 

2. 시스템 최적화 및 CUDA

목표: CPU/GPU 자원 스케줄링, 큐잉 이론, CUDA 프로그래밍에 대한 이해

  • 학습 자료:
    • NVIDIA의 CUDA 공식 문서 및 튜토리얼
    • "Computer Systems: A Programmer's Perspective" by Bryant & O'Hallaron
    • "Operating Systems: Three Easy Pieces" by Remzi & Andrea Arpaci-Dusseau
  • 실습: CUDA를 활용한 간단한 병렬 프로그래밍 예제 구현

 

 

3. 모델 서빙 아키텍처

목표: TensorFlow Serving, Triton Inference Server 등의 모델 서빙 도구 이해 및 활용​

  • 학습 자료:
    • TensorFlow Serving 공식 문서​
    • NVIDIA Triton Inference Server 공식 문서​
  • 실습: 간단한 모델을 서빙하여 REST API를 통해 추론 요청 처리​

 

 

 

4. DevOps 및 MLOps 도구

목표: Kubernetes, Ray Serve, FastAPI, Docker, Prometheus, Grafana 등의 도구 이해 및 활용​

  • 학습 자료:
    • "Kubernetes Up & Running" by Kelsey Hightower 등​
    • Ray Serve 공식 문서​
    • FastAPI 공식 문서​
    • Docker, Prometheus, Grafana 공식 문서 및 튜토리얼​
  • 실습: 간단한 MLOps 파이프라인 구축 및 모니터링​

 

 

 

 

🧪 논문 요약

  1. POS: An Operator Scheduling Framework for Multi-model Inference on Edge Intelligent Computing
    • 핵심 내용: 엣지 디바이스에서 멀티모델 추론을 위한 연산자 스케줄링 프레임워크 제안​
    • 기여: 리소스 제약 환경에서의 효율적인 스케줄링 전략 개발​
  2. Multi-Agent Deep Reinforcement Learning-Based Inference Task Scheduling and Offloading for Maximum Inference Accuracy under Time and Energy Constraints
    • 핵심 내용: 시간 및 에너지 제약 하에서 추론 정확도를 극대화하기 위한 다중 에이전트 강화학습 기반 스케줄링 및 오프로딩 전략​
    • 기여: 협력적 에이전트 시스템을 통한 효율적인 자원 관리​
  3. An Adaptive Cloud Task Scheduling Method Based on Meta-Reinforcement Learning
    • 핵심 내용: 메타 강화학습을 활용한 적응형 클라우드 태스크 스케줄링 방법 제안​
    • 기여: 다양한 워크로드에 대한 동적 스케줄링 전략 개발​
  4. MARS: Malleable Actor-Critic Reinforcement Learning Scheduler
    • 핵심 내용: 유연한 액터-크리틱 구조를 활용한 강화학습 기반 스케줄러 제안
    • 기여: 변화하는 환경에 적응 가능한 스케줄링 프레임워크 개발

 

 

 

 

🏢 목표 기업 및 직무 분석

목표 기업: Microsoft, Meta, Amazon, Nvidia, Uber, Google

추천 직무 및 팀:

  • Research Scientist / Applied Scientist:
    • 강화학습, 분산 시스템, 모델 서빙 관련 연구 및 개발
  • Machine Learning Engineer:
    • 생산 환경에서의 모델 배포 및 최적화
  • Software Engineer (Infrastructure / Systems):
    • 대규모 분산 시스템 및 서빙 인프라 개발
  • MLOps Engineer:
    • 모델 서빙 파이프라인 구축 및