Brainstorming

미국유학/CS 698 Directed Reading and Research

Brainstorming

kwohyuno 2025. 4. 14. 05:12

제목: Optimizing Multi-model Inference with RL-powered Scheduling on a Distributed Serving Infrastructure
부제: Enabling Latency-aware, Cost-efficient Deployment of Deep Learning Models in Production

📚 학습 및 준비 로드맵

1. 강화학습 (Reinforcement Learning)

목표: Policy Gradient, DQN, PPO 등 주요 알고리즘의 이해 및 구현 능력 배양

학습 자료:
- David Silver의 강화학습 강의
- Spinning Up in Deep RL (OpenAI)교보eBook 일반 | 교보eBook+4ii.re.kr+4JCCR+4
- "Reinforcement Learning: An Introduction" by Sutton & Barto
실습: OpenAI Gym, Stable Baselines3 등을 활용한 알고리즘 구현

2. 시스템 최적화 및 CUDA

목표: CPU/GPU 자원 스케줄링, 큐잉 이론, CUDA 프로그래밍에 대한 이해

학습 자료:
- NVIDIA의 CUDA 공식 문서 및 튜토리얼
- "Computer Systems: A Programmer's Perspective" by Bryant & O'Hallaron
- "Operating Systems: Three Easy Pieces" by Remzi & Andrea Arpaci-Dusseau
실습: CUDA를 활용한 간단한 병렬 프로그래밍 예제 구현

3. 모델 서빙 아키텍처

목표: TensorFlow Serving, Triton Inference Server 등의 모델 서빙 도구 이해 및 활용

학습 자료:
- TensorFlow Serving 공식 문서
- NVIDIA Triton Inference Server 공식 문서
실습: 간단한 모델을 서빙하여 REST API를 통해 추론 요청 처리

4. DevOps 및 MLOps 도구

목표: Kubernetes, Ray Serve, FastAPI, Docker, Prometheus, Grafana 등의 도구 이해 및 활용

학습 자료:
- "Kubernetes Up & Running" by Kelsey Hightower 등
- Ray Serve 공식 문서
- FastAPI 공식 문서
- Docker, Prometheus, Grafana 공식 문서 및 튜토리얼
실습: 간단한 MLOps 파이프라인 구축 및 모니터링

🧪 논문 요약

POS: An Operator Scheduling Framework for Multi-model Inference on Edge Intelligent Computing
- 핵심 내용: 엣지 디바이스에서 멀티모델 추론을 위한 연산자 스케줄링 프레임워크 제안
- 기여: 리소스 제약 환경에서의 효율적인 스케줄링 전략 개발
Multi-Agent Deep Reinforcement Learning-Based Inference Task Scheduling and Offloading for Maximum Inference Accuracy under Time and Energy Constraints
- 핵심 내용: 시간 및 에너지 제약 하에서 추론 정확도를 극대화하기 위한 다중 에이전트 강화학습 기반 스케줄링 및 오프로딩 전략
- 기여: 협력적 에이전트 시스템을 통한 효율적인 자원 관리
An Adaptive Cloud Task Scheduling Method Based on Meta-Reinforcement Learning
- 핵심 내용: 메타 강화학습을 활용한 적응형 클라우드 태스크 스케줄링 방법 제안
- 기여: 다양한 워크로드에 대한 동적 스케줄링 전략 개발
MARS: Malleable Actor-Critic Reinforcement Learning Scheduler
- 핵심 내용: 유연한 액터-크리틱 구조를 활용한 강화학습 기반 스케줄러 제안
- 기여: 변화하는 환경에 적응 가능한 스케줄링 프레임워크 개발

🏢 목표 기업 및 직무 분석

목표 기업: Microsoft, Meta, Amazon, Nvidia, Uber, Google

추천 직무 및 팀:

Research Scientist / Applied Scientist:
- 강화학습, 분산 시스템, 모델 서빙 관련 연구 및 개발
Machine Learning Engineer:
- 생산 환경에서의 모델 배포 및 최적화
Software Engineer (Infrastructure / Systems):
- 대규모 분산 시스템 및 서빙 인프라 개발
MLOps Engineer:
- 모델 서빙 파이프라인 구축 및