1. 대표적 GPU 가속 기술
현재 가장 많이 사용되고 있는 GPU기반의 가속기술은 다음과 같음:
- Compute Unified Device Architecture (CUDA): NVIDIA
- Metal Performance Shaders (MPS): Apple
- Radeon Open Compute (ROCm): AMD
- Direct Machine Learning (DirectML): Microsoft
Deep Learning에서 가장 많이 애용되고 있는 Framework는 바로 PyTorch와 TensorFlow임.
이들에서 위의 가속기술의 지원과 이들 기술 비교는 다음과 같음.
2. 주요 GPU 가속기술 개요
기술 | 제조사 | 등장 연도 |
현재 버전 |
PyTorch 지원 |
TensorFlow 지원 |
지원 환경 | 선호도 활용도 |
CUDA | NVIDIA | 2007년 | 12.8 (2025년) |
2016년부터 완벽 지원 |
2015년부터 완벽 지원 |
Win, Linux, macOS (~2020) |
1위 |
ROCm | AMD | 2016년 | 6.3 (2025년) |
2020년부터 제한적 |
2020년부터 제한적 |
Linux 중심, Win (5.5+, 2023년~) |
2위 |
MPS | Apple | 2016년 | Metal 3.1 (2025년) |
2022년(1.12+) 거의 완벽 |
제한적 | Apple Silicon, macOS |
3위 |
DirectML | Microsoft | 2019년 | 1.15.2 (2025년) |
비공식 (플러그인) |
비공식 (플러그인) |
Win | 4위 |
3. GPU 가속기술별 상세 특징 및 발전 과정
3-1. CUDA (Compute Unified Device Architecture)
- 강점:
- 가장 성숙한 생태계와 최적화된 성능 제공
- 방대한 라이브러리와 완벽한 문서화
- 대규모 커뮤니티 지원
- 딥러닝 프레임워크의 사실상 표준 기술로 자리매김
- 한계:
- NVIDIA GPU에서만 작동
- 비공개 소프트웨어
- 발전 과정:
- 2007년 최초 등장으로 GPU 컴퓨팅의 선구자 역할
- 딥러닝 프레임워크 초기부터 기본 가속 기술로 채택
- 공식 사이트: https://developer.nvidia.com/cuda-toolkit
3-2. ROCm (Radeon Open Compute)
- 강점:
- 오픈소스 플랫폼
- 비용 효율성
- HPC 환경 최적화
- CUDA의 주요 대안으로 성장 중
- 한계:
- 제한적인 지원 기능
- AMD GPU만 지원 (Open Source이므로 확대가 기대되나 아직 다른 GPU에서 지원되는 경우 없음)
- 생태계가 CUDA보다 덜 성숙함 (어떤 기술도 CUDA보다 성숙한 생태계 존재하지 않음)
- 발전 과정:
- 2016년 오픈소스 GPU 컴퓨팅 플랫폼으로 등장
- 2020년 주요 딥러닝 프레임워크 지원 시작
- 2023년(ROCm 5.5)부터 Windows 환경 제한적 지원 추가
- 공식 사이트: https://www.amd.com/en/graphics/servers-solutions-rocm
3-3. MPS (Metal Performance Shaders)
- 강점:
- Apple 하드웨어에 최적화
- 높은 전력 효율성
- Apple Silicon에 한정되나 매우 뛰어난 성능과 지원을 보임.
- 한계:
- Apple 기기에서만 사용 가능
- 일부 고급 기능 제한 (하지만, CUDA를 제외하면 가장 많은 기능을 지원)
- 발전 과정:
- 2016년 Metal Performance Shaders 기술 도입
- 2022년 PyTorch 1.12부터 MPS 백엔드 공식 지원
- Apple Silicon 환경에서 빠르게 발전 중 - 개인용과 같은 소규모 장비 위주
- 공식 사이트: https://developer.apple.com/metal/
3-4. DirectML (Direct Machine Learning)
- 강점:
- 다양한 GPU 하드웨어(NVIDIA, AMD, Intel) 지원
- Windows 환경과의 통합
- 한계:
- 공식 프레임워크에 통합 부족. (공식 지원이 아닌 MS가 단독으로 제공 중)
- 최적화 수준이 상대적으로 낮음.
- 지원되는 하드웨어의 다양성과 달리, MS만 밀고 있는 제한된 생태계가 단점.
- 발전 과정:
- 2019년 다양한 GPU 지원을 위해 등장
- 2020년 별도 플러그인을 통해 딥러닝 프레임워크 비공식 지원
- Windows 환경에서 제한적으로 사용
- 공식 사이트: https://github.com/microsoft/DirectML
4. 업계 현황 및 전망
- CUDA는 여전히 업계 표준으로 연구, 기업, 클라우드 환경에서 가장 널리 사용됨
- ROCm은 오픈소스 대안으로 부상 중이며, 특히 HPC 및 비용 효율적인 솔루션을 찾는 조직에서 관심 증가
- MPS는 Apple 생태계 내에서 빠르게 발전하며 개인 개발자와 소규모 팀에서 활용 증가
- DirectML은 Windows 기반 소규모 머신러닝 프로젝트에서 제한적으로 사용
- 위의 GPU 가속 기술은 병렬 컴퓨팅 능력을 활용한 고성능 계산에 초점을 맞추고 있음
같이 보면 좋은 자료들
https://dsaint31.me/mkdocs_site/CE/colab/gpu/
BME
Colab: GPU 사용하기 런타임 → 런타임 유형 변경 → 하드웨어 가속기를 GPU로 변경 유의사항 – GPU는 최대 12시간 실행을 지원 12시간 실행 이후에는 런타임 재시작으로 VM을 교체해야 함 GPU가속을
dsaint31.me
'CE' 카테고리의 다른 글
[CE] ABC - Atanasoff Berry Computer (0) | 2025.03.03 |
---|---|
[CE] 기계식, 전기식, 전자식 의 차이 - Computer에서 (0) | 2025.03.02 |
Tree Traversal (트리 순회): BFS and DFS (2) | 2024.12.02 |
[CE] Heap and Complete Binary Tree (0) | 2024.11.16 |
[CE] Stream이란 (4) | 2024.09.11 |