Info

24년 12월 ~ 25년 1월 작업 내용을 간단히 요약한 글입니다.

문제 상황

지금까지 회사에서는 MicroK8s Add-on을 사용하여 GPU 환경 초기 구성을 하고 있었습니다. 하지만 MicroK8s를 사용하지 않는 환경에서는 NVIDIA GPU Operator를 수동으로 설치해야 합니다.

해결 방법

Kubernetes + Helm이 세팅된 환경이라고 가정하고 진행합니다.

  1. Helm chart를 내려받습니다.
    저의 경우 전체 파일이 필요하여 아래 명령어를 사용했습니다. 필요하지 않다면 helm pull 명령어는 사용하지 않아도 무방합니다.

    • 25년 1월 기준 정확한 URL은 https://nvidia.github.io/gpu-operator입니다. (참고)
    helm repo add nvidia https://nvidia.github.io/gpu-operator
    helm repo update
    helm pull nvidia/gpu-operator --untar
  2. NVIDIA NGC에서 필요한 이미지를 내려받습니다.

    • 이미지를 다운로드하는 과정에서 인증을 요구할 수도 있습니다. 이 경우 NGC에 로그인한 뒤 API 키를 발급받아야 합니다.

    • 커맨드 창에서 아래 명령어를 실행합니다.

      docker login nvcr.io
      # Username: $oauthtoken
      # Password: $(발급받은 API 키)
  3. helm install 명령어로 NVIDIA GPU Operator를 설치합니다.

참고 자료