NVIDIA MIG – Technologia NVIDIA Multi-Instance GPU

Technologia MIG została wprowadzona w procesorze A100 bazującym na architekturze NVIDIA Ampere.
MIG zwiększa wydajność i elastyczność procesorów graficznych NVIDIA H100, A100 i A30 poprzez podział GPU na 7 w pełni izolowanych instancji, z których każda posiada własną pamięć o dużej przepustowości, pamięć podręczną i rdzenie obliczeniowe. Daje to administratorom możliwość obsługi każdego obciążenia, od najmniejszego do największego, z gwarantowaną jakością usług (QoS) i rozszerzeniem zasięgu przyspieszonych zasobów obliczeniowych dla każdego użytkownika.

Przykład wykorzystania instancji MIG do różnych zadań

MIG stał się niezwykle ważną funkcją skalowania w centrach danych dostawców usług w chmurze (Cloud Service Provider – CSP) poprzez zapewnienie niezależnych, w pełni izolowanych i bezpiecznych instancji GPU dla wielu klientów (takich jak maszyny wirtualne, kontenery i procesy) korzystających z tego samego GPU.

Korzyści

Rozszerzenie dostępu do GPU dla większej liczby użytkowników.
Dzięki MIG można udostępnić do 7 razy więcej zasobów na jednym GPU. MIG zapewnia naukowcom i programistom więcej zasobów i elastyczność niż kiedykolwiek wcześniej.

Optymalizacja wykorzystania GPU
MIG zapewnia elastyczność wyboru kilku różnych rozmiarów instancji, co pozwala na zapewnienie odpowiedniej wielkości instancji GPU dla każdego obciążenia, ostatecznie optymalizując wykorzystanie i maksymalizując inwestycję.

Jednoczesne uruchamianie mieszanych obciążeń
MIG umożliwia równoczesne uruchamianie zadań wnioskowania, trenowania sieci i obliczeń o wysokiej wydajności (HPC) na jednym GPU z deterministycznymi opóźnieniami i przepustowością. W przeciwieństwie do dzielenia czasu, każde zadanie przebiega równolegle, zapewniając wysoką wydajność.

Poniższy schemat MIG pokazuje, jak wielu niezależnym użytkownikom z tej samej lub różnych organizacji można przypisać własne, dedykowane, chronione i izolowane instancje w ramach jednego fizycznego GPU.

Przykładowa konfiguracja CSP MIG

Ważną funkcją MIG do zarządzania, dostrajania, serwisowania i równoważenia obciążenia maszyn wirtualnych vGPU (wirtualnych GPU) jest możliwość migracji vGPU między instancjami GPU na jednym GPU oraz pomiędzy różnymi GPU w klastrze.
Każda instancja GPU ma oddzielne i izolowane ścieżki w całym systemie pamięci — wbudowane porty crossbar, banki pamięci podręcznej L2, kontrolery pamięci i szyny adresowe DRAM są przypisane jednoznacznie do indywidualnej instancji. Gwarantuje to, że obciążenie indywidualnego użytkownika może działać z przewidywalną przepustowością i opóźnieniem, z tą samą alokacją pamięci podręcznej L2 i przepustowością DRAM, nawet jeśli inne zadania obciążają ich własne pamięci podręczne lub nasycają ich interfejsy DRAM.

Ulepszenia MIG w H100
Technologia MIG drugiej generacji w H100 zapewnia około 3x większą moc obliczeniową i prawie 2x większą przepustowość pamięci na instancję GPU w porównaniu z A100. Architektura NVIDIA Hopper usprawnia technologię MIG, zapewniając w pełni bezpieczne konfiguracje MIG dla wielu użytkowników i wielu najemców, co jest natywne dla chmury. Do siedmiu instancji GPU można bezpiecznie odizolować od siebie dzięki nowym funkcjom poufnego przetwarzania danych na poziomie sprzętu i hypervizor’a.
Poniższy schemat przedstawia przykładową konfigurację współpracujących ze sobą CPU i GPU, tworzącą zaufane środowiska wykonawcze (Trusted Execution Environments – TEEs) dla kilku użytkowników korzystających z jednego procesora graficznego. Strona CPU zapewnia poufne maszyny wirtualne z bezpiecznymi sterownikami NVIDIA. Procesor GPU H100 w tym przykładzie jest podzielony na cztery instancje Secure MIG. Transfery pomiędzy CPU a GPU są szyfrowane. Wirtualizacja sprzętowa GPU jest realizowana przy użyciu PCIe SR-IOV (z jedną funkcją wirtualną (VF) na instancję MIG). Poufność i integralność danych zapewnia wiele sprzętowych funkcji bezpieczeństwa, a zapory sprzętowe zapewniają izolację pamięci między instancjami GPU.

Bezpieczny MIG dla kilku użytkowników w konfiguracji z jednym CPU

Architektura Hopper umożliwia teraz dostarczanie bezpiecznej, wysokoprzepustowej inteligentnej analizy wideo (IVA) we współdzielonej infrastrukturze również dedykowanym dekoderom obrazu i wideo. Każda Instancja GPU MIG może otrzymać co najmniej jeden element NVDEC i NVJPG.
Ponadto instancje H100 MIG zawierają własne zestawy monitorów wydajności, które współpracują z narzędziami programistycznymi firmy NVIDIA. Dzięki współbieżnemu profilowaniu administratorzy mogą monitorować odpowiednią akcelerację GPU i bez problemów, optymalnie przydzielać zasoby użytkownikom.