Alibaba Cloud skifter fra Nvidia til Ethernet

NEtworking
Alibaba Cloud ingeniør, Ennan Zhai, deler sin forskning om datacenters design til LLM træning. Her fortæller han blandt andet hvordan Alibaba brugte Ethernet til at give dens 15.000 GPU'er mulighed for at kommunikere med hinanden i stedet for Nvidias interconnect.

Alibaba Cloud-ingeniør og forsker Ennan Zhai delte sit forskningspapir via GitHub og afslørede Cloud-udbyderens design til brug i datacentre til Large Language Model (LLM) træning. PDF-dokument, med titlen "Alibaba HPN: Et Datacenter Netværk til Stor Sprogmodel Træning", beskriver hvordan Alibaba brugte Ethernet til at give dens 15.000 GPU'er mulighed for at kommunikere med hinanden. 

Generel cloud computing genererer konstante, men små datastrømme med hastigheder under 10 Gbps. På den anden side producerer LLM-træning periodiske dataudbrud, der kan nå op på 400 Gbps. Ifølge papiret, "prædisponerer denne karakteristik ved LLM-træning Equal-Cost Multi-Path (ECMP), den almindeligt anvendte load-balancing-skema i traditionelle datacentre, til hash polarisering, hvilket medfører problemer som ujævn trafikfordeling." 

For at undgå dette udviklede Zhai og hans team High-Performance Network (HPN), som brugte en "2-lags, dual-plane arkitektur" der mindsker antallet af mulige ECMP-forekomster, samtidig med at systemet "præcist kan vælge netværksstier i stand til at håndtere 'elephant flows'." 

HPN brugte også dual top-of-rack (ToR) switches, der tillod dem at understøtte hinanden. Disse switches er den mest almindelige enkelt punktfejl for LLM-træning, hvilket kræver at GPU'er fuldfører iterationer i sync. Alibaba Cloud opdelte dens datacentre i hosts, hvor hver host er udstyret med otte GPU'er. Hver GPU har sit eget netværksinterfacekort (NIC) med to porte, og hvert GPU-NIC system kaldes et 'rail'.

Hver host har også et ekstra NIC til at forbinde til backend-netværket. Hver rail forbinder derefter til to forskellige ToR switches, således at hele hosten ikke påvirkes, selvom en switch fejler. Selvom Alibaba Cloud har valgt at droppe NVlink til inter-host kommunikation, bruger de stadig Nvidia's proprietære teknologi til det intra-host netværk, da kommunikationen mellem GPU'er inden for en host kræver mere båndbredde. Men da kommunikationen mellem rails er meget langsommere, er de "dedikerede 400 Gbps RDMA-netværks gennemstrømning, hvilket resulterer i en samlet båndbredde på 3,2 Tbps" per host, mere end nok til at maksimere båndbredden på PCIe Gen5x16 grafikkortene. 

Alibaba Cloud bruger også en 51,2 Tb/sek Ethernet single-chip ToR switch, da multi-chip løsninger er mere tilbøjelige til ustabilitet, med en fire gange højere fejlrate end single-chip switches. Dog kører disse switches varme, og der findes ingen tilgængelige køleprofiler på markedet, der kan forhindre dem i at slukke på grund af overophedning. Så har virksomheden skabt sin egen løsning ved at skabe en dampkammer køleprofil med flere søjler i midten for at transportere termisk energi meget mere effektivt. 

Ennan Zhai og hans team vil præsentere deres arbejde på SIGCOMM (Special Interest Group on Data Communications) konferencen i Sydney, Australien, i august. Mange virksomheder, herunder AMD, Intel, Google og Microsoft, vil være interesserede i dette projekt, primært fordi de har slået sig sammen for at skabe Ultra Accelerator Link - en åben-standard forbindelset lavet for at konkurrere med NVlink. 

Dette er især sandt, da Alibaba Cloud har brugt HPN i over otte måneder, hvilket betyder at denne teknologi allerede er blevet afprøvet og testet. Men HPN har stadig nogle ulemper, den største er dets komplekse kablingsstruktur. Med hver host, der har ni NICS og hver NIC, der er forbundet til to forskellige ToR switches, er der mange muligheder for at blande hvilken jack der går til hvilken port.

Ikke desto mindre er denne teknologi formentlig mere økonomisk overkommelig end NVlink, hvilket tillader enhver institution, der opretter et datacenter, at spare en masse penge på opsætningsomkostningerne (og måske endda undgå Nvidia teknologi, især hvis det er en af de virksomheder, der er underlagt sanktioner fra USA i den igangværende chip-krig med Kina).

Vores partnere