Alibaba Cloud skifter fra Nvidia til Ethernet

Alibaba Cloud ingeniør, Ennan Zhai, deler sin forskning om datacenters design til LLM træning. Her fortæller han blandt andet hvordan Alibaba brugte Ethernet til at give dens 15.000 GPU'er mulighed for at kommunikere med hinanden i stedet for Nvidias interconnect.

Af Maria

1 jul. 2024 kl. 10:44

DEL:

Alibaba Cloud-ingeniør og forsker Ennan Zhai delte sit forskningspapir via GitHub og afslørede Cloud-udbyderens design til brug i datacentre til Large Language Model (LLM) træning. PDF-dokument, med titlen "Alibaba HPN: Et Datacenter Netværk til Stor Sprogmodel Træning", beskriver hvordan Alibaba brugte Ethernet til at give dens 15.000 GPU'er mulighed for at kommunikere med hinanden.

Generel cloud computing genererer konstante, men små datastrømme med hastigheder under 10 Gbps. På den anden side producerer LLM-træning periodiske dataudbrud, der kan nå op på 400 Gbps. Ifølge papiret, "prædisponerer denne karakteristik ved LLM-træning Equal-Cost Multi-Path (ECMP), den almindeligt anvendte load-balancing-skema i traditionelle datacentre, til hash polarisering, hvilket medfører problemer som ujævn trafikfordeling."

For at undgå dette udviklede Zhai og hans team High-Performance Network (HPN), som brugte en "2-lags, dual-plane arkitektur" der mindsker antallet af mulige ECMP-forekomster, samtidig med at systemet "præcist kan vælge netværksstier i stand til at håndtere 'elephant flows'."

HPN brugte også dual top-of-rack (ToR) switches, der tillod dem at understøtte hinanden. Disse switches er den mest almindelige enkelt punktfejl for LLM-træning, hvilket kræver at GPU'er fuldfører iterationer i sync. Alibaba Cloud opdelte dens datacentre i hosts, hvor hver host er udstyret med otte GPU'er. Hver GPU har sit eget netværksinterfacekort (NIC) med to porte, og hvert GPU-NIC system kaldes et 'rail'.

Hver host har også et ekstra NIC til at forbinde til backend-netværket. Hver rail forbinder derefter til to forskellige ToR switches, således at hele hosten ikke påvirkes, selvom en switch fejler. Selvom Alibaba Cloud har valgt at droppe NVlink til inter-host kommunikation, bruger de stadig Nvidia's proprietære teknologi til det intra-host netværk, da kommunikationen mellem GPU'er inden for en host kræver mere båndbredde. Men da kommunikationen mellem rails er meget langsommere, er de "dedikerede 400 Gbps RDMA-netværks gennemstrømning, hvilket resulterer i en samlet båndbredde på 3,2 Tbps" per host, mere end nok til at maksimere båndbredden på PCIe Gen5x16 grafikkortene.

Alibaba Cloud bruger også en 51,2 Tb/sek Ethernet single-chip ToR switch, da multi-chip løsninger er mere tilbøjelige til ustabilitet, med en fire gange højere fejlrate end single-chip switches. Dog kører disse switches varme, og der findes ingen tilgængelige køleprofiler på markedet, der kan forhindre dem i at slukke på grund af overophedning. Så har virksomheden skabt sin egen løsning ved at skabe en dampkammer køleprofil med flere søjler i midten for at transportere termisk energi meget mere effektivt.

Ennan Zhai og hans team vil præsentere deres arbejde på SIGCOMM (Special Interest Group on Data Communications) konferencen i Sydney, Australien, i august. Mange virksomheder, herunder AMD, Intel, Google og Microsoft, vil være interesserede i dette projekt, primært fordi de har slået sig sammen for at skabe Ultra Accelerator Link - en åben-standard forbindelset lavet for at konkurrere med NVlink.

Dette er især sandt, da Alibaba Cloud har brugt HPN i over otte måneder, hvilket betyder at denne teknologi allerede er blevet afprøvet og testet. Men HPN har stadig nogle ulemper, den største er dets komplekse kablingsstruktur. Med hver host, der har ni NICS og hver NIC, der er forbundet til to forskellige ToR switches, er der mange muligheder for at blande hvilken jack der går til hvilken port.

Ikke desto mindre er denne teknologi formentlig mere økonomisk overkommelig end NVlink, hvilket tillader enhver institution, der opretter et datacenter, at spare en masse penge på opsætningsomkostningerne (og måske endda undgå Nvidia teknologi, især hvis det er en af de virksomheder, der er underlagt sanktioner fra USA i den igangværende chip-krig med Kina).

Seneste teknologi

01 aug

gadgets

DJI lancerer DJI Osmo 360
28 jul

gadgets

2 kommentarer

Segway Navimow i105
23 jul

smart home

7 kommentarer

Dreame Z30 Ultra
18 jul

højttalere

Logitech Logi Dock
17 jul

powerbank

Trust USB-C Genopladelig batteri pakke
14 jul

gadgets

Secretlab Magnus Pro XL
11 jul

gadgets

Køl af med Cuisinart Frost Fusion 6-i-1
17 jun

gadgets

3 kommentarer

Arctic Summair 2Go

Annonce:

Mest læste teknologi

11 feb

køling

3 kommentarer

be quiet! Silent Loop 3 360
10 dec

event

41 kommentarer

TWEAK Jule GIVEAWAY - Episode 3
02 dec

event

40 kommentarer

TWEAK Jule GIVEAWAY - Episode 2
25 nov

event

50 kommentarer

TWEAK Jule GIVEAWAY - Episode 1

Annonce:

Alibaba Cloud skifter fra Nvidia til Ethernet

Seneste teknologi

DJI lancerer DJI Osmo 360

Segway Navimow i105

Dreame Z30 Ultra

Logitech Logi Dock

Trust USB-C Genopladelig batteri pakke

Secretlab Magnus Pro XL

Køl af med Cuisinart Frost Fusion 6-i-1

Arctic Summair 2Go

Mest læste teknologi

be quiet! Silent Loop 3 360

TWEAK Jule GIVEAWAY - Episode 3

TWEAK Jule GIVEAWAY - Episode 2

TWEAK Jule GIVEAWAY - Episode 1

Anbefalet af Tweak

Vores partnere