Alibaba Cloud wechselt von Nvidia zu Ethernet

NEtworking
Übersetzen von : Alibaba Cloud skifter fra Nvidia til Ethernet
Alibaba Cloud-Ingenieur Ennan Zhai teilt seine Forschung zum Rechenzentrumsdesign für LLM-Schulungen. Hier erzählt er unter anderem, wie Alibaba statt Nvidias Interconnect Ethernet nutzte, um seinen 15.000 GPUs die Möglichkeit zu geben, miteinander zu kommunizieren.

Alibaba Cloud-Ingenieur und Forscher Ennan Zhai teilte seine Forschungsarbeit über GitHub und enthüllte das Design des Cloud-Anbieters für den Einsatz in Rechenzentren für Large Language Model (LLM)-Schulungen. Das PDF-Dokument mit dem Titel „Alibaba HPN: A Data Center Network for Large Language Model Training“ beschreibt, wie Alibaba Ethernet nutzte, um seinen 15.000 GPUs die Kommunikation untereinander zu ermöglichen.

Allgemeines Cloud Computing erzeugt konstante, aber kleine Datenströme mit Geschwindigkeiten unter 10 Gbit/s. Andererseits erzeugt das LLM-Training periodische Datenstöße, die 400 Gbit/s erreichen können. Dem Papier zufolge „führt diese Eigenschaft des LLM-Trainings dazu, dass Equal-Cost Multi-Path (ECMP), das in traditionellen Rechenzentren häufig verwendete Lastverteilungsschema, zu einer Hash-Polarisierung führt, die Probleme wie eine ungleichmäßige Verkehrsverteilung verursacht.“

Um dies zu vermeiden, entwickelten Zhai und sein Team das High-Performance Network (HPN), das eine „ zweischichtige Dual-Plane-Architektur“ verwendet, die die Anzahl möglicher ECMP-Instanzen reduziert und es dem System gleichzeitig ermöglicht , „fähige Netzwerkpfade genau auszuwählen“. um mit „Elefantenströmen“ umzugehen.“

HPN verwendete außerdem zwei Top-of-Rack-Switches (ToR), die es ihnen ermöglichten, sich gegenseitig zu unterstützen. Diese Wechsel stellen den häufigsten Einzelpunktfehler beim LLM-Training dar und erfordern, dass GPUs Iterationen synchron abschließen. Alibaba Cloud hat seine Rechenzentren in Hosts unterteilt, wobei jeder Host mit acht GPUs ausgestattet ist. Jede GPU verfügt über eine eigene Netzwerkschnittstellenkarte (NIC) mit zwei Ports, und jedes GPU-NIC-System wird als „Schiene“ bezeichnet.

Jeder Host verfügt außerdem über eine zusätzliche Netzwerkkarte für die Verbindung mit dem Backend-Netzwerk. Jede Schiene verbindet sich dann mit zwei verschiedenen ToR-Switches, sodass der gesamte Host nicht beeinträchtigt wird, selbst wenn ein Switch ausfällt. Obwohl sich Alibaba Cloud dafür entschieden hat, NVlink für die Kommunikation zwischen Hosts aufzugeben, nutzen sie weiterhin die proprietäre Technologie von Nvidia für das Intra-Host-Netzwerk, da die Kommunikation zwischen GPUs innerhalb eines Hosts mehr Bandbreite erfordert. Da die Kommunikation zwischen den Schienen jedoch viel langsamer ist, ist der „dedizierte 400-Gbit/s-RDMA-Netzwerkdurchsatz, der zu einer Gesamtbandbreite von 3,2 Tbit/s führt“ pro Host mehr als ausreichend, um die Bandbreite der PCIe Gen5x16-Grafikkarten zu maximieren.

Alibaba Cloud verwendet außerdem einen Ethernet-Single-Chip-ToR-Switch mit 51,2 Tbit/s, da Multi-Chip-Lösungen anfälliger für Instabilität sind und eine viermal höhere Ausfallrate aufweisen als Single-Chip-Switches. Allerdings laufen diese Schalter heiß und es gibt keine Kühlprofile auf dem Markt, die verhindern, dass sie aufgrund von Überhitzung abschalten. Deshalb hat das Unternehmen eine eigene Lösung entwickelt, indem es ein Dampfkammer-Kühlprofil mit mehreren Säulen in der Mitte geschaffen hat, um Wärmeenergie deutlich effizienter zu transportieren.

Ennan Zhai und sein Team werden ihre Arbeit im August auf der SIGCOMM-Konferenz (Special Interest Group on Data Communications) in Sydney, Australien, vorstellen. Viele Unternehmen, darunter AMD, Intel, Google und Microsoft, werden an diesem Projekt interessiert sein, vor allem weil sie sich zusammengeschlossen haben, um Ultra Accelerator Link zu entwickeln – einen offenen Standard-Connector, der mit NVlink konkurrieren soll.

Dies gilt insbesondere, da Alibaba Cloud HPN seit über acht Monaten nutzt und diese Technologie somit bereits erprobt ist. Dennoch weist HPN einige Nachteile auf, der größte davon ist die komplexe Verkabelungsstruktur. Da jeder Host über neun NICS verfügt und jede NIC mit zwei verschiedenen ToR-Switches verbunden ist, gibt es viele Möglichkeiten, zu verwechseln, welche Buchse zu welchem Port gehört.

Dennoch ist diese Technologie wahrscheinlich günstiger als NVlink, sodass jede Institution, die ein Rechenzentrum einrichtet, eine Menge Geld bei den Einrichtungskosten sparen kann (und vielleicht sogar die Nvidia-Technologie vermeiden kann, insbesondere wenn es sich um eines der Unternehmen handelt, die von den USA sanktioniert werden). im anhaltenden Chipkrieg mit China).

Our Partners