Der GPU-Krieg gegen KI verschärft sich: AMD vs. NVIDIA

GPU AI krig
Übersetzen von : GPU Krigen Intensiveres på AI: AMD vs. NVIDIA
Auf dem KI-Markt steckt viel Geld und das wissen sowohl AMD als auch Nvidia. Dies ist vielleicht der Grund, warum sie in letzter Zeit in diesem speziellen Bereich hart gegeneinander vorgegangen sind.

Der Kampf um einen Platz auf dem Markt für KI-Chips ist Spider-Man und in jüngster Zeit haben sowohl Nvidia als auch AMD in Bezug auf ihre neuesten KI-gesteuerten GPU-Schiffe nacheinander gekämpft.

Zuletzt wurde der Kampf beim Advancing AI-Event von AMD ausgetragen, wo das Unternehmen sein neuestes Kraftpaket, den MI300X, vorstellte. Lisa Su, CEO von AMD, und ihr Team präsentierten den MI300X, indem sie NVIDIAs H100 herausforderten. Sie behaupteten, dass ein einzelner AMD-Server mit acht MI300X-Einheiten die Geschwindigkeit eines H100-Servers um das 1,6-fache übertraf, was die Überlegenheit ihres neuesten Produkts demonstrierte.

MI300X

Allerdings akzeptierte NVIDIA die Leistungsmessungen von AMD nicht und widersprach ihnen schnell. In einem Blogbeitrag argumentierte NVIDIA, dass ihre H100-GPU bei ordnungsgemäßem Benchmarking mit optimierter Software die MI300X von AMD deutlich übertraf. Sie behaupteten, AMD habe in ihrem Vergleich die von NVIDIAs TensorRT-LLM gebotenen Optimierungen ignoriert.

eingefügtes Bild 0.png

NVIDIA ließ einen einzelnen H100 mit dem Chat-Modell Llama 2 70B gegen acht H100-GPUs antreten. Die Ergebnisse, die mit Software ermittelt wurden, die der AMD-Präsentation vorausging, zeigten, dass der H100 bei einer Chargengröße von 1 doppelt so schnell war. Darüber hinaus behauptete NVIDIA unter Verwendung der AMD-Standardlatenz von 2,5 Sekunden, der klare Gewinner zu sein und den MI300X mit beeindruckenden 14 zu übertreffen mal.

hopper-h100-grace-hopper.jpg

AMD scheute jedoch nicht vor der Herausforderung von NVIDIA zurück. Sie antworteten mit neuen MI300X-Benchmark-Ergebnissen, die eine Leistungsverbesserung von 30 % gegenüber dem H100 zeigen, selbst bei perfekt abgestimmter Software. Bei dem Versuch, die Testbedingungen von NVIDIA mit TensorRT-LLM zu reproduzieren, berücksichtigte AMD strategisch die Latenz, eine häufige Variable bei Server-Workloads.

Sie hoben die Vorteile der Verwendung von vLLM mit FP16 gegenüber dem FP8 von TensorRT-LLM hervor, ein Vorteil, der ausschließlich AMD zur Verfügung steht. AMD warf NVIDIA außerdem vor, auf dem H100 für Benchmarks ihr proprietäres TensorRT-LLM anstelle des häufig verwendeten vLLM zu verwenden. Sie wiesen auch auf die Inkonsistenz bei der Datentypverwendung hin, da NVIDIA vLLM FP16 auf AMD verwendete und es mit dem TensorRT-LLM des DGX-H100 mit FP8-Datentyp verglich.

ocGERk5ybqFhgHFv6ic6Pc-1200-80.webp

AMD verteidigte seine Wahl von vLLM mit FP16 und plädierte für dessen breiten Einsatz, im Gegensatz zu vLLM, das FP8 nicht unterstützt. AMD stellte auch NVIDIAs Fokus auf die Durchsatzleistung in Frage und kritisierte das Unternehmen dafür, dass es Latenzprobleme in realen Serverumgebungen ignorierte. Um die Testmethodik von NVIDIA zu testen, führte AMD drei Leistungsläufe mit NVIDIAs TensorRT-LLM durch. Beim letzten Lauf wurde speziell die Latenz zwischen MI300X und vLLM mithilfe des FP16-Datensatzes im Vergleich zu H100 mit TensorRT-LLM gemessen.

Die Ergebnisse zeigten eine verbesserte Leistung und eine geringere Latenz, und weitere Optimierungen führten zu einer 2,1-fachen Leistungssteigerung im Vergleich zu H100, wenn vLLM auf beiden Plattformen ausgeführt wurde. Diese anhaltende Rivalität zwischen NVIDIA und AMD besteht schon seit langem, aber dies ist das erste Mal, dass NVIDIA die Leistung ihrer Produkte direkt mit der von AMD vergleicht, was auf eine Verschärfung des Wettbewerbs im Technologiesektor hindeutet.

960x0.webp

Mit diesen Behauptungen und Gegenklagen liegt nun die Aufmerksamkeit darauf, dass NVIDIA auf die Behauptungen von AMD reagiert. Sie müssen die möglichen Konsequenzen eines Verzichts auf FP16 zugunsten des geschlossenen Systems von TensorRT-LLM mit FP8 berücksichtigen. Gleichzeitig müssen sie sich auch anderer Wettbewerber wie Intel und Cerebras bewusst sein, die immer kompetenter in der Entwicklung von GPUs werden. Der Technologiemarkt ist nicht nur ein Zwei-Spieler-Rennen zwischen NVIDIA und AMD. Auch andere Unternehmen wie Cerebras Systems und Intel wollen ihre Spuren hinterlassen. Pat Gelsinger, CEO von Intel, neckte kürzlich Gaudi3

Quelle: Analyticsindiamag.com


Our Partners