Der Mistral-NeMo-Minitron 8B ist eine „miniaturisierte Version“ des neuen und hochpräzisen KI-Modells Mistral NeMo 12B. Es ist auf GPU-beschleunigte Rechenzentren, die Cloud und High-End-Workstations mit NVIDIA RTX-Hardware zugeschnitten.
Bei der Skalierung von KI-Modellen wird häufig die Präzision geopfert, um die Leistung sicherzustellen. Aber Mistral AI und NVIDIAs neues „Mistral-NeMo-Minitron 8B“ liefern das Beste aus beiden Welten. Es ist klein genug, um in Echtzeit auf einer Workstation oder einem Desktop-Computer mit einer High-End-Grafikkarte der GeForce RTX 40-Serie ausgeführt zu werden.
NVIDIA betont, dass die 8B- oder 8-Milliarden-Variante in Benchmark-Tests für KI-Chatbots, virtuelle Assistenten, Content-Produktion und Bildungstools glänzt. Mistral-NeMo-Minitron 8B ist als NVIDIA NIM-Microservice verfügbar und verpackt (herunterladbar über Hugging Face). Derzeit übertrifft es Llama 3.1 8B und Gemma 7B in Bezug auf die Genauigkeit in mindestens neun beliebten Benchmark-Tests für KI-Sprachmodelle.
„Wir haben zwei verschiedene KI-Optimierungsmethoden kombiniert – Pruning, um die 12 Milliarden Parameter von Mistral NeMo auf 8 Milliarden zu reduzieren, und Destillation, um die Präzision zu verbessern“, sagte Bryan Catanzaro, Vizepräsident für angewandtes Deep Learning bei NVIDIA. „Damit liefert Mistral-NeMo-Minitron 8B eine vergleichbare Präzision wie das Originalmodell, jedoch bei geringerem Rechenaufwand.“
Beim „Beschneiden“ und „Destillieren“ für das KI-Training wird das neuronale Netzwerk verkleinert, indem Komponenten entfernt werden, die „am wenigsten zur Präzision beitragen“, und dann das beschnittene Modell durch Destillation neu trainiert werden.
NVIDIA hat bestätigt, dass es auch eine noch „kleinere“ Version namens Nemotoron-Mini-4B-Instruct gibt, die für wenig Speicher und schnellere Reaktionszeiten auf NVIDIA GeForce RTX AI-PCs und -Laptops optimiert ist. Weitere Informationen zum Mistral-NeMo-Minitron 8B finden Sie im technischen Blog von NVIDIA.