Mistral-NeMo-Minitron 8B er en "miniaturiseret version" af den nye og yderst præcise Mistral NeMo 12B AI-model. Den er skræddersyet til GPU-accelererede datacentre, clouden og high-end arbejdsstationer med NVIDIA RTX hardware.
Når man skal skalere AI-modeller, bliver præcisionen ofte ofret for at sikre ydeevnen. Men Mistral AI og NVIDIAs nye "Mistral-NeMo-Minitron 8B" leverer det bedste fra begge verdener. Den er lille nok til at køre i realtid på en arbejdsstation eller en desktop-computer med et high-end GeForce RTX 40 Series grafikkort.
NVIDIA fremhæver, at den 8B eller 8 milliarder variant excellerer i benchmarktests for AI-chatbots, virtuelle assistenter, indholdsproduktion og uddannelsesværktøjer. Mistral-NeMo-Minitron 8B er tilgængelig og pakket som en NVIDIA NIM mikrotjeneste (kan downloades via Hugging Face). Den overgår i øjeblikket Llama 3.1 8B og Gemma 7B inden for præcision i mindst ni populære benchmarktests for AI-sprogmodeller.
"Vi kombinerede to forskellige AI-optimeringsmetoder - beskæring for at formindske Mistral NeMos 12 milliarder parametre til 8 milliarder, og destillation for at forbedre præcisionen," sagde Bryan Catanzaro, vicepræsident for anvendt dyb læring hos NVIDIA. "På den måde leverer Mistral-NeMo-Minitron 8B en sammenlignelig præcision som den originale model, men til lavere beregningsomkostninger."
"Pruning" og "distillation" for AI-træning indebærer at formindske det neurale netværk ved at fjerne komponenter, der "bidrager mindst til præcisionen", og derefter re-træne det beskårne model via destillation.
NVIDIA har bekræftet, at de også har en endnu "mindre" version kaldet Nemotron-Mini-4B-Instruct, der er optimeret til lav hukommelse og hurtigere svartider på NVIDIA GeForce RTX AI-computere og bærbare computere. For mere information om Mistral-NeMo-Minitron 8B, kan du besøge NVIDIA's tekniske blog.