BittWare GroqCard™-Beschleuniger

Der GroqCard™ -Beschleuniger von BittWare ist ein ML-Beschleuniger mit doppelter Breite, der für eine einfache Integration ausgelegt ist. Die GroqWare™ Suite implementiert einen softwaredefinierten Hardware-Ansatz, der einfache Bereitstellungspfade für PyTorch-, TensorFLOW- und ONNX-trainierte Deep-Learning-Modelle ermöglicht. Der BittWare GroqCard-Beschleuniger verfügt über eine Skalierbarkeit mit neun RealScale™ Chip-zu-Chip-Verbindungen, die den Einsatz mehrerer Karten so effizient wie einer Karte gewährleisten. Darüber hinaus liefert ein internes softwaredefiniertes Netzwerk eine vorhersehbare, wiederholbare Leistung ohne laufende Variationen. Die GroqCard wurde für den Einsatz mit dem SMC AS-4124GS-TNR und Dell R750xa qualifiziert. Der HPE DL385 Gen 10 Plus wurde getestet, aber die vollständige Server-Interop-Übung wurde nicht abgeschlossen. Darüber hinaus hat Liquid die GroqCard im Gehäuse mit bis zu 16 GroqCards qualifiziert. Die Verwendung der GroqCard in anderen Servermodellen geschieht auf Risiko des Benutzers.

GroqGuard™-Prozessor

Der vollständig deterministische GroqChip-Prozessor ist der Kern der skalierbaren Leistung. Der GroqChip ist von Grund auf zur Beschleunigung von KI-, ML und HPC-Workloads ausgelegt und reduziert die Datenbewegungen für eine vorhersehbare Leistung mit niedriger Latenz und ohne Engpässe. Dieser eigenständige Chip ermöglicht eine flexible Integration in rechenintensive Applikationen. Die Architektur ist viel einfacher als eine GPU und ist mit einem Software-First-Fokus entwickelt, was die Programmierung vereinfacht und eine vorhersehbare Leistung mit geringerer Latenz bietet.

GroqWare™ Suite

Die GroqWare Suite ist ein umfassender und vielseitiger Software-Stack, der zur Beschleunigung einer Vielzahl von HPC- und ML-Workloads ausgelegt ist. Die Suite besteht aus Groq™ Compiler, Groq API und Dienstprogrammen und vereinfacht die Implementierung mit einem Open-Source-Treiber/Laufzeitsystem und Unterstützung für branchenübliche KI-/ML-Frameworks. Die GroqFlow™ Toolkette (in der GroqWare Suite enthalten) ermöglicht einer einzelnen Reihe von PyTorch- oder TensorFlow-Code, bestehende Modelle über eine vollständig automatisierte Toolkette zu importieren und zu transformieren, um auf der Groq-Hardware ausgeführt zu werden.

Merkmale

  • Vollständig deterministischer Prozessor – Vorhersehbare und wiederholbare Leistung ohne Laufabweichung
  • Durchgehender On-Chip-Schutz – Verbessert die Betriebszeit und Zuverlässigkeit mit Fehlerkorrekturcode-Schutz (ECC) über den gesamten GroqChip™-Datenpfad
  • 230 MB On-Chip-Speicher – Großer, global teilbarer SRAM für den Zugriff auf Modellparameter mit hoher Bandbreite und niedriger Latenz ohne externen Speicher
  • 9 RealScale Chip-zu-Chip-Steckverbinder – Nahezu lineare Multi-Server- und Multi-Rack-Skalierbarkeit ohne externe Schalter
  • Bis zu 80 TBS On-Chip-Speicherbandbreite – Massive Parallelität und Datenparallelität für bandbreitenempfindliche Applikationen
  • PCIe Gen4 x16 Schnittstelle – Bis zu 31,5 GB/s bidirektionale Bandbreite in einer Industriestandard-Schnittstelle für schnelle Geräte- und Netzwerkverbindungen

Applikationen

  • Finanzbranche
  • Wissenschaft und Regierung
  • Generative KI
  • Industrieapplikationen
  • Öl und Gas

Technische Daten

  • PCI Express Gen4 x16 adapter-Formfaktor mit doppelter Breite, voller Höhe, 3/4 Länge
  • Leistung von bis zu 750 TOPs, 188 TFLOPs (INT8, FP16 bei 900 MHz)
  • Speicher
    • 230 MB SRAM pro Chip
    • Bis zu 80 TB/s On-Chip-Speicherbandbreite
  • Chip-Skalierung bis zu 9x RealScale Chip-to-Chip-Steckverbinder
  •  Numerics
    • INT8-, INT16-, INT32- und TruePoint™-Technologie
    • MXM: FP32
    • VXM: FP16, FP32
  • Verlust-
    • Max.: 375 W
    • TDP: 275 W
    • Typisch: 240 W

Videos

GroqChip Übersicht

Blockdiagramm - BittWare GroqCard™-Beschleuniger
Veröffentlichungsdatum: 2023-11-09 | Aktualisiert: 2024-11-25