KI-Inferencing: US-deutsches Start-up will Nvidia ausstechen

vor 1 Stunde 1

Das 2017 unter dem Namen Recogni gegründete Unternehmen Tensordyne meldet den sogenannten Tape-Out seines KI-Beschleunigers „Napier“. Der Name verweist auf John Napier, der als Erfinder des Logarithmierens als Rechenhilfe gilt. Der Napier-Chip soll dank logarithmischer Mathematik die zahlreichen Multiplikationen, die bei der Anwendung von KI-Modellen nötig sind, in Additionen verwandeln.

Weil sich Additionen effizienter berechnen lassen, verspricht Tensordyne wesentlich höhere Rechenleistung pro Rack als bei KI-Servern mit der noch aktuellen Nvidia-Technik GB300. Je nach KI-Modell soll ein Napier-Rack bis zu 13-mal so viele Tokens pro Sekunde liefern wie ein Nvidia GB300 NVL72.

Die Effizienz, gerechnet in Tokens pro Sekunde pro Watt, soll sogar bis zum Faktor 17 besser sein.

Nach Angaben des Unternehmens liegen bereits Bestellungen für Napier-Systeme im Gesamtwert von mehr als 200 Millionen US-Dollar vor. Wann genau die ersten TDN72-Pods ausgeliefert werden sollen, verrät Tensordyne bisher jedoch nicht.

Bis Ende 2026 will Nvidia allerdings das gezielt für Inferencing optimierte System Groq 3 LPX auf den Markt bringen. Das einst ebenfalls für Inferencing angekündigte Rubin CPX ist damit wohl vom Tisch.

Durch die logarithmische Rechenweise können die eigentlichen Rechenwerke des Napier kleiner ausfallen, sodass mehr davon auf den Chip passen und Platz für schnelles SRAM bleibt. Jeder Chip ist mit 144 GByte HBM3E-RAM gekoppelt. Außerdem baut Teledyne einen besonders schnellen Interconnect ein.

Ein TDN72 Pod besteht aus vier eng vernetzten Rack-Einschüben mit je neun Napier-Chips. Ein Tensordyne Napier Rack (TDN Rack) wiederum besteht aus vier TDN72-Pods, also 288 Napier-Chips.

Der Aufbau des Tensordyne Rack aus vier TDN72-Pods mit je 72 „Napier“-Prozessoren.

(Bild: Tensordyne)

Das TDN Rack leistet 608 PFlops, hat 42 TByte HBM3E, 78 GByte SRAM und 256 TByte RAM. Es nimmt unter Volllast 120 Kilowatt Leistung auf und kommt mit Luftkühlung aus. Der Interconnect im Rack überträgt bis zu 275 TByte/s.

Der Napier-Chip soll unter anderem die Datenformate FP16, FP8, FP4 und Int8 verarbeiten. Er eignet sich laut Tensordyne für gängige KI-Modelle wie Kimi K2.6, DeepSeek-R1/V4 Pro, Llama3.1 405B, Mixtral 8x22B, GPT-OSS-120B und Qwen 80B.

Zum Vergleich: Nvidia will in ein Groq-3-LPX-Rack insgesamt 256 Groq-3-LPUs einbauen, jede mit 500 MByte SRAM. Das ergibt pro Rack 128 GByte SRAM, dazu kommen 12 TByte DDR5-RAM.

Der Hauptsitz von Tensordyne liegt im Silicon Valley, eine Niederlassung besteht in München. Mehrere leitende Entwickler waren früher bei der Firma Juniper Networks tätig, die heute zu HPE gehört.

Bei der Entwicklung des Napier kooperierte Tensordyne mit Broadcom. Broadcom entwickelt auch KI-Chips für andere Firmen, beispielsweise mehrere Generationen der TPUs von Google.

(ciw)

Gesamten Artikel lesen