WEKA: WEKA maximiert die Token -Produktion bei geringeren Kosten pro Token auf NVIDIA BlueField-4 STX

WEKA

/ Schlagwort(e): Sonstiges/Produkteinführung

WEKA maximiert die Token -Produktion bei geringeren Kosten pro Token auf NVIDIA BlueField-4 STX

16.03.2026 / 21:35 CET/CEST

Für den Inhalt der Mitteilung ist der Emittent / Herausgeber verantwortlich.


Die Integration von NeuralMesh und Augmented Memory Grid in NVIDIA STX steigert die Token-Produktion um das 6,5-Fache bei gleicher GPU-Kapazität und senkt die Kosten für Inferenzberechnungen in KI-gesteuerten Unternehmen drastisch

SAN JOSE, Kalifornien und CAMPBELL, Kalifornien, 16. März 2026 /PRNewswire/ — Von der GTC 2026: WEKA, auf KI-Speicher- und Speichersysteme spezialisierte Unternehmen gab heute die Integration seiner NeuralMesh™-Software in die NVIDIA STX-Referenzarchitektur bekannt. Die bahnbrechende Speichererweiterungstechnologie Augmented Memory Grid™ von WEKA, die auf NeuralMesh läuft, wird NVIDIA STX unterstützen, um kontextbezogenen Speicher mit hohem Durchsatz für agentenbasierte KI-Fabriken bereitzustellen und so das Schlussfolgern mit langem Kontext über Sitzungen, Tools und Aufgaben hinweg nahtlos zu ermöglichen. Durch den Einsatz von NVIDIA Vera Rubin NVL72, NVIDIA BlueField-4und NVIDIA Spectrum-X Ethernet wird die auf NVIDIA STX basierende NeuralMesh-Lösung eine geschätzte Steigerung der Token-Rate pro Sekunde für den Kontextspeicher um das 4- bis 10-fache erzielen und gleichzeitig einen Lese- und Schreibdurchsatz von mindestens 320 GB bzw. 150 GB pro Sekunde für KI-Workloads unterstützen – mehr als doppelt so viel wie bei herkömmlichen KI-Speicherplattformen.

WEKA and NVIDIA unlock cost-efficient AI inference at scale

Lösung des Poblems der Inferenzkosten durch eine gemeinsame KV-Cache-Infrastruktur
Die Skalierung agentischer Systeme, insbesondere für Anwendungen im Bereich der Softwareentwicklung, macht eine harte Realität deutlich: Die Wirtschaftlichkeit heutiger KI-Systeme entscheidet sich auf der Ebene der Speicherinfrastruktur. Jede groß angelegte Inferenzflotte stößt an die Speichergrenze: Der begrenzte High-Bandwidth-Memory (HBM) auf der GPU ist schnell erschöpft, der Key-Value (KV)-Cache wird geleert, der Kontext geht verloren und das System ist gezwungen, bereits abgeschlossene Arbeit zu wiederholen. Diese architektonische Ineffizienz lässt die Inferenzkosten in die Höhe schnellen.  Die Lösung ist eine gemeinsame KV-Cache-Infrastruktur, die den Kontext über Agenten, Benutzer und Sitzungen hinweg aufrechterhält.truktur entschieden. Sie eliminiert redundante Berechnungen, sichert den Token-Durchsatz und gewährleistet eine vorhersehbare Leistung. Ohne eine gemeinsame KV-Cache-Infrastruktur wird jede Zunahme an gleichzeitigen Benutzern und Agenten zu einer Belastung – die Kosten steigen, die Benutzererfahrung verschlechtert sich, und der Betrieb der Inferenzflotte wird umso schwieriger, je größer sie wird. Mit STX für den Kontext-Speicher stellt NVIDIA einen Entwurf vor, um diese zentralen Inferenz-Engpässe zu beheben.

Speicherung im Kontext-Speicher: Die Grundlage für agentenbasierte KI-Fabriken
Mit gemeinsam entwickelten WEKA-Lösungen auf Basis der NVIDIA STX-Architektur können KI-Clouds, Unternehmen und Entwickler von KI-Modellen die Infrastruktur bereitstellen, die sie benötigen, um GPUs mit maximaler Produktivität zu betreiben, eine hohe Token-Produktionsrate aufrechtzuerhalten und groß angelegte Inferenz energie- und kosteneffizienter zu gestalten.

Führende KI-Innovatoren und Cloud-Anbieter wie Firmustransformieren bereits ihre Inferenz-Ökonomie mit Augmented Memory Grid auf NeuralMesh.

„KI in der realen Welt läuft nicht im Labor – sie unterliegt Leistungsbeschränkungen, Kühlungsgrenzen und einer unerbittlichen Arbeitslast. Firmus ist für genau das ausgelegt. In Kombination mit der NVIDIA-KI-Infrastruktur liefert das WEKA Augmented Memory Grid bis zu 6,5-mal mehr Token pro Sekunde und eine 4-mal schnellere TTFT im großen Maßstab, was beweist, dass wir mit dem gleichen GPU-Platzbedarf mehr Leistung erzielen können. Mit NeuralMesh und Augmented Memory Grid, integriert in unsere NVIDIA-konforme AI Factory und die NVIDIA STX-Referenzarchitektur, werden wir in der Lage sein, das schnellste Kontext-Speichernetzwerk für vorhersehbare und effiziente Inferenz im großen Maßstab bereitzustellen“, sagte Daniel Kearney, Chief Technology Officer bei  Firmus.

NeuralMesh und NVIDIA STX: Speziell für agentenbasierte KI entwickelt:
NeuralMesh ist das intelligente, adaptive Speichersystem von WEKA, das auf über 170 Patenten basiert. Es wird auf der Full-Stack-STX-Referenzarchitektur laufen und die Speicherlösung der nächsten Generation bereitstellen, die Unternehmen benötigen, um hochleistungsfähige KI-Datendienste zu standardisieren und die Ergebnisse agentischer KI zu beschleunigen. Das Augmented Memory Grid von WEKA ist eine speziell entwickelte Speichererweiterungsschicht, die den KV-Cache außerhalb des GPU-Speichers bündelt und dort dauerhaft speichert, wodurch lang andauernde Sitzungen stabil bleiben und die Parallelität hoch bleibt, auch wenn die Inferenz-Workloads zunehmen. Das Augmented Memory Grid, das erstmals auf der GTC 2025 vorgestellt wurde und heute für NeuralMesh-Kunden allgemein verfügbar ist, wurde gemeinsam mit Supermicro auf NVIDIA Grace- CPUs und BlueField-3-DPUs validiert und bietet zahlreiche Vorteile, die die Wirtschaftlichkeit von KI verbessern, darunter:

  • Schnellere Benutzererfahrungen: Das Augmented Memory Grid auf NeuralMesh sorgt für eine 4- bis 20-fache Verbesserung der „Time-to-First-Token“-Zeit und hält KI-Agenten und -Anwendungen unter realer Last reaktionsfähig.
  • Mehr Umsatz mit derselben Hardware: 6,5-mal mehr Token pro GPU bereitstellen – ohne zusätzliche Infrastruktur.
  • Nachhaltige Leistung bei Skalierung: Augmented Memory Grid sorgt für hohe KV-Cache-Trefferraten, selbst wenn Sessions, Agenten und Kontextfenster wachsen – und verhindert so den Leistungsabfall, der bei reinen DRAM-Architekturen auftritt.
  • GPU-native Effizienz: Die BlueField-4-Integration entlastet die CPU vom Speicherdatenpfad, hält die GPUs voll produktiv und beseitigt I/O-Engpässe.

„Mit den Fortschritten bei den Coding-LLMs erleben wir eine beispiellose Verbreitung von Anwendungsfällen für Agentic AI im Software-Engineering, wo die Produktivität um das 100- bis 1000-Fache steigt. Da Coding-Assistenten wiederholt Aufrufe an weitgehend unveränderte Codebasen und Prompts senden, nutzt das Augmented Memory Grid von WEKA zwischengespeicherten Kontext wieder, anstatt redundantes Vorfüllen zu erzwingen – selbst wenn Kontextfenster auf unglaubliche Längen anwachsen. Dies sorgt für eine deutliche Verkürzung der Reaktionszeiten und erhöht die Anzahl der gleichzeitigen Nutzer, die auf derselben Infrastruktur laufen, erheblich“, sagte Liran Zvibel, Mitbegründer und CEO von WEKA. „WEKA hat diesen Bedarf an Kontextspeicher bereits vor über einem Jahr erkannt und Augmented Memory Grid auf der GTC 2025 vorgestellt. Nun eröffnet NVIDIA STX Unternehmen die Möglichkeit, ihre Speicher- und Speichererweiterungsinfrastruktur auf der hochmodernen NVIDIA Vera Rubin-Architektur zu betreiben, einschließlich NVIDIA BlueField-4 und NVIDIA Spectrum-X Ethernet. Der Einsatz von Augmented Memory Grid auf NeuralMesh für NVIDIA STX liefert extreme Leistung und Effizienz, was sich direkt in einer bahnbrechenden Wirtschaftlichkeit der KI niederschlägt.“

Verfügbarkeit

Das Augmented Memory Grid von WEKA ist ab heute mit NeuralMesh kommerziell verfügbar.

Für Unternehmen, die sich heute nicht mit der Speicherproblematik befassen, wird es morgen schwerer und teurer sein, ihre Kapazitäten zu erweitern. Mit zunehmendem Arbeitsaufkommen und immer größeren Kontextfenstern sehen sich reine DRAM-Architekturen mit einem sich verschärfenden Kostenproblem konfrontiert: Jeder zusätzliche gleichzeitige Nutzer oder jede zusätzliche Sitzung erhöht den Aufwand für Neuberechnungen, die Leerlaufzeit der GPU und die Betriebskosten. Unternehmen, die bereits jetzt auf einen persistenten KV-Cache setzen, werden einen strukturellen Kosten- und Leistungsvorteil gegenüber denen haben, die damit warten.

Weitere Informationen über NeuralMesh finden Sie im Internet: weka.io/NeuralMesh.
Weitere Informationen über Augmented Memory Grid finden Sie im Internet: weka.io/augmented-memory-grid.

Unternehmen können mehr erfahren unter weka.io/nvidia oder WEKA auf der GTC 2026 am Stand Nr. 1034 besuchen.

Informationen zu WEKA
WEKA verändert die Art und Weise, wie Unternehmen KI-Workflows erstellen, ausführen und skalieren, mit NeuralMesh™ by WEKA®, seinem intelligenten, adaptiven Mesh-Speichersystem. Im Gegensatz zu herkömmlichen Dateninfrastrukturen, die mit zunehmender Arbeitslast langsamer und anfälliger werden, wird NeuralMesh bei Skalierung immer schneller, leistungsfähiger und effizienter. Es passt sich dynamisch an KI-Umgebungen an und bietet so eine flexible Grundlage für Innovationen im Bereich der Unternehmens-KI und der agentenbasierten KI. NeuralMesh genießt das Vertrauen von 30 % der Fortune-50-Unternehmen und unterstützt führende Unternehmen, KI-Cloud-Anbieter und KI-Entwickler dabei, GPUs zu optimieren, KI schneller zu skalieren und Innovationskosten zu senken. Erfahren Sie mehr unter www.weka.io oder verbinden Sie sich mit uns auf LinkedIn und X.

WEKA und das W-Logo sind eingetragene Marken von WekaIO, Inc. Andere hier genannte Markennamen können Marken der jeweiligen Eigentümer sein.

WEKA: The Foundation for Enterprise AI

Foto – https://mma.prnewswire.com/media/2934399/WEKA_and_NVIDIA.jpg
Logo – https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo_new.jpg

 

Cision View original content:https://www.prnewswire.com/de/pressemitteilungen/weka-maximiert-die-token–produktion-bei-geringeren-kosten-pro-token-auf-nvidia-bluefield-4-stx-302714741.html

rt.gif?NewsItemId=GE10377&Transmission_Id=202603161630PR_NEWS_EURO_ND__GE10377&DateId=20260316


16.03.2026 CET/CEST Veröffentlichung einer Corporate News/Finanznachricht, übermittelt durch EQS News – ein Service der EQS Group.
Für den Inhalt der Mitteilung ist der Emittent / Herausgeber verantwortlich.

Die EQS Distributionsservices umfassen gesetzliche Meldepflichten, Corporate News/Finanznachrichten und Pressemitteilungen.


2292282  16.03.2026 CET/CEST

Eine Speicherung der Nachrichten in Datenbanken sowie jegliche Weiterleitung der Nachrichten an Dritte im Rahmen gewerblicher Nutzung oder zur gewerblichen Nutzung sind nur nach schriftlicher Genehmigung durch die EQS Group GmbH gestattet.
Originalversion auf eqs-news.com ansehen.

Skyscraper Anzeige

AnlegerPlus