KI-Inferenz erhält Leistungsschub durch NVIDIA TensorRT

16.11.2023

KI-Inferenz erhält Leistungsschub durch NVIDIA TensorRT

KI-Modelle wie große Sprachmodelle (LLMs) werden immer leistungsfähiger. Doch ihre Bereitstellung war bisher aufwendig und teuer. NVIDIA ändert das jetzt mit einem Update für TensorRT-LLM.

TensorRT-LLM optimiert LLMs für den Einsatz

TensorRT-LLM ist eine Open-Source-Bibliothek von NVIDIA, die die Inferenzleistung von LLMs auf NVIDIA-Hardware beschleunigt und optimiert. Mit dem neuen Update 0.6.0 kommt Unterstützung für weitere LLMs wie Mistral 7B und Nemotron-3 8B hinzu. Und dank Verbesserungen an DirectML läuft die Inferenz jetzt bis zu 5x schneller.

LLM-APIs wie ChatGPT jetzt lokal nutzbar

Ein Wrapper für die OpenAI Chat API ermöglicht es jetzt, Anfragen an LLMs lokal auf dem Rechner auszuführen. Das erhöht die Privatsphäre und vermeidet Latenzzeiten durch Cloud-Kommunikation. Lokale Datenbestände können die Genauigkeit durch Retrieval-Augmented Generation verbessern.

Jetzt auf über 100 Millionen PCs nutzbar

Durch die Unterstützung aller GeForce RTX GPUs ab 8 GB VRAM kann TensorRT-LLM jetzt auf über 100 Millionen Windows-Rechnern genutzt werden. KI-Entwicklung und -Inferenz wird damit erschwinglich und skalierbar. Die Zusammenarbeit zwischen NVIDIA und Microsoft macht diese große Verfügbarkeit möglich.

Mit TensorRT-LLM steht KI-Entwicklern und Anwendern eine leistungsstarke Inferenz-Engine zur Verfügung. Lokale und private Nutzung von LLMs wird einfacher und schneller. Das Update ebnet den Weg für neue KI-Anwendungsfälle im Mittelstand.