Für die lokale Ausführung großer Sprachmodelle (LLMs) sind leistungsstarke GPUs erforderlich. Unabhängig davon, ob Sie Llama 4, Mistral Large oder DeepSeek R1 ausführen möchten, benötigen Sie Zugriff auf GPUs mit ausreichend VRAM. Glücklicherweise gibt es viele Cloud-Anbieter, die On-Demand-GPU-Server zu angemessenen Preisen anbieten – von 0,10 $/Std. für eine RTX 3090 bis zu 2+ $/Std. für die neueste H100.
Für Anfänger empfehlen wir RunPod oder Vast.ai. RunPod bietet eine einfache Schnittstelle, Docker-Container und eine serverlose GPU. Vast.ai ist ein Marktplatz, auf dem Sie dank seines Peer-to-Peer-Modells die niedrigsten Preise finden. Beide unterstützen beliebte Frameworks wie vLLM, Text-Generierung-Inferenz oder Ollama.
Für den Produktionseinsatz von KI-Agenten eignen sich Lambda Cloud oder CoreWeave. Lambda bietet dedizierte A100- und H100-Instanzen, die für Deep Learning optimiert sind. CoreWeave richtet sich mit garantierter Verfügbarkeit und SLA an Unternehmenskunden. Beide Anbieter verfügen über eine direkte Integration mit PyTorch und anderen ML-Frameworks.
Wenn Sie auf der Suche nach dem besten Preis-Leistungs-Verhältnis sind, sollten Sie Tensordock oder Salad Cloud in Betracht ziehen. Tensordock bietet GPU-Server ab 0,10 $/Std. an, Salad Cloud nutzt ein verteiltes Netzwerk und erzielt noch günstigere Preise. Für anspruchsvolle Unternehmensanwendungen gibt es dedizierte Server von Latitude.sh mit vollem Bare-Metal-Zugriff.
Die Wahl der richtigen GPU ist der Schlüssel. Für Modelle mit bis zu 13B-Parametern ist eine RTX 4090 (24 GB VRAM) ausreichend. Für 70B-Modelle benötigen Sie einen A100 (80 GB) oder mehrere GPUs. Für das Training individueller Modelle eignen sich H100 oder das neue GB200 ideal. Eine vollständige Übersicht der Anbieter finden Sie auf unserer Seite „GPU-Server für KI“.