A nagy nyelvi modellek (LLM) helyi futtatásához erős GPU-kra van szükség. Akár a Llama 4-et, akár a Mistral Large-ot, akár a DeepSeek R1-et szeretné futtatni, elegendő VRAM-mal rendelkező GPU-khoz kell hozzáférnie. Szerencsére sok felhőszolgáltató kínál igény szerinti GPU-szervereket elfogadható áron – egy RTX 3090 esetén 0,10 USD/óra és a legújabb H100 esetében 2+ USD/óra.
Kezdőknek a RunPodot vagy a Vast.ai-t ajánljuk. A RunPod egyszerű felületet, Docker-tárolókat és szerver nélküli GPU-t kínál. A Vast.ai egy olyan piactér, ahol a legalacsonyabb árakat találja a peer-to-peer modelljének köszönhetően. Mindkettő támogatja az olyan népszerű keretrendszereket, mint a vLLM, a text-generation-inference vagy az Ollama.
Az AI-ügynökök gyártási célú telepítéséhez a Lambda Cloud vagy a CoreWeave alkalmas. A Lambda dedikált A100 és H100 példányokat kínál mély tanulásra optimalizálva. A CoreWeave a vállalati ügyfeleket célozza meg garantált elérhetőséggel és SLA-val. Mindkét szolgáltató közvetlen integrációval rendelkezik a PyTorch és más ML keretrendszerekkel.
Ha a legjobb ár-teljesítmény arányt keresi, fontolja meg a Tensordockot vagy a Salad Cloudot. A Tensordock GPU-szervereket kínál 0,10 USD/óra ártól, a Salad Cloud elosztott hálózatot használ, és még alacsonyabb árakat ér el. Az igényes vállalati alkalmazásokhoz a Latitude.sh dedikált szerverei teljes fém hozzáféréssel rendelkeznek.
A megfelelő GPU kiválasztása kulcsfontosságú. A 13B paraméterig terjedő modellekhez egy RTX 4090 (24 GB VRAM) elegendő. A 70B modellekhez A100 (80 GB) vagy több GPU szükséges. Az egyedi modellek képzéséhez a H100 vagy az új GB200 ideális. A szolgáltatók teljes áttekintését a GPU-kiszolgálók AI-hoz oldalon találja.