Fireworks AI je produkčně zaměřená platforma pro inferenci open-source modelů (Llama, Mistral, Qwen, Stable Diffusion a další) s velmi nízkou latencí. Nabízí serverless i dedikované GPU nasazení, podporu složených AI systémů a API kompatibilní s OpenAI — oblíbená u vývojářů vyžadujících spolehlivou, rychlou inferenci.
Llama-3.1-8B: ~0,20 $/1M tokenů. Llama-3.1-70B: ~0,90 $/1M. Viz fireworks.ai.