Groq je poskytovatel cloudové inference, který provozuje populární open-source modely (Llama, Mixtral, Gemma, Whisper a další) na vlastním hardwaru LPU (Language Processing Unit). Výsledkem jsou rychlosti inference často 10–100× vyšší než u GPU poskytovatelů, což je ideální pro aplikace citlivé na latenci.
Velkorysá bezplatná vrstva. Placené plány od ~0,05 $/1M tokenů podle modelu. Viz groq.com.