Fireworks AI

Inference API Provider

Reputation:

78/100

Provider Overview

Type

inference

Billing

Per token

Egress

Free

SLA Uptime

99.9%

Autoscaling

Yes

Cold Start

None

Model Pricing (14)

Model	Input $/M	Output $/M	Latency	Throughput	Context
llama-3.1-8bCheapest	$0.20	$0.20	0.15s	250 t/s	128k
gemma-2-9b	$0.20	$0.20	0.15s	180 t/s	8k
qwen-2.5-7b	$0.20	$0.20	0.15s	200 t/s	32k
deepseek-v3	$0.50	$0.50	0.35s	75 t/s	64k
mixtral-8x7b	$0.50	$0.50	0.2s	120 t/s	33k
qwen-2.5-32b	$0.50	$0.50	0.25s	110 t/s	32k
qwen-2.5-coder-32b	$0.50	$0.50	0.25s	105 t/s	32k
llama-3.1-70b	$0.90	$0.90	0.3s	90 t/s	128k
llama-3.3-70b	$0.90	$0.90	0.28s	95 t/s	128k
qwen-2.5-72b	$0.90	$0.90	0.35s	80 t/s	32k
gemma-2-27b	$0.90	$0.90	0.3s	85 t/s	8k
mixtral-8x22b	$1.20	$1.20	0.45s	65 t/s	66k
llama-3.1-405b	$3.00	$3.00	0.7s	40 t/s	128k
deepseek-r1	$3.00	$8.00	2.5s	25 t/s	64k

Reputation Details

Pricing

70

Reliability

90

Features

75

Highlights

Good pricing
99.9%+ SLA
Autoscaling supported
Fast cold start

Compare with Others

Provider	Overall	Pricing	Reliability	Features	Models
Fireworks AI	78	70	90	75	14
Together AI	78	70	90	75	20
Groq	86	90	90	75	10
DeepInfra	86	90	90	75	21
DeepSeek	72	70	70	75	3