Browse All Models

Explore all 302 text-generation models in our catalog plus 8 specialized non-LLM models below. Filter by family, architecture, size, or capability. Click any model to see detailed specs, GPU requirements, and pricing. Prices, providers and release dates live on the leaderboard →

Specialized models

Non-text modalities — TTS, image-gen, vision-embedding, video-fx, protein. These don't fit the LLM economics tables below and have their own pricing shapes (per-image, per-audio-second, etc.).

BioNeMo ESM-2 650MProtein

NVIDIA · BioNeMo

ESM-2 650M is a 33-layer transformer trained as a protein language model on ~65M UniRef50 sequences. NVIDIA BioNeMo prov…

mit

Edify ImageImage

NVIDIA · Picasso

Edify Image is NVIDIA's enterprise text-to-image model — trained exclusively on commercially-licensed data through the P…

nvidia-picasso-commercial-license

Maxine Eye ContactVideo

NVIDIA · Maxine

Maxine Eye Contact is one effect in NVIDIA's Maxine SDK for real-time video communications. Maintains eye-contact appear…

nvidia-maxine-sdk-license

NV-CLIPVision

NVIDIA · NV-CLIP

NV-CLIP is NVIDIA's tuned variant of OpenAI CLIP, packaged as an NVIDIA NIM container for production embedding workloads…

nvidia-open-model-license

DINOv2 ViT-g/14 (NVIDIA-optimized)Vision

NVIDIA · DINOv2

DINOv2 is a self-supervised vision foundation model — produces strong frozen image features that transfer to many downst…

apache-2.0

Riva FastPitch (en-US)TTS

NVIDIA · Riva TTS

FastPitch is a parallel transformer-based mel-spectrogram generator that explicitly controls pitch and duration of speec…

cc-by-4.0

Riva HiFi-GAN (en-US)TTS

NVIDIA · Riva TTS

HiFi-GAN is the vocoder half of NVIDIA's en-US Riva TTS stack — converts mel-spectrograms produced by FastPitch into 22.…

cc-by-4.0

StyleGAN3Image

NVIDIA · StyleGAN

StyleGAN3 is NVIDIA Labs' third-generation generative adversarial network for photorealistic image synthesis. Introduced…

nvidia-source-code-license-nc

Name ▲	Provider	Family	Params	Arch	Context	Precision	Capabilities	VRAM	Frameworks	Quality
All MiniLM L6 v2	Sentence Transformers	MiniLM	23M	dense	256	bf16	—	0.0 GB	tgi · ollama	—
Alpamayo 1.5-10B	NVIDIA	Alpamayo	10B	dense	8K	bf16		20.0 GB	vllm	70.0
Amazon Nova Lite	Amazon	Nova	12B	dense	300K	bf16		24.0 GB	vllm	35.0
Amazon Nova Pro	Amazon	Nova	50B	dense	300K	bf16		100.0 GB	vllm	36.0
Aya 23 35B	Cohere	Aya	35B	dense	131K	bf16		70.0 GB	vllm · sglang · tgi+1	—
Aya 23 8B	Cohere	Aya	8B	dense	8K	bf16		16.0 GB	vllm · sglang · tgi+2	—
Baichuan 2 13B	Baichuan	Baichuan 2	13B	dense	4K	bf16		26.0 GB	vllm · sglang · tgi	—
Baichuan 2 7B	Baichuan	Baichuan 2	7B	dense	4K	bf16		14.0 GB	vllm · tgi	—
BGE Base EN v1.5	BAAI	BGE	110M	dense	512	bf16	—	0.2 GB	vllm · tgi	—
BGE Large EN v1.5	BAAI	BGE	335M	dense	512	bf16	—	0.7 GB	vllm · tgi · tensorrt-llm	—
BGE M3	BAAI	BGE	568M	dense	8K	bf16		1.1 GB	vllm · tgi · tensorrt-llm	—
BGE Small EN v1.5	BAAI	BGE	33M	dense	512	bf16	—	0.1 GB	vllm · tgi	—
BioMistral 7B	BioMistral	BioMistral	7.2B	dense	33K	bf16	—	14.4 GB	vllm · sglang · tgi+1	—
BTLM 3B	Cerebras	BTLM	3B	dense	8K	bf16		6.0 GB	vllm · tgi	—
Canary 1B	NVIDIA	Canary	1B	dense	4K	bf16		2.0 GB	tensorrt-llm · vllm	—
Cerebras GPT 13B	Cerebras	Cerebras GPT	13B	dense	2K	bf16	—	26.0 GB	vllm · tgi	—
ChatGLM3 6B	Tsinghua University	ChatGLM3	6B	dense	131K	bf16		12.0 GB	vllm · sglang · tgi+1	—
ChatGLM4 9B	Zhipu AI	ChatGLM	9.4B	dense	131K	bf16		18.8 GB	vllm · sglang · tgi	—
Claude 3 Opus	Anthropic	Claude	175B	dense	200K	bf16		350.0 GB	—	80.0
Claude 3 Sonnet	Anthropic	Claude	70B	dense	200K	bf16		140.0 GB	—	78.0
Claude 3.5 Haiku	Anthropic	Claude	20B	dense	200K	bf16		40.0 GB	—	67.0
Claude 3.5 Sonnet	Anthropic	Claude	175B (50B active)	moe	200K	bf16		350.0 GB	vllm	—
Claude Haiku 4.5	Anthropic	Claude	30B	moe	200K	bf16		60.0 GB	vllm	—
Claude Opus 4	Anthropic	Claude	200B	dense	200K	bf16		400.0 GB	—	90.0
Claude Opus 4.1	Anthropic	Claude	300B (75B active)	moe	200K	bf16		600.0 GB	vllm	90.0
Claude Opus 4.5	Anthropic	Claude	400B (80B active)	moe	200K	bf16		800.0 GB	vllm	90.0
Claude Opus 4.6	Anthropic	Claude	450B (85B active)	moe	1000K	bf16		900.0 GB	vllm	90.0
Claude Opus 4.7	Anthropic	Claude	500B (90B active)	moe	1000K	bf16		1000.0 GB	vllm	90.0
Claude Sonnet 4	Anthropic	Claude	70B	dense	200K	bf16		140.0 GB	—	86.0
Claude Sonnet 4.5	Anthropic	Claude	150B (60B active)	moe	200K	bf16		300.0 GB	vllm	86.0
Claude Sonnet 4.6	Anthropic	Claude	180B (70B active)	moe	1000K	bf16		360.0 GB	vllm	86.0
Code Llama 13B	Meta	Code Llama	13B	dense	16K	bf16		26.0 GB	vllm · sglang · tgi+2	44.0
Code Llama 34B	Meta	Code Llama	34B	dense	100K	bf16		68.0 GB	vllm · sglang · tgi+2	55.0
Code Llama 70B	Meta	Code Llama	70B	dense	16K	bf16		140.0 GB	vllm · sglang · tgi+1	60.0
Code Llama 7B	Meta	Code Llama	7B	dense	16K	bf16		14.0 GB	vllm · sglang · tgi+2	39.0
CodeGemma 7B	Google	Gemma	8.5B	dense	8K	bf16		17.0 GB	vllm · sglang · tgi+1	52.0
CodeGen2 16B	Salesforce	CodeGen2	16B	dense	2K	bf16		32.0 GB	vllm · tgi	—
Codestral 22B	Mistral AI	Codestral	22B	dense	33K	bf16		44.0 GB	vllm · sglang · tgi+1	63.0
Codestral Mamba 7B	Mistral AI	Codestral	7.3B	hybrid	262K	bf16		14.6 GB	vllm · sglang	—
CogVLM2 19B	THUDM	CogVLM2	19B	dense	8K	bf16		38.0 GB	vllm · sglang · tgi	—
Cohere Embed English v3	Cohere	Embed	500M	dense	512	bf16	—	1.0 GB	—	—
Command A	Cohere	Command	111B	dense	256K	bf16		222.0 GB	—	81.0
Command R	Cohere	Command R	35B	dense	131K	bf16		70.0 GB	vllm · sglang · tgi+1	68.0
Command R (August 2024)	Cohere	Command R	35B	dense	128K	bf16		70.0 GB	vllm · sglang · tgi	68.0
Command R 7B	Cohere	Command R	7B	dense	131K	bf16		14.0 GB	vllm · sglang · tgi+2	68.0
Command R+	Cohere	Command R	104B	dense	131K	bf16		208.0 GB	vllm · sglang · tgi+1	68.0
Cosmos 7B	NVIDIA	Cosmos	7B	dense	4K	bf16		14.0 GB	tensorrt-llm	60.0
CSM-1B	Sesame	CSM	1B	dense	4K	bf16	—	2.0 GB	ollama	—
DALL-E 3	OpenAI	DALL-E	3.5B	dense	4K	bf16		7.0 GB	—	—
DBRX Base	Databricks	DBRX	132B (36B active)	moe	33K	bf16		264.0 GB	vllm · sglang · tgi+1	—
DBRX Instruct	Databricks	DBRX	132B (36B active)	moe	33K	bf16		264.0 GB	vllm · sglang · tgi+1	—
DeepSeek Coder 33B	DeepSeek	DeepSeek Coder	33B	dense	16K	bf16		66.0 GB	vllm · sglang · tgi+1	—
DeepSeek Coder 6.7B	DeepSeek	DeepSeek Coder	6.7B	dense	16K	bf16		13.4 GB	vllm · sglang · tgi+2	—
DeepSeek Coder V2 236B	DeepSeek	DeepSeek Coder V2	236B (21B active)	moe	131K	bf16		472.0 GB	vllm · sglang · tensorrt-llm	—
DeepSeek LLM 67B	DeepSeek	DeepSeek LLM	67B	dense	4K	bf16		134.0 GB	vllm · sglang · tgi+1	66.0
DeepSeek Math 7B	DeepSeek	DeepSeek Math	7.24B	dense	4K	bf16		14.5 GB	vllm · sglang · tgi+2	—
DeepSeek MoE 16B	DeepSeek	DeepSeek MoE	16.4B (2.8B active)	moe	4K	bf16		32.8 GB	vllm · sglang · tgi	—
DeepSeek R1	DeepSeek	DeepSeek R1	671B (37B active)	moe	131K	bf16		1342.0 GB	vllm · sglang · tensorrt-llm	88.0
DeepSeek R1 Distill 1.5B	DeepSeek	DeepSeek R1	1.5B	dense	131K	bf16		3.0 GB	vllm · sglang · tgi+1	42.0
DeepSeek R1 Distill 14B	DeepSeek	DeepSeek R1	14.8B	dense	131K	bf16		29.6 GB	vllm · sglang · tgi+2	88.0
DeepSeek R1 Distill 32B	DeepSeek	DeepSeek R1	32.8B	dense	131K	bf16		65.6 GB	vllm · sglang · tgi+2	88.0
DeepSeek R1 Distill 70B	DeepSeek	DeepSeek R1	70.6B	dense	131K	bf16		141.2 GB	vllm · sglang · tgi+1	88.0
DeepSeek R1 Distill 8B	DeepSeek	DeepSeek R1	8B	dense	131K	bf16		16.0 GB	vllm · sglang · tgi+2	88.0
DeepSeek V2 Lite	DeepSeek	DeepSeek V2	15.7B (2.4B active)	moe	33K	bf16		31.4 GB	vllm · sglang · tgi	—
DeepSeek V2.5	DeepSeek	DeepSeek V2	236B (21B active)	moe	131K	bf16		472.0 GB	vllm · sglang · tensorrt-llm	78.0
DeepSeek V3	DeepSeek	DeepSeek V3	671B (37B active)	moe	131K	bf16		1342.0 GB	vllm · sglang · tensorrt-llm	81.0
DeepSeek V3-0324	DeepSeek	DeepSeek V3	685B (37B active)	moe	131K	fp8		685.0 GB	vllm · sglang · tensorrt-llm	81.0
Dolphin 2.9 72B	Cognitive Computations	Dolphin	72B	dense	33K	bf16		144.0 GB	vllm · sglang · tgi+1	—
Eagle 2 1B	NVIDIA	Eagle	1.3B	dense	4K	bf16		2.6 GB	vllm · ollama	65.0
Eagle 2 9B	NVIDIA	Eagle	9B	dense	8K	bf16		18.0 GB	vllm · tensorrt-llm	65.0
Eagle 2.5 8B	NVIDIA	Eagle	8B	dense	16K	bf16		16.0 GB	vllm · tensorrt-llm	65.0
ELYZA 13B	ELYZA	ELYZA	13B	dense	4K	bf16		26.0 GB	vllm · tgi · ollama	—
Falcon 11B	TII UAE	Falcon	11B	dense	8K	bf16		22.0 GB	vllm · sglang · tgi	—
Falcon 180B	TII	Falcon	180B	dense	2K	bf16		360.0 GB	vllm · sglang · tgi+1	60.0
Falcon 3 10B	TII UAE	Falcon	10.3B	dense	33K	bf16		20.6 GB	vllm · sglang · tgi+2	—
Falcon 3 1B	TII UAE	Falcon	1B	dense	8K	bf16		2.0 GB	vllm · sglang · tgi+2	—
Falcon 3 3B	TII UAE	Falcon	3B	dense	8K	bf16		6.0 GB	vllm · sglang · tgi+2	—
Falcon 3 7B	TII UAE	Falcon	7.5B	dense	33K	bf16		15.0 GB	vllm · sglang · tgi+2	—
Falcon 40B	TII	Falcon	40B	dense	2K	bf16		80.0 GB	vllm · sglang · tgi+1	48.0
Falcon 7B	TII	Falcon	7B	dense	2K	bf16		14.0 GB	vllm · sglang · tgi+2	37.0
Falcon Mamba 7B	TII	Falcon Mamba	7.27B	hybrid	8K	bf16		14.5 GB	vllm · sglang	—
FinGPT 7B	AI4Finance	FinGPT	7.2B	dense	4K	bf16		14.4 GB	vllm · tgi · ollama	—
Florence 2 Large	Microsoft	Florence	770M	dense	2K	bf16		1.5 GB	vllm	—
FLUX.1 Dev	Black Forest Labs	FLUX	12B	dense	512	bf16		24.0 GB	—	—
FLUX.2	Black Forest Labs	FLUX	12B	dense	4K	bf16		24.0 GB	vllm · tensorrt-llm	—
Gemini 1.5 Flash	Google	Gemini	50B (12B active)	moe	1049K	bf16		100.0 GB	—	75.0
Gemini 1.5 Pro	Google	Gemini	175B (40B active)	moe	2097K	bf16		350.0 GB	—	80.0
Gemini 2.0 Flash	Google	Gemini	50B (15B active)	moe	1049K	bf16		100.0 GB	—	80.0
Gemini 2.0 Pro	Google	Gemini	600B (150B active)	moe	2000K	bf16		1200.0 GB	—	88.0
Gemini 3 Pro Preview	Google DeepMind	Gemini	600B (100B active)	moe	1000K	bf16		1200.0 GB	vllm	—
Gemma 1.1 2B	Google	Gemma	2.5B	dense	8K	bf16		5.0 GB	vllm · sglang · tgi+2	—
Gemma 2 27B	Google	Gemma 2	27B	dense	8K	bf16		54.0 GB	vllm · sglang · tgi+2	65.0
Gemma 2 2B	Google	Gemma 2	2.6B	dense	8K	bf16		5.2 GB	vllm · sglang · tgi+2	44.0
Gemma 2 9B	Google	Gemma 2	9.2B	dense	8K	bf16		18.4 GB	vllm · sglang · tgi+2	68.0
Gemma 3 12B	Google	Gemma 3	12B	dense	131K	bf16		24.0 GB	vllm · sglang · tgi+2	71.0
Gemma 3 1B	Google	Gemma 3	1B	dense	33K	bf16		2.0 GB	vllm · sglang · tgi+2	35.0
Gemma 3 27B	Google	Gemma 3	27B	dense	131K	bf16		54.0 GB	vllm · sglang · tgi+2	69.0
Gemma 3 2B	Google	Gemma 3	2B	dense	8K	bf16		4.0 GB	vllm · sglang · tgi+1	42.0
Gemma 3 4B	Google	Gemma 3	4.3B	dense	131K	bf16		8.6 GB	vllm · sglang · tgi+2	54.0
Gemma 4 31B-IT	Google	Gemma 4	31B	dense	33K	bf16		62.0 GB	vllm · sglang · tgi+2	77.0
GigaChat 20B	Sberbank	GigaChat	20B	dense	8K	bf16		40.0 GB	vllm · tgi	—
GLM-4 9B	Zhipu AI	GLM-4	9.4B	dense	131K	bf16		18.8 GB	vllm · sglang · tgi+1	—
GLM-5	Zhipu AI	GLM-5	200B	dense	128K	bf16		400.0 GB	vllm · sglang · tgi	51.0
GPT-3.5 Turbo	OpenAI	GPT-3.5	20B	dense	16K	bf16		40.0 GB	—	67.0
GPT-4 Turbo	OpenAI	GPT-4	200B (50B active)	moe	128K	bf16		400.0 GB	—	80.0
GPT-4.5 Preview	OpenAI	GPT	1500B (300B active)	moe	128K	bf16		3000.0 GB	—	93.0
GPT-4o	OpenAI	GPT-4	200B (50B active)	moe	128K	bf16		400.0 GB	—	85.0
GPT-4o Mini	OpenAI	GPT-4	8B	dense	128K	bf16		16.0 GB	—	72.0
GPT-5	OpenAI	GPT	500B (90B active)	moe	400K	bf16		1000.0 GB	vllm	—
GPT-5 Mini	OpenAI	GPT	80B (25B active)	moe	400K	bf16		160.0 GB	vllm	—
GPT-5 Nano	OpenAI	GPT	8B (4B active)	moe	400K	bf16		16.0 GB	vllm	—
GPT-5.5	OpenAI	GPT	700B (110B active)	moe	1000K	bf16		1400.0 GB	vllm	—
Grok 3	xAI	Grok	600B (120B active)	moe	131K	bf16		1200.0 GB	—	90.0
Grok 4	xAI	Grok	400B (80B active)	moe	256K	bf16		800.0 GB	vllm	—
Grok 4.3	xAI	Grok	500B (90B active)	moe	1000K	bf16		1000.0 GB	vllm	—
Grok-2	xAI	Grok	314B (50B active)	moe	131K	bf16		628.0 GB	vllm	78.0
Grok-3	xAI	Grok	314B	dense	131K	bf16		628.0 GB	vllm	91.0
Grok-3 Mini	xAI	Grok	33B	dense	131K	bf16		66.0 GB	vllm	78.0
GTE Qwen2 7B	Alibaba	GTE	7.6B	dense	33K	bf16		15.2 GB	vllm · sglang · tgi+1	—
H2O Danube3 500M	H2O.ai	H2O Danube	500M	dense	8K	bf16	—	1.0 GB	vllm · sglang · tgi+1	—
HelpSteer2 Llama 3.1 70B	NVIDIA	Llama 3.1	70.6B	dense	131K	bf16		141.2 GB	tensorrt-llm · vllm · sglang	82.0
Hermes 3 70B	Nous Research	Hermes 3	70.6B	dense	131K	bf16		141.2 GB	vllm · sglang · tgi+1	—
Hermes 3 8B	Nous Research	Hermes 3	8.03B	dense	131K	bf16		16.1 GB	vllm · sglang · tgi+2	—
Inflection 3	Inflection AI	Inflection	100B	dense	8K	bf16		200.0 GB	—	74.0
InfoXLM Large	Microsoft SAIL	InfoXLM	550M	dense	512	bf16		1.1 GB	tgi	—
InternLM 2.5 20B	Shanghai AI Lab	InternLM 2.5	19.9B	dense	262K	bf16		39.8 GB	vllm · sglang · tgi	—
InternLM 2.5 7B	Shanghai AI Lab	InternLM 2.5	7.74B	dense	1049K	bf16		15.5 GB	vllm · sglang · tgi+1	—
InternLM 20B	SenseTime	InternLM	20B	dense	16K	bf16		40.0 GB	vllm · tgi	—
InternLM3 8B	Shanghai AI Lab	InternLM	8B	dense	33K	bf16		16.0 GB	vllm · sglang · tgi+1	—
InternVL2 26B	InternLM	InternVL2	26B	dense	33K	bf16		52.0 GB	vllm · sglang · tgi	—
JAIS 30B	G42/Inception	JAIS	30B	dense	8K	bf16		60.0 GB	vllm · tgi	—
Jamba 1.5 Large	AI21	Jamba	398B	hybrid	256K	bf16		796.0 GB	vllm · sglang	—
Jamba 1.5 Mini	AI21	Jamba	52B	hybrid	256K	bf16		104.0 GB	vllm · sglang	—
Jamba Instruct	AI21	Jamba	52B (12B active)	moe	256K	bf16		104.0 GB	—	66.0
Janus-Pro 7B	DeepSeek	Janus	7B	dense	8K	bf16		14.0 GB	vllm · ollama	62.0
Japanese StableLM 70B	Stability AI	StableLM	70B	dense	8K	bf16		140.0 GB	vllm · sglang · tgi	—
Jina Embeddings v3	Jina AI	Jina Embeddings	570M	dense	8K	bf16		1.1 GB	tgi · tensorrt-llm	—
Kimi K2.5	Moonshot AI	Kimi	1000B (32B active)	moe	131K	fp8		1000.0 GB	vllm · sglang	54.0
Kokoro TTS 82M	Hexagrad	Kokoro	82M	dense	2K	bf16	—	0.2 GB	ollama	—
KULLM 12.8B	Korea University	KULLM	12.8B	dense	4K	bf16		25.6 GB	vllm · tgi	—
Llama 2 13B	Meta	Llama 2	13B	dense	4K	bf16		26.0 GB	vllm · sglang · tgi+2	47.0
Llama 2 70B	Meta	Llama 2	70B	dense	4K	bf16		140.0 GB	vllm · sglang · tgi+1	62.0
Llama 2 7B	Meta	Llama 2	7B	dense	4K	bf16		14.0 GB	vllm · sglang · tgi+2	40.0
Llama 3 70B	Meta	Llama 3	70.6B	dense	8K	bf16		141.2 GB	vllm · sglang · tgi+1	80.0
Llama 3 70B 1M Context	Gradient	Llama 3	70.6B	dense	1049K	bf16		141.2 GB	vllm · sglang	—
Llama 3 8B	Meta	Llama 3	8B	dense	8K	bf16		16.0 GB	vllm · sglang · tgi+2	63.0
Llama 3.1 405B	Meta	Llama 3.1	405B	dense	131K	bf16		810.0 GB	vllm · sglang · tgi+1	81.0
Llama 3.1 70B	Meta	Llama 3.1	70.6B	dense	131K	bf16		141.2 GB	vllm · sglang · tgi+1	75.0
Llama 3.1 70B Turbo	Together AI	Llama 3.1	70.6B	dense	131K	fp8		70.6 GB	vllm · sglang · tensorrt-llm	—
Llama 3.1 8B	Meta	Llama 3.1	8.03B	dense	131K	bf16		16.1 GB	vllm · sglang · tgi+2	58.0
Llama 3.1 Nemotron 51B	NVIDIA	Llama 3.1	51B	dense	131K	bf16		102.0 GB	tensorrt-llm · vllm · sglang	78.0
Llama 3.1 Nemotron 70B Instruct	NVIDIA	Llama 3.1	70.6B	dense	131K	bf16		141.2 GB	vllm · sglang · tgi+1	83.0
Llama 3.1 Nemotron 70B Reward	NVIDIA	Llama 3.1	70.6B	dense	131K	bf16		141.2 GB	tensorrt-llm · vllm · sglang	80.0
Llama 3.2 11B Vision	Meta	Llama 3.2	11B	dense	131K	bf16		22.0 GB	vllm · sglang · tgi+2	9.0
Llama 3.2 1B	Meta	Llama 3.2	1.24B	dense	131K	bf16		2.5 GB	vllm · sglang · tgi+2	38.0
Llama 3.2 3B	Meta	Llama 3.2	3.21B	dense	131K	bf16		6.4 GB	vllm · sglang · tgi+2	55.0
Llama 3.2 90B Vision	Meta	Llama 3.2	90B	dense	131K	bf16		180.0 GB	vllm · sglang · tgi+1	84.0
Llama 3.2 90B Vision Instruct	Meta	Llama 3.2	88.8B	dense	131K	bf16		177.6 GB	vllm · sglang · tgi+1	84.0
Llama 3.3 70B	Meta	Llama 3.3	70.6B	dense	131K	bf16		141.2 GB	vllm · sglang · tgi+2	77.0
Llama 3.3 8B	Meta	Llama 3.3	8B	dense	131K	bf16		16.0 GB	vllm · sglang · tgi+2	—
Llama 4 Behemoth	Meta	Llama 4	2000B (400B active)	moe	1049K	bf16		4000.0 GB	—	93.0
Llama 4 Maverick	Meta	Llama 4	400B (17B active)	moe	1049K	bf16		800.0 GB	vllm · sglang · tensorrt-llm	84.0
Llama 4 Scout	Meta	Llama 4	109B (17B active)	moe	10486K	bf16		218.0 GB	vllm · sglang · tensorrt-llm	73.0
Llama Guard 3 1B	Meta	Llama Guard	1B	dense	131K	bf16		2.0 GB	vllm · sglang · tgi+1	—
Llama Guard 3 8B	Meta	Llama Guard	8B	dense	131K	bf16		16.0 GB	vllm · sglang · tgi+2	—
Marco O1	Alibaba	Marco	7.6B	dense	66K	bf16		15.2 GB	vllm · sglang · tgi+1	—
Meditron 70B	EPFL	Meditron	70B	dense	4K	bf16	—	140.0 GB	vllm · sglang · tgi+1	—
Megatron-Turing NLG 530B	NVIDIA	Megatron-Turing	530B	dense	2K	bf16		1060.0 GB	tensorrt-llm · vllm	58.0
MiniMax M2.7	MiniMax	MiniMax M	456B (45.9B active)	moe	1049K	bf16		912.0 GB	vllm · sglang	82.0
MiniMax-M2	MiniMax	MiniMax-M2	229B (7B active)	moe	197K	fp8		229.0 GB	vllm · sglang	—
MiniMax-M2.1	MiniMax	MiniMax-M2.1	229B (7B active)	moe	197K	fp8		229.0 GB	vllm · sglang	—
MiniMax-M2.5	MiniMax	MiniMax-M2	229B (7B active)	moe	197K	fp8		229.0 GB	vllm · sglang	—
MiniMax-Text-01	MiniMax	MiniMax	456B (45.9B active)	moe	1049K	fp8		456.0 GB	vllm · sglang	—
Ministral 8B	Mistral AI	Ministral	8B	dense	131K	bf16		16.0 GB	vllm · sglang · tgi+2	15.0
Minitron 4B	NVIDIA	Nemotron	4B	dense	8K	bf16		8.0 GB	tensorrt-llm · vllm · sglang	50.0
Minitron 8B	NVIDIA	Nemotron	8B	dense	8K	bf16		16.0 GB	tensorrt-llm · vllm · sglang	62.0
Mistral 7B	Mistral AI	Mistral	7.3B	dense	33K	bf16		14.6 GB	vllm · sglang · tgi+2	56.0
Mistral Large 2	Mistral AI	Mistral Large	123B	dense	131K	bf16		246.0 GB	vllm · sglang · tgi+1	75.0
Mistral Large 2411	Mistral AI	Mistral Large	123B	dense	131K	bf16		246.0 GB	vllm · sglang · tgi+1	75.0
Mistral Medium 3	Mistral AI	Mistral	70B	dense	131K	bf16		140.0 GB	vllm · sglang · tgi+1	80.0
Mistral Nemo 12B	Mistral AI	Mistral Nemo	12B	dense	131K	bf16		24.0 GB	vllm · sglang · tgi+2	62.0
Mistral Small 24B	Mistral AI	Mistral Small	24B	dense	33K	bf16		48.0 GB	vllm · sglang · tgi+2	68.0
Mistral Small 3.1 24B	Mistral AI	Mistral Small	24B	dense	131K	bf16		48.0 GB	vllm · sglang · tgi+2	—
Mixtral 8x22B	Mistral AI	Mixtral	141B (39B active)	moe	66K	bf16		282.0 GB	vllm · sglang · tgi+1	65.0
Mixtral 8x7B	Mistral AI	Mixtral	46.7B (12.9B active)	moe	33K	bf16		93.4 GB	vllm · sglang · tgi+2	67.0
Mixtral 8x7B Instruct	Mistral AI	Mixtral	46.7B (12.9B active)	moe	33K	bf16		93.4 GB	vllm · sglang · tgi+2	69.0
mmE5-mllama-11b-instruct	intfloat	intfloat	10.6B	dense	131K	bf16		21.2 GB	vllm	—
Molmo 72B	Allen AI	Molmo	72B	dense	8K	bf16		144.0 GB	vllm · sglang	78.0
Moondream 2B	Vikhyat	Moondream	1.86B	dense	2K	bf16		3.7 GB	ollama · vllm	—
MPT 30B	MosaicML	MPT	30B	dense	8K	bf16		60.0 GB	vllm · tgi	48.0
MPT 7B	MosaicML	MPT	6.7B	dense	66K	bf16		13.4 GB	vllm · tgi · ollama	36.0
Multilingual E5 Large	Microsoft	E5	560M	dense	512	bf16		1.1 GB	vllm · tgi	—
multilingual-e5-large-instruct	intfloat	intfloat	600M	dense	514	bf16	—	1.2 GB	vllm	—
Nekomata 14B	Rinna	Nekomata	14B	dense	4K	bf16		28.0 GB	vllm · tgi	—
Nemotron 15B	NVIDIA	Nemotron	15B	dense	4K	bf16		30.0 GB	vllm · sglang · tensorrt-llm	72.0
Nemotron 340B	NVIDIA	Nemotron	340B	dense	131K	bf16		680.0 GB	tensorrt-llm · vllm · sglang	85.0
Nemotron 70B	NVIDIA	Nemotron	70.6B	dense	131K	bf16		141.2 GB	vllm · sglang · tensorrt-llm	83.0
Nemotron Mini 4B	NVIDIA	Nemotron	4B	dense	8K	bf16		8.0 GB	tensorrt-llm · vllm · sglang	48.0
Nemotron Ultra 253B	NVIDIA	Nemotron	253B	dense	131K	bf16		506.0 GB	vllm · tensorrt-llm	86.0
Nemotron-3 Super 120B	NVIDIA	Nemotron	120B	dense	131K	bf16		240.0 GB	vllm · sglang · tensorrt-llm	84.0
Nomic Embed Text v1.5	Nomic AI	Nomic Embed	137M	dense	8K	bf16	—	0.3 GB	vllm · tgi · ollama	—
NV Embed v2	NVIDIA	NV Embed	7.85B	dense	33K	bf16		15.7 GB	vllm · sglang · tgi+1	—
NV EmbedQA E5 v5	NVIDIA	NV EmbedQA	330M	dense	512	bf16		0.7 GB	tensorrt-llm · vllm	—
NV EmbedQA Mistral 7B	NVIDIA	NV EmbedQA	7.24B	dense	33K	bf16		14.5 GB	tensorrt-llm · vllm · sglang	—
NV Retriever v1	NVIDIA	NV Retriever	330M	dense	512	bf16		0.7 GB	tensorrt-llm · vllm	—
NVLM-D 72B	NVIDIA	NVLM	72B	dense	33K	bf16		144.0 GB	vllm · tensorrt-llm	79.0
o1	OpenAI	o1	200B (50B active)	moe	200K	bf16		400.0 GB	—	93.0
o1-mini	OpenAI	o1	70B	dense	128K	bf16		140.0 GB	—	83.0
o3-mini	OpenAI	o3	70B	dense	200K	bf16		140.0 GB	—	86.0
OctoCoder 15B	BigCode	OctoCoder	15.5B	dense	8K	bf16		31.0 GB	vllm · sglang · tgi	—
OLMo 2 13B	Allen AI	OLMo 2	13B	dense	4K	bf16		26.0 GB	vllm · sglang · tgi+1	—
OLMo 2 7B	Allen AI	OLMo 2	7B	dense	4K	bf16		14.0 GB	vllm · sglang · tgi+1	—
OpenELM 3B	Apple	OpenELM	3B	dense	2K	bf16	—	6.0 GB	vllm · sglang · ollama	—
OpenHermes 2.5 7B	Teknium	OpenHermes	7B	dense	33K	bf16		14.0 GB	vllm · sglang · tgi+1	—
Orca 2 13B	Microsoft	Orca	13B	dense	4K	bf16		26.0 GB	vllm · sglang · tgi+2	—
PaLI-Gemma 3B	Google	PaLI-Gemma	2.9B	dense	8K	bf16		5.8 GB	vllm · tgi	—
Parakeet CTC 0.6B	NVIDIA	Parakeet	600M	dense	4K	bf16	—	1.2 GB	tensorrt-llm · vllm	—
Parakeet TDT 1.1B	NVIDIA	Parakeet	1.1B	dense	4K	bf16	—	2.2 GB	tensorrt-llm · vllm	—
Phi 1	Microsoft	Phi	1.3B	dense	2K	bf16		2.6 GB	vllm · tgi · ollama	38.0
Phi 1.5	Microsoft	Phi	1.3B	dense	2K	bf16		2.6 GB	vllm · sglang · tgi+1	38.0
Phi 2	Microsoft	Phi	2.7B	dense	2K	bf16		5.4 GB	vllm · sglang · tgi+2	—
Phi 3 Medium 14B	Microsoft	Phi 3	14B	dense	131K	bf16		28.0 GB	vllm · sglang · tgi+2	76.0
Phi 3 Mini 3.8B	Microsoft	Phi 3	3.8B	dense	131K	bf16		7.6 GB	vllm · sglang · tgi+2	64.0
Phi 3 Small 7B	Microsoft	Phi 3	7B	dense	131K	bf16		14.0 GB	vllm · sglang · tgi+2	72.0
Phi 3.5 MoE	Microsoft	Phi	41.9B (6.6B active)	moe	131K	bf16		83.8 GB	vllm · sglang · tgi+1	74.0
Phi 3.5 Vision	Microsoft	Phi 3.5	4.2B	dense	131K	bf16		8.4 GB	vllm · sglang · tgi+2	—
Phi 4 Mini	Microsoft	Phi	3.8B	dense	131K	bf16		7.6 GB	vllm · sglang · tgi+1	70.0
Phi-4	Microsoft	Phi	14.7B	dense	16K	bf16		29.4 GB	vllm · sglang · tgi+2	73.0
Pixtral 12B	Mistral AI	Pixtral	12B	dense	131K	bf16		24.0 GB	vllm · sglang · tgi+1	—
Prometheus 2 7B	KAIST	Prometheus	7.24B	dense	8K	bf16		14.5 GB	vllm · sglang · tgi	—
Qwen 1.5 MoE A2.7B	Alibaba	Qwen 1.5	14.3B (2.7B active)	moe	33K	bf16		28.6 GB	vllm · sglang · tgi	—
Qwen 2 Audio 7B	Alibaba	Qwen 2	7.6B	dense	33K	bf16		15.2 GB	vllm · sglang · tgi	—
Qwen 2 VL 2B	Alibaba	Qwen 2 VL	2.2B	dense	33K	bf16		4.4 GB	vllm · sglang · tgi	—
Qwen 2.5 0.5B	Alibaba	Qwen 2.5	500M	dense	33K	bf16		1.0 GB	vllm · sglang · tgi+1	—
Qwen 2.5 1.5B	Alibaba	Qwen 2.5	1.5B	dense	33K	bf16		3.0 GB	vllm · sglang · tgi+1	—
Qwen 2.5 14B	Alibaba	Qwen 2.5	14.8B	dense	131K	bf16		29.6 GB	vllm · sglang · tgi+1	76.0
Qwen 2.5 32B	Alibaba	Qwen 2.5	32.5B	dense	131K	bf16		65.0 GB	vllm · sglang · tgi+1	73.0
Qwen 2.5 3B	Alibaba	Qwen 2.5	3.09B	dense	33K	bf16		6.2 GB	vllm · sglang · tgi+1	58.0
Qwen 2.5 72B	Alibaba	Qwen 2.5	72.7B	dense	131K	bf16		145.4 GB	vllm · sglang · tgi+1	77.0
Qwen 2.5 7B	Alibaba	Qwen 2.5	7.6B	dense	131K	bf16		15.2 GB	vllm · sglang · tgi+2	70.0
Qwen 2.5 Coder 1.5B	Alibaba	Qwen 2.5 Coder	1.5B	dense	33K	bf16		3.0 GB	vllm · sglang · tgi+1	40.0
Qwen 2.5 Coder 14B	Alibaba	Qwen 2.5 Coder	14.7B	dense	131K	bf16		29.4 GB	vllm · sglang · tgi+2	—
Qwen 2.5 Coder 32B	Alibaba	Qwen 2.5	32.5B	dense	131K	bf16		65.0 GB	vllm · sglang · tgi+1	80.0
Qwen 2.5 Coder 32B	Alibaba	Qwen 2.5 Coder	32.5B	dense	131K	bf16		65.0 GB	vllm · sglang · tgi+2	—
Qwen 2.5 Coder 3B	Alibaba	Qwen 2.5 Coder	3.1B	dense	33K	bf16		6.2 GB	vllm · sglang · tgi+1	50.0
Qwen 2.5 Coder 7B	Alibaba	Qwen 2.5 Coder	7.6B	dense	131K	bf16		15.2 GB	vllm · sglang · tgi+2	—
Qwen 2.5 Math 72B	Alibaba	Qwen 2.5 Math	72.7B	dense	4K	bf16		145.4 GB	vllm · sglang · tgi+1	—
Qwen 2.5 Math 7B	Alibaba	Qwen 2.5 Math	7.6B	dense	4K	bf16		15.2 GB	vllm · sglang · tgi+2	—
Qwen 2.5 VL 72B	Alibaba	Qwen 2.5 VL	72.7B	dense	131K	bf16		145.4 GB	vllm · sglang · tgi+1	—
Qwen 2.5 VL 7B	Alibaba	Qwen 2.5 VL	7.6B	dense	131K	bf16		15.2 GB	vllm · sglang · tgi+2	—
Qwen 3 0.6B	Alibaba	Qwen 3	600M	dense	131K	bf16		1.2 GB	vllm · sglang · tgi+2	—
Qwen 3 1.7B	Alibaba	Qwen 3	1.7B	dense	131K	bf16		3.4 GB	vllm · sglang · tgi+2	—
Qwen 3 235B	Alibaba	Qwen 3	235B (22B active)	moe	131K	bf16		470.0 GB	vllm · sglang · tensorrt-llm	83.0
Qwen 3 30B-A3B	Alibaba	Qwen 3	30.5B (3.3B active)	moe	131K	bf16		61.0 GB	vllm · sglang · tgi+1	70.0
Qwen 3 32B	Alibaba	Qwen 3	32.8B	dense	131K	bf16		65.6 GB	vllm · sglang · tgi+2	74.0
Qwen 3 4B	Alibaba	Qwen 3	4B	dense	131K	bf16		8.0 GB	vllm · sglang · tgi+2	57.0
Qwen 3 8B	Alibaba	Qwen 3	8.2B	dense	131K	bf16		16.4 GB	vllm · sglang · tgi+2	70.0
Qwen 3 Coder 8B	Alibaba	Qwen 3 Coder	8.2B	dense	131K	bf16		16.4 GB	vllm · sglang · ollama	74.0
Qwen3-235B-A22B-Thinking-2507	Qwen	Qwen3	235B (22B active)	moe	262K	bf16		470.0 GB	vllm · sglang	—
RecurrentGemma 2B	Google	RecurrentGemma	2.7B	dense	8K	bf16		5.4 GB	vllm · sglang	—
Reka Core	Reka AI	Reka	70B	dense	128K	bf16		140.0 GB	—	76.0
Replit Code v1.5 3B	Replit	Replit Code	3.3B	dense	4K	bf16		6.6 GB	vllm · tgi	—
RWKV-6 14B	RWKV Foundation	RWKV	14.1B	hybrid	33K	bf16		28.2 GB	vllm	—
SantaCoder 1.1B	BigCode	SantaCoder	1.1B	dense	2K	bf16		2.2 GB	vllm · tgi	—
SaulLM 7B	Equall.ai	SaulLM	7.2B	dense	8K	bf16	—	14.4 GB	vllm · sglang · tgi+1	—
SciGLM 6B	Tsinghua	SciGLM	6.2B	dense	8K	bf16		12.4 GB	vllm · tgi	—
SeamlessM4T v2 Large	Meta	SeamlessM4T	2.3B	dense	4K	bf16		4.6 GB	vllm	—
SmolLM 135M	Hugging Face	SmolLM	135M	dense	2K	bf16	—	0.3 GB	vllm · tgi · ollama	—
SmolLM 360M	Hugging Face	SmolLM	360M	dense	2K	bf16	—	0.7 GB	vllm · tgi · ollama	—
SmolLM2 1.7B	Hugging Face	SmolLM2	1.7B	dense	8K	bf16		3.4 GB	vllm · sglang · tgi+1	—
Snowflake Arctic 128x3B	Snowflake	Arctic	395B (17B active)	moe	4K	bf16		790.0 GB	vllm · sglang	—
Snowflake Arctic 480B	Snowflake	Arctic	480B (17B active)	moe	4K	bf16		960.0 GB	vllm · sglang	—
SOLAR 10.7B	Upstage	SOLAR	10.7B	dense	4K	bf16		21.4 GB	vllm · sglang · tgi+1	—
Solar Pro 22B	Upstage	Solar	22B	dense	4K	bf16		44.0 GB	vllm · sglang · tgi+2	15.0
Stable Diffusion XL 1.0	Stability AI	Stable Diffusion	3.5B	dense	77	bf16		7.0 GB	—	—
StableLM 2 12B	Stability AI	StableLM 2	12.1B	dense	4K	bf16		24.2 GB	vllm · sglang · tgi+1	—
StableLM Zephyr 3B	Stability AI	StableLM	3B	dense	4K	bf16		6.0 GB	vllm · sglang · tgi+1	—
StarCoder2 15B	BigCode	StarCoder2	15.5B	dense	16K	bf16		31.0 GB	vllm · sglang · tgi+1	42.0
StarCoder2 3B	BigCode	StarCoder2	3.03B	dense	16K	bf16		6.1 GB	vllm · sglang · tgi+1	29.0
StarCoder2 7B	BigCode	StarCoder2	6.73B	dense	16K	bf16		13.5 GB	vllm · sglang · tgi+2	35.0
TinyLlama 1.1B	TinyLlama	TinyLlama	1.1B	dense	2K	bf16	—	2.2 GB	vllm · sglang · tgi+1	—
TinyLlama 1.1B Chat	TinyLlama	TinyLlama	1.1B	dense	2K	bf16	—	2.2 GB	vllm · sglang · tgi+2	—
Vicuna 13B	LMSYS	Vicuna	13B	dense	4K	bf16		26.0 GB	vllm · sglang · tgi+1	—
Vicuna 33B	LMSYS	Vicuna	33B	dense	2K	bf16		66.0 GB	vllm · sglang · tgi+1	—
Vicuna 7B	LMSYS	Vicuna	7B	dense	4K	bf16		14.0 GB	vllm · sglang · tgi+1	—
VILA 1.5 13B	NVIDIA	VILA	13B	dense	4K	bf16		26.0 GB	tensorrt-llm · vllm · sglang	62.0
VILA 1.5 3B	NVIDIA	VILA	3B	dense	4K	bf16		6.0 GB	tensorrt-llm · vllm · sglang	44.0
VILA 1.5 40B	NVIDIA	VILA	40B	dense	8K	bf16		80.0 GB	tensorrt-llm · vllm · sglang	73.0
Whisper Base	OpenAI	Whisper	74M	dense	448	bf16		0.1 GB	vllm · tensorrt-llm	—
Whisper Large V3	OpenAI	Whisper	1.55B	dense	448	bf16		3.1 GB	vllm · tensorrt-llm	—
Whisper Medium	OpenAI	Whisper	769M	dense	448	bf16		1.5 GB	vllm · tensorrt-llm	—
Whisper Small	OpenAI	Whisper	244M	dense	448	bf16		0.5 GB	vllm · tensorrt-llm	—
WizardCoder 33B	WizardLM	WizardCoder	33B	dense	16K	bf16		66.0 GB	vllm · sglang · tgi+1	—
WizardMath 70B	Microsoft	WizardMath	70B	dense	4K	bf16		140.0 GB	vllm · sglang · tgi+1	—
YaLM 100B	Yandex	YaLM	100B	dense	2K	bf16		200.0 GB	vllm · tgi	—
Yi 1.5 34B	01.AI	Yi 1.5	34.4B	dense	200K	bf16		68.8 GB	vllm · sglang · tgi+1	72.0
Yi 1.5 9B	01.AI	Yi 1.5	8.83B	dense	4K	bf16		17.7 GB	vllm · sglang · tgi+2	62.0
Yi 6B 200K	01.AI	Yi	6B	dense	200K	bf16		12.0 GB	vllm · sglang · tgi+1	—
Yi Coder 9B	01.AI	Yi Coder	8.8B	dense	131K	bf16		17.6 GB	vllm · sglang · tgi+2	—
Yi-Large	01.AI	Yi	102.6B (24B active)	moe	33K	bf16		205.2 GB	vllm · sglang	74.0
Yi-Lightning	01.AI	Yi	200B (22B active)	moe	16K	bf16		400.0 GB	vllm · sglang	—
Zephyr 7B	Hugging Face	Zephyr	7B	dense	33K	bf16		14.0 GB	vllm · sglang · tgi+2	—

Showing 302 of 302 models