Meta·Llama 3 family

Llama 3.3 70B Instruct

otherReleased Dec 2024

Meta's flagship open-weight model with 70 billion parameters. Strong multilingual capabilities with competitive performance on reasoning and coding benchmarks. Available for self-hosting and through various inference providers.

Capabilities

chatcompletionfunction-callingcode-generation

Modalities

textcode

Context Window

131K tokens

Providers

available

Available from 15 providers

Cheapest

Inference.net

$0.60/1M tokens

Fastest

Groq

165ms TTFT

+10

Anyscale, Baseten, Cerebras, Fireworks, Groq, Hyperbolic, Inference.net, Lambda, Nebius, NLP Cloud, Novita, Perplexity, SambaNova, SiliconFlow, Together AI

Providers (15)

Sorted by total cost (input + output per 1M tokens). Click a row to view provider details.

Provider	Pricing (per 1M)	Rate Limits	Regions	Health	Latency
Inference.net	In: $0.30Out: $0.30	60 RPM / 200K TPM	us-east-1eu-west-1	Healthy	0ms
Lambda	In: $0.20Out: $0.40	200 RPM / 800K TPM	us-east-1us-west-2	Unhealthy	0ms
Novita	In: $0.35Out: $0.35	60 RPM / 200K TPM	us-east-1	Healthy	0ms
SiliconFlow	In: $0.35Out: $0.35	600 RPM / 1.0M TPM	ap-east-1global	Healthy	0ms
Hyperbolic	In: $0.40Out: $0.40	60 RPM / 200K TPM	us-west-2	Healthy	0ms
Anyscale	In: $0.50Out: $0.50	600 RPM / 1.0M TPM	us-east-1us-west-2	Healthy	0ms
Nebius	In: $0.50Out: $0.50	60 RPM / 300K TPM	eu-west-1	Healthy	0ms
Cerebras	In: $0.60Out: $0.60	30 RPM / 60K TPM	us-east-1	Healthy	0ms
SambaNova	In: $0.60Out: $0.60	100 RPM / 500K TPM	us-west-2	Healthy	0ms
Baseten	In: $0.65Out: $0.65	120 RPM / 500K TPM	us-east-1us-west-2	Healthy	0ms
Groq	In: $0.59Out: $0.79	30 RPM / 100K TPM	us-east-1eu-west-1	Healthy	165ms
Together AI	In: $0.88Out: $0.88	600 RPM / 1.0M TPM	us-east-1us-west-2	Healthy	0ms
Fireworks	In: $0.90Out: $0.90	600 RPM / 1.0M TPM	us-east-1us-west-2	Healthy	0ms
Perplexity	In: $1.00Out: $1.00	100 RPM / 200K TPM	us-east-1us-west-2	Healthy	0ms
NLP Cloud	In: $1.20Out: $1.20	60 RPM / 200K TPM	us-east-1eu-west-1	Healthy	0ms

Quick Start

Use this model via Inference.net with an OpenAI-compatible SDK.

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.inference-net.com/v1",
  apiKey: process.env.INFERENCE_NET_API_KEY,
});

const response = await client.chat.completions.create({
  model: "meta-llama/Llama-3.3-70B-Instruct",
  messages: [
    { role: "user", content: "Hello!" }
  ],
});

console.log(response.choices[0].message.content);

Using Inference.net API • OpenAI-compatible SDK