Google·Gemini 3 family

Gemini 3.1 Flash-Lite

proprietaryReleased May 2026

Google's most cost-efficient Gemini model optimized for high-volume, low-latency use cases. Delivers 2.5x faster time to first token versus Gemini 2.5 Flash with full multimodal support. Ideal for agentic tasks, data extraction, translation, and classification.

Capabilities

chatcompletionfunction-callingvisionaudiocode-generation

Modalities

textimageaudiovideocode

Context Window

1.0M tokens

Providers

available

Available from 2 providers

Cheapest

Google AI Studio

$1.75/1M tokens

Google AI Studio, Google Cloud Vertex AI

Providers (2)

Sorted by total cost (input + output per 1M tokens). Click a row to view provider details.

Provider	Pricing (per 1M)	Rate Limits	Regions	Health	Latency
Google AI Studio	In: $0.25Out: $1.50	15 RPM / 1.0M TPM	us-east-1eu-west-1global	Healthy	0ms
Google Cloud Vertex AI	In: $0.25Out: $1.50	360 RPM / 4.0M TPM	us-east-1eu-west-1global	Healthy	0ms

Quick Start

Use this model via Google AI Studio with an OpenAI-compatible SDK.

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.google-ai-studio.com/v1",
  apiKey: process.env.GOOGLE_AI_STUDIO_API_KEY,
});

const response = await client.chat.completions.create({
  model: "gemini-3.1-flash-lite",
  messages: [
    { role: "user", content: "Hello!" }
  ],
});

console.log(response.choices[0].message.content);

Using Google AI Studio API • OpenAI-compatible SDK