Ollama: rodar IA local no seu PC

Resposta rápida: Ollama roda modelos de IA como Llama 3 e Mistral no seu PC, grátis e offline. Veja requisitos, instalação, comandos e quando vale a pena — ou não — usar IA local.

Ollama é uma ferramenta gratuita e open-source que permite rodar modelos de linguagem (LLMs) como Llama 3, Mistral e Gemma diretamente no seu PC, sem conexão com a internet e sem enviar dados a terceiros. Com menos de 5 comandos no terminal, você tem um assistente de IA funcional rodando 100% local.

Atualizado em 19/06/2026

Em 2024 e 2025, a corrida por privacidade e autonomia em IA acelerou. Ferramentas como ChatGPT são poderosas, mas dependem de servidores externos, têm limites de uso e enviam suas conversas para a nuvem. O Ollama resolve isso: você baixa o modelo uma vez, ele fica na sua máquina e responde offline quantas vezes quiser. O projeto é open-source (licença MIT), mantido ativamente no GitHub e disponível para Windows, macOS e Linux. Não há cadastro, não há assinatura, não há telemetria obrigatória. Para desenvolvedores, pesquisadores, profissionais de saúde ou qualquer pessoa que lide com dados sensíveis, essa proposta é difícil de ignorar. Este guia cobre tudo que você precisa: requisitos de hardware realistas, instalação, comandos essenciais e quando o Ollama é — ou não é — a escolha certa.

O que é o Ollama e como ele funciona?

O Ollama é um servidor local de modelos de IA. Ele baixa os pesos do modelo (arquivos .gguf ou formato próprio), carrega na memória RAM ou VRAM da GPU e expõe uma API REST no endereço http://localhost:11434. Qualquer aplicação — terminal, interface web, plugin de editor — pode conversar com esse servidor como se fosse o ChatGPT, mas tudo fica na sua máquina.

O projeto é mantido no repositório oficial github.com/ollama/ollama e o download está em ollama.com. Nunca baixe de sites de terceiros — o instalador oficial tem menos de 100 MB e é assinado digitalmente.

Quais os requisitos de hardware para rodar o Ollama?

Este é o ponto mais crítico e mais mal explicado pela maioria dos tutoriais. A regra de ouro: o modelo inteiro precisa caber na memória (RAM ou VRAM). Se não couber, o Ollama usa RAM + disco (via llama.cpp), o que deixa a resposta muito lenta.

Tamanho do modelo	RAM mínima (CPU)	VRAM GPU recomendada	Exemplos de modelos
1–3B parâmetros	8 GB	4 GB	Phi-3 Mini, Gemma 2B
7–8B parâmetros	16 GB	8 GB	Llama 3.1 8B, Mistral 7B
13B parâmetros	32 GB	12–16 GB	Llama 2 13B, Code Llama 13B
30–34B parâmetros	64 GB	24 GB	Mixtral 8x7B, Llama 3 70B (Q4)
70B+ parâmetros	128 GB+	48 GB+ (multi-GPU)	Llama 3 70B completo

Dica prática: com 16 GB de RAM e uma GPU com 8 GB de VRAM (RTX 3060 ou similar), você roda o Llama 3.1 8B com boa velocidade — em torno de 30 a 60 tokens por segundo. Em CPU pura com 16 GB, espere 5 a 15 tokens por segundo, o suficiente para uso casual, mas lento para conversas longas.

Como instalar o Ollama no Windows, Mac e Linux?

Windows

Acesse ollama.com/download, baixe o instalador OllamaSetup.exe e execute. O instalador adiciona o Ollama ao PATH automaticamente. Após a instalação, abra o PowerShell ou CMD e teste:

ollama –version

macOS

Baixe o arquivo Ollama-darwin.zip na mesma página, extraia e arraste para a pasta Aplicativos. O Ollama aparece na barra de menus. Compatível com Apple Silicon (M1/M2/M3) e Intel — no Apple Silicon, a GPU unificada é totalmente aproveitada.

Linux

Execute o script oficial em uma linha no terminal:

curl -fsSL https://ollama.com/install.sh | sh

O script detecta sua distribuição, instala as dependências e cria um serviço systemd. Suporte a GPU NVIDIA (CUDA) e AMD (ROCm) é automático se os drivers estiverem instalados.

Quais os comandos essenciais do Ollama?

ollama run llama3 — baixa (se necessário) e inicia uma conversa com o Llama 3 8B
ollama run mistral — inicia o Mistral 7B
ollama run gemma:2b — versão leve do Gemma, boa para PCs com 8 GB de RAM
ollama run phi3:mini — Phi-3 Mini da Microsoft, surpreendentemente capaz para 3.8B parâmetros
ollama list — lista modelos já baixados localmente
ollama pull nomic-embed-text — baixa um modelo de embeddings para RAG
ollama rm llama3 — remove um modelo do disco
ollama serve — inicia o servidor manualmente (já roda em background no Windows/Mac)

A lista completa de modelos disponíveis está em ollama.com/library — mais de 100 modelos indexados, incluindo versões quantizadas (Q4, Q5, Q8) que ocupam menos espaço com perda mínima de qualidade.

Quais modelos valem a pena baixar primeiro?

Para quem está começando com hardware modesto (16 GB RAM, GPU 8 GB), a recomendação é:

Llama 3.1 8B — melhor custo-benefício geral, ótimo em português
Mistral 7B — rápido, preciso, excelente para código
Gemma 2 9B — modelo Google, bom raciocínio lógico
Phi-3 Mini (3.8B) — para PCs com 8 GB de RAM, impressiona pela eficiência
CodeLlama 7B — especializado em código, integra bem com editores
Llava 7B — modelo multimodal, entende imagens além de texto

Como usar o Ollama com interface gráfica (Open WebUI)?

O Ollama sozinho funciona no terminal, mas você pode ter uma interface idêntica ao ChatGPT instalando o Open WebUI. Com Docker instalado, um único comando faz tudo:

docker run -d -p 3000:8080 –add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data –name open-webui –restart always ghcr.io/open-webui/open-webui:main

Acesse http://localhost:3000, crie uma conta local (nenhum dado sai da máquina) e use qualquer modelo já baixado no Ollama com histórico de conversas, upload de documentos e suporte a múltiplos usuários. Ideal para equipes internas ou uso doméstico sem exposição de dados.

Se preferir sem Docker, o Open WebUI também tem instalador Python via pip. Veja a documentação em github.com/open-webui/open-webui.

Quando NÃO usar o Ollama — limitações honestas

PC com menos de 8 GB de RAM: os modelos não cabem e a experiência será frustrante.
Tarefas que exigem raciocínio de ponta: GPT-4o, Claude Opus e Gemini Ultra ainda superam qualquer modelo local em problemas complexos de raciocínio, matemática avançada e criação sofisticada.
Velocidade em CPU pura: sem GPU, respostas longas demoram minutos. Para uso intenso, GPU é quase obrigatória.
Modelos muito grandes sem hardware adequado: rodar Llama 3 70B sem pelo menos 40 GB de VRAM resulta em desempenho inutilizável.
Aplicações multiusuário em produção: o Ollama é otimizado para uso local/dev; para escala, considere soluções gerenciadas.

Ollama vs outras soluções de IA local

Ferramenta	Facilidade	API REST	Interface gráfica	Windows
Ollama	Alta	Sim (nativa)	Via Open WebUI	Sim
LM Studio	Alta	Sim	Nativa (gráfica)	Sim
llama.cpp (puro)	Baixa	Via servidor	Não	Sim (compilar)
Jan.ai	Alta	Sim	Nativa	Sim

O Ollama se destaca pela API REST nativa e compatibilidade com o formato OpenAI, o que facilita integrar com ferramentas existentes sem reescrever código. Para quem prefere uma interface gráfica completa sem configuração extra, o LM Studio pode ser mais conveniente.

Para quem também trabalha com desenvolvimento, vale conhecer ferramentas como o Bruno, que assim como o Ollama prioriza privacidade, funcionamento offline e sem envio de dados para nuvem.

Perguntas frequentes sobre o Ollama

O Ollama é realmente gratuito para uso comercial?

Sim. O Ollama é licenciado sob MIT, permitindo uso comercial livre. Porém, cada modelo tem sua própria licença — o Llama 3 da Meta, por exemplo, tem licença própria com restrições para empresas acima de 700 milhões de usuários mensais.

Meus dados ficam realmente na minha máquina?

Sim. O Ollama não envia suas conversas para nenhum servidor. A inferência ocorre 100% localmente. A única conexão externa é o download inicial do modelo, feito direto do repositório oficial em ollama.com.

Funciona sem internet após o download do modelo?

Sim, totalmente offline. Após baixar o modelo uma vez, o Ollama funciona sem nenhuma conexão de rede. Ideal para ambientes corporativos com restrição de internet ou uso em viagens.

Posso usar o Ollama com VS Code ou outros editores?

Sim. Extensões como Continue.dev para VS Code conectam diretamente ao servidor local do Ollama, oferecendo autocompletar de código, chat e explicação de código sem depender de GitHub Copilot ou serviços pagos. Veja mais em nosso guia do VS Code.

O Ollama suporta português (pt-BR) bem?

Modelos maiores como Llama 3.1 8B e Mistral 7B respondem bem em português. Modelos menores (2B–3B) tendem a misturar inglês. Para melhor resultado em pt-BR, prefira modelos de 7B ou maiores e instrua no prompt que a resposta deve ser em português.

Veredicto: vale instalar o Ollama?

Se você tem ao menos 16 GB de RAM e qualquer GPU moderna, o Ollama é a forma mais rápida e privada de ter um assistente de IA funcional sem gastar um centavo e sem depender de conexão. Ele não vai substituir o GPT-4 em tarefas complexas, mas para uso diário — resumos, código, rascunhos, perguntas técnicas — os modelos locais chegam perto o suficiente para surpreender. Instale, rode ollama run llama3 e julgue por conta própria.

Receba os melhores programas GRÁTIS por e-mail — 1 e-mail/semana

Software gratuito, open-source e alternativas legais a programas pagos. Sem spam, sem pirataria. Cancela quando quiser. Ao assinar você ganha nosso Kit Essencial: 30 Programas Grátis que Substituem Software Pago.

Este conteúdo foi útil? Avalie:

★★★★★

Seja o primeiro a avaliar

Você também vai gostar

Leitores RSS e Agregadores Offline: Guia Completo 2026

Softwares de Animação 2D Gratuitos: Alternativas ao Toon Boom

Gerenciadores de Senhas Open Source: Bitwarden vs KeePass em 2026

Ferramentas de Transcodificação de Vídeo Gratuitas para Windows em 2026

O que é o Ollama e como ele funciona?

Quais os requisitos de hardware para rodar o Ollama?