Resposta rápida: Ollama roda modelos de IA como Llama 3 e Mistral no seu PC, grátis e offline. Veja requisitos, instalação, comandos e quando vale a pena — ou não — usar IA local.
Ollama é uma ferramenta gratuita e open-source que permite rodar modelos de linguagem (LLMs) como Llama 3, Mistral e Gemma diretamente no seu PC, sem conexão com a internet e sem enviar dados a terceiros. Com menos de 5 comandos no terminal, você tem um assistente de IA funcional rodando 100% local.
Atualizado em 19/06/2026
Em 2024 e 2025, a corrida por privacidade e autonomia em IA acelerou. Ferramentas como ChatGPT são poderosas, mas dependem de servidores externos, têm limites de uso e enviam suas conversas para a nuvem. O Ollama resolve isso: você baixa o modelo uma vez, ele fica na sua máquina e responde offline quantas vezes quiser. O projeto é open-source (licença MIT), mantido ativamente no GitHub e disponível para Windows, macOS e Linux. Não há cadastro, não há assinatura, não há telemetria obrigatória. Para desenvolvedores, pesquisadores, profissionais de saúde ou qualquer pessoa que lide com dados sensíveis, essa proposta é difícil de ignorar. Este guia cobre tudo que você precisa: requisitos de hardware realistas, instalação, comandos essenciais e quando o Ollama é — ou não é — a escolha certa.
O que é o Ollama e como ele funciona?
O Ollama é um servidor local de modelos de IA. Ele baixa os pesos do modelo (arquivos .gguf ou formato próprio), carrega na memória RAM ou VRAM da GPU e expõe uma API REST no endereço http://localhost:11434. Qualquer aplicação — terminal, interface web, plugin de editor — pode conversar com esse servidor como se fosse o ChatGPT, mas tudo fica na sua máquina.
O projeto é mantido no repositório oficial github.com/ollama/ollama e o download está em ollama.com. Nunca baixe de sites de terceiros — o instalador oficial tem menos de 100 MB e é assinado digitalmente.
Quais os requisitos de hardware para rodar o Ollama?
Este é o ponto mais crítico e mais mal explicado pela maioria dos tutoriais. A regra de ouro: o modelo inteiro precisa caber na memória (RAM ou VRAM). Se não couber, o Ollama usa RAM + disco (via llama.cpp), o que deixa a resposta muito lenta.
| Tamanho do modelo | RAM mínima (CPU) | VRAM GPU recomendada | Exemplos de modelos |
|---|---|---|---|
| 1–3B parâmetros | 8 GB | 4 GB | Phi-3 Mini, Gemma 2B |
| 7–8B parâmetros | 16 GB | 8 GB | Llama 3.1 8B, Mistral 7B |
| 13B parâmetros | 32 GB | 12–16 GB | Llama 2 13B, Code Llama 13B |
| 30–34B parâmetros | 64 GB | 24 GB | Mixtral 8x7B, Llama 3 70B (Q4) |
| 70B+ parâmetros | 128 GB+ | 48 GB+ (multi-GPU) | Llama 3 70B completo |
Dica prática: com 16 GB de RAM e uma GPU com 8 GB de VRAM (RTX 3060 ou similar), você roda o Llama 3.1 8B com boa velocidade — em torno de 30 a 60 tokens por segundo. Em CPU pura com 16 GB, espere 5 a 15 tokens por segundo, o suficiente para uso casual, mas lento para conversas longas.
Como instalar o Ollama no Windows, Mac e Linux?
Windows
Acesse ollama.com/download, baixe o instalador OllamaSetup.exe e execute. O instalador adiciona o Ollama ao PATH automaticamente. Após a instalação, abra o PowerShell ou CMD e teste:
ollama –version
macOS
Baixe o arquivo Ollama-darwin.zip na mesma página, extraia e arraste para a pasta Aplicativos. O Ollama aparece na barra de menus. Compatível com Apple Silicon (M1/M2/M3) e Intel — no Apple Silicon, a GPU unificada é totalmente aproveitada.
Linux
Execute o script oficial em uma linha no terminal:
curl -fsSL https://ollama.com/install.sh | sh
O script detecta sua distribuição, instala as dependências e cria um serviço systemd. Suporte a GPU NVIDIA (CUDA) e AMD (ROCm) é automático se os drivers estiverem instalados.
Quais os comandos essenciais do Ollama?
- ollama run llama3 — baixa (se necessário) e inicia uma conversa com o Llama 3 8B
- ollama run mistral — inicia o Mistral 7B
- ollama run gemma:2b — versão leve do Gemma, boa para PCs com 8 GB de RAM
- ollama run phi3:mini — Phi-3 Mini da Microsoft, surpreendentemente capaz para 3.8B parâmetros
- ollama list — lista modelos já baixados localmente
- ollama pull nomic-embed-text — baixa um modelo de embeddings para RAG
- ollama rm llama3 — remove um modelo do disco
- ollama serve — inicia o servidor manualmente (já roda em background no Windows/Mac)
A lista completa de modelos disponíveis está em ollama.com/library — mais de 100 modelos indexados, incluindo versões quantizadas (Q4, Q5, Q8) que ocupam menos espaço com perda mínima de qualidade.
Quais modelos valem a pena baixar primeiro?
Para quem está começando com hardware modesto (16 GB RAM, GPU 8 GB), a recomendação é:
- Llama 3.1 8B — melhor custo-benefício geral, ótimo em português
- Mistral 7B — rápido, preciso, excelente para código
- Gemma 2 9B — modelo Google, bom raciocínio lógico
- Phi-3 Mini (3.8B) — para PCs com 8 GB de RAM, impressiona pela eficiência
- CodeLlama 7B — especializado em código, integra bem com editores
- Llava 7B — modelo multimodal, entende imagens além de texto
Como usar o Ollama com interface gráfica (Open WebUI)?
O Ollama sozinho funciona no terminal, mas você pode ter uma interface idêntica ao ChatGPT instalando o Open WebUI. Com Docker instalado, um único comando faz tudo:
docker run -d -p 3000:8080 –add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data –name open-webui –restart always ghcr.io/open-webui/open-webui:main
Acesse http://localhost:3000, crie uma conta local (nenhum dado sai da máquina) e use qualquer modelo já baixado no Ollama com histórico de conversas, upload de documentos e suporte a múltiplos usuários. Ideal para equipes internas ou uso doméstico sem exposição de dados.
Se preferir sem Docker, o Open WebUI também tem instalador Python via pip. Veja a documentação em github.com/open-webui/open-webui.
Quando NÃO usar o Ollama — limitações honestas
- PC com menos de 8 GB de RAM: os modelos não cabem e a experiência será frustrante.
- Tarefas que exigem raciocínio de ponta: GPT-4o, Claude Opus e Gemini Ultra ainda superam qualquer modelo local em problemas complexos de raciocínio, matemática avançada e criação sofisticada.
- Velocidade em CPU pura: sem GPU, respostas longas demoram minutos. Para uso intenso, GPU é quase obrigatória.
- Modelos muito grandes sem hardware adequado: rodar Llama 3 70B sem pelo menos 40 GB de VRAM resulta em desempenho inutilizável.
- Aplicações multiusuário em produção: o Ollama é otimizado para uso local/dev; para escala, considere soluções gerenciadas.
Ollama vs outras soluções de IA local
| Ferramenta | Facilidade | API REST | Interface gráfica | Windows |
|---|---|---|---|---|
| Ollama | Alta | Sim (nativa) | Via Open WebUI | Sim |
| LM Studio | Alta | Sim | Nativa (gráfica) | Sim |
| llama.cpp (puro) | Baixa | Via servidor | Não | Sim (compilar) |
| Jan.ai | Alta | Sim | Nativa | Sim |
O Ollama se destaca pela API REST nativa e compatibilidade com o formato OpenAI, o que facilita integrar com ferramentas existentes sem reescrever código. Para quem prefere uma interface gráfica completa sem configuração extra, o LM Studio pode ser mais conveniente.
Para quem também trabalha com desenvolvimento, vale conhecer ferramentas como o Bruno, que assim como o Ollama prioriza privacidade, funcionamento offline e sem envio de dados para nuvem.
Perguntas frequentes sobre o Ollama
O Ollama é realmente gratuito para uso comercial?
Sim. O Ollama é licenciado sob MIT, permitindo uso comercial livre. Porém, cada modelo tem sua própria licença — o Llama 3 da Meta, por exemplo, tem licença própria com restrições para empresas acima de 700 milhões de usuários mensais.
Meus dados ficam realmente na minha máquina?
Sim. O Ollama não envia suas conversas para nenhum servidor. A inferência ocorre 100% localmente. A única conexão externa é o download inicial do modelo, feito direto do repositório oficial em ollama.com.
Funciona sem internet após o download do modelo?
Sim, totalmente offline. Após baixar o modelo uma vez, o Ollama funciona sem nenhuma conexão de rede. Ideal para ambientes corporativos com restrição de internet ou uso em viagens.
Posso usar o Ollama com VS Code ou outros editores?
Sim. Extensões como Continue.dev para VS Code conectam diretamente ao servidor local do Ollama, oferecendo autocompletar de código, chat e explicação de código sem depender de GitHub Copilot ou serviços pagos. Veja mais em nosso guia do VS Code.
O Ollama suporta português (pt-BR) bem?
Modelos maiores como Llama 3.1 8B e Mistral 7B respondem bem em português. Modelos menores (2B–3B) tendem a misturar inglês. Para melhor resultado em pt-BR, prefira modelos de 7B ou maiores e instrua no prompt que a resposta deve ser em português.
Veredicto: vale instalar o Ollama?
Se você tem ao menos 16 GB de RAM e qualquer GPU moderna, o Ollama é a forma mais rápida e privada de ter um assistente de IA funcional sem gastar um centavo e sem depender de conexão. Ele não vai substituir o GPT-4 em tarefas complexas, mas para uso diário — resumos, código, rascunhos, perguntas técnicas — os modelos locais chegam perto o suficiente para surpreender. Instale, rode ollama run llama3 e julgue por conta própria.
Receba os melhores programas GRÁTIS por e-mail — 1 e-mail/semana
Software gratuito, open-source e alternativas legais a programas pagos. Sem spam, sem pirataria. Cancela quando quiser. Ao assinar você ganha nosso Kit Essencial: 30 Programas Grátis que Substituem Software Pago.





6 Comentários