Resposta rápida: 📥 Download Oficial Gratuito⬇️ Baixar Open WebUI — Site Oficial✅ 100% gratuito e seguroComo Obter Open WebUI Legalmente de...
Open WebUI é uma interface web de chat gratuita e de código aberto que funciona como alternativa ao ChatGPT para conversar com modelos de linguagem locais via Ollama, llama.cpp, LM Studio ou endpoints compatíveis com a API OpenAI. Roda em Docker ou Python local e oferece experiência visual idêntica ao ChatGPT, com sidebar de conversas, seleção de modelos e edição de respostas. Além da interface familiar, adiciona funcionalidades ausentes no ChatGPT pago: busca em documentos PDF e sites (RAG), geração de imagens via ComfyUI, suporte a voz, plugins Python customizados e fine-tuning de modelos. Suporta múltiplos usuários e funciona completamente offline após instalação. Resolve o problema prático de quem instala Ollama ou ferramentas similares e recebe apenas um servidor HTTP e CLI — oferecendo uma camada visual intuitiva para uso diário, projetos longos e compartilhamento com equipes ou familiares.
Atualizado em 05/06/2026
Resposta rápida: Open WebUI é uma interface web de chat gratuita e de código aberto (licença BSD-3-Clause) que roda em Docker ou Python local e oferece experiência idêntica ao ChatGPT para conversar com modelos LLM locais via Ollama, llama.cpp, LM Studio ou qualquer endpoint compatível com a API OpenAI. Suporta múltiplos usuários, RAG (busca em PDFs/sites), geração de imagens via ComfyUI, voz, plugins Python e funciona 100% offline depois de instalado — comunidade de mais de 70 mil estrelas no GitHub.
O Open WebUI (originalmente chamado Ollama WebUI) é hoje o front-end mais popular do mundo para inteligência artificial local. Ele resolve um problema concreto: quem instala Ollama, llama.cpp ou LM Studio recebe apenas um servidor HTTP e uma CLI; conversar via terminal funciona, mas não é prático para uso diário, projeto longo ou compartilhamento com a família ou time. O Open WebUI veste esse backend com uma interface familiar, espelhando o ChatGPT na disposição (sidebar com conversas, caixa de prompt, modelos selecionáveis, regenerar, editar resposta, anexar arquivos) e adicionando recursos que o ChatGPT pago não tem: RAG sobre documentos da sua máquina, conexão com múltiplas instâncias Ollama via rede local, plugins Python customizados, fine-tuning de modelos, integração com Stable Diffusion via Automatic1111 ou ComfyUI, controle granular de prompt de sistema por conversa e API OpenAI-compatível para alimentar outras aplicações.
O que o Open WebUI entrega na prática
Você abre o navegador em http://localhost:3000, escolhe um modelo da lista (Llama 3.3, Mistral, Qwen, DeepSeek, Gemma, Phi, qualquer um instalado no Ollama), digita a pergunta e recebe a resposta — exatamente como o ChatGPT funciona, com a diferença de que toda inferência roda no seu hardware e nada sai da máquina. A interface tem suporte a múltiplos chats simultâneos arrastáveis, pastas para organizar, busca textual em todo o histórico, marcação de mensagens favoritas, exportar conversa como JSON ou Markdown e regenerar com modelo diferente para comparar. O editor de mensagens é Markdown-aware com realce de sintaxe (Highlight.js), suporta blocos de código copiáveis, fórmulas LaTeX via KaTeX e renderiza tabelas, listas aninhadas e citações. Para áudio, há transcrição via Whisper local e TTS via Piper, openai-edge-tts ou ElevenLabs — você pode falar a pergunta e ouvir a resposta sem nunca usar internet. Para visão, qualquer modelo multimodal (Llama 3.2 Vision, LLaVA, Bakllava, Qwen-VL) aceita imagens arrastadas ou coladas, e descreve, OCR-eia ou analisa cenas.
Multi-usuário é nativo. Você cria a conta admin no primeiro acesso, depois cadastra outros usuários (família, time, alunos), atribui papéis (admin, user, pending) e cada um tem suas próprias conversas isoladas. Modelos podem ser restritos por usuário ou grupo, e há controle de quota e auditoria. Isso transforma a máquina com Ollama num pequeno servidor de IA doméstico ou de escritório — uma RTX 3060 12 GB serve 5-6 pessoas de baixa demanda simultaneamente, e uma RTX 4090 sustenta 15-20.
Como instalar Open WebUI em qualquer sistema
O caminho oficial e mais robusto é via Docker. No Linux ou macOS com Docker instalado, rode o comando: docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main. Isso baixa a imagem (cerca de 1,8 GB), expõe a porta 3000, conecta ao Ollama rodando no host (porta 11434 padrão) e cria volume persistente para banco SQLite, modelos e configurações. No Windows 10/11 com WSL2 e Docker Desktop, o mesmo comando funciona idêntico no terminal PowerShell ou WSL Ubuntu. Para quem prefere instalação nativa sem Docker, há o pacote pip: pip install open-webui seguido de open-webui serve — requer Python 3.11+, e baixa o frontend Svelte compilado automaticamente. Em Linux ARM (Raspberry Pi 5, Apple Silicon via container) há imagem multiarch ghcr.io/open-webui/open-webui:main que roda em aarch64.
Se você ainda não tem o Ollama, instale-o antes em ollama.com/download (Mac, Linux, Windows) e baixe pelo menos um modelo: ollama pull llama3.2:3b dá um modelo de 2 GB que roda confortável em qualquer notebook moderno, ou ollama pull qwen2.5:14b para algo mais robusto se você tem GPU dedicada com 16+ GB VRAM. Ao abrir o Open WebUI pela primeira vez, ele detecta o Ollama automaticamente via host.docker.internal:11434 e popula a lista de modelos disponíveis.
Comparativo: Open WebUI vs. LM Studio vs. AnythingLLM vs. Chatbox
| Recurso | Open WebUI | LM Studio | AnythingLLM | Chatbox |
|---|---|---|---|---|
| Licença | BSD-3 (FOSS) | Proprietária (free) | MIT (FOSS) | GPL-3 |
| Multi-usuário com login | Sim (nativo) | Não (uso pessoal) | Sim | Não |
| Interface web ou desktop | Web (browser) | Desktop nativa | Web/Desktop | Desktop |
| RAG (PDFs, sites, docs) | Sim nativo | Limitado | Sim (foco) | Não |
| Pesquisa web integrada | SearXNG, Brave, Tavily | Não | Sim | Não |
| Geração de imagem | Automatic1111 / ComfyUI | Não | DALL-E API | Não |
| Voz (STT/TTS) | Whisper, Piper, ElevenLabs | Não | Limitado | Não |
| Plugins/Functions Python | Sim (Pipes/Filters/Tools) | Não | Limitado | Não |
| Backends suportados | Ollama, llama.cpp, OpenAI API, OpenRouter | llama.cpp (próprio) | 20+ providers | 15+ providers |
| Roda offline 100% | Sim | Sim | Parcial | Parcial |
| Custo | Grátis | Grátis (uso pessoal) | Grátis (FOSS) | Grátis |
A leitura honesta: para uso individual em desktop sem complicações, LM Studio vence em facilidade — instalação um-clique, sem Docker, GUI nativa. Para uso de família, time ou servidor doméstico, Open WebUI vence porque é o único com multi-usuário real, RAG nativo polido, plugins Python e roda em servidor headless acessível pela rede local. AnythingLLM compete no nicho de RAG corporativo. Chatbox cobre o caso de quem só quer um cliente desktop simples para múltiplas APIs (OpenAI, Anthropic, Gemini, OpenRouter) sem rodar nada local.
RAG: como conversar com seus próprios PDFs e sites
O recurso que separa Open WebUI de um chat genérico é a base de conhecimento (Knowledge). Você cria uma “Knowledge” no painel, arrasta PDFs, DOCX, MD, TXT, EPUB ou cola URLs (o Open WebUI faz o crawl), e o sistema fragmenta o conteúdo, gera embeddings via modelo de embedding (padrão: nomic-embed-text via Ollama, ou OpenAI text-embedding-3-small se preferir), e armazena num banco vetorial ChromaDB local. Depois, ao iniciar uma conversa, você anexa a Knowledge ao chat — toda pergunta sua é primeiro vetorizada e busca-se os trechos mais similares, que são injetados no prompt do modelo junto com a sua pergunta. O resultado: o modelo responde como se tivesse lido aqueles PDFs. Para um advogado, é varar 500 páginas de processo em segundos com perguntas naturais. Para um estudante, é resumir e questionar livros inteiros. Para um dev, é fazer perguntas sobre toda a documentação interna do projeto. Tudo offline, sem mandar nada para nuvem.
Configurações avançadas de RAG ficam em “Admin Panel > Settings > Documents”: modelo de embedding, tamanho do chunk (padrão 500 tokens), overlap entre chunks (50 tokens), top-K (quantos trechos buscar, padrão 3), e o reranker opcional para refinar relevância. Há suporte a “Reranking” via cohere-rerank ou modelos locais cross-encoder. Para domínios específicos (médico, jurídico), você pode swap o embedding por modelos especializados (BioBERT, LegalBERT) que aumentam precisão de retrieval.
Functions, Pipes e Filters: extensibilidade real
O sistema de plugins do Open WebUI é genuíno: você escreve Python e o sistema carrega em runtime. Há três tipos. Functions são “ferramentas” que o LLM pode chamar (function calling padrão OpenAI): por exemplo, uma Function “consultar_clima(cidade)” que faz request à API OpenWeather e devolve a temperatura — o modelo decide quando chamar. Pipes são modelos sintéticos: você escreve um Pipe que combina dois modelos em sequência (um para reescrever a pergunta, outro para responder), ou que chama um endpoint customizado (Anthropic Claude via API, OpenRouter, Groq) e aparece como se fosse um modelo Ollama nativo na lista. Filters interceptam mensagens antes e depois — útil para redaction (apagar dados sensíveis antes de mandar ao LLM), tradução automática, ou logging. A comunidade publica plugins em openwebui.com/community, com milhares de Functions/Pipes/Filters prontos.
Quando NÃO usar Open WebUI
- Se você só quer chat com OpenAI/Claude pago, sem rodar nada local — Chatbox ou TypingMind são mais leves; não precisa Docker.
- Em hardware sem GPU dedicada e RAM < 8 GB — você consegue rodar modelos pequenos (Qwen 1.5B, Phi-3.5 mini) mas a velocidade é frustrante; vale mais pagar API.
- Para uso 100% mobile — Open WebUI funciona em browser mobile mas não é PWA otimizado; apps como ChatterUI ou Pocket Llama servem melhor Android.
- Se você precisa de função pesada de coding agent (escrever PR inteiro, rodar testes, abrir browser) — Aider, Cline, Continue.dev ou Claude Code são especializados; Open WebUI faz coding básico mas não orquestra agente.
- Em ambientes onde Docker é proibido pela política de TI — use o pip install nativo, mas auditoria de TI ainda pode bloquear pacotes Python externos.
Segurança, privacidade e quando expor na internet
Por padrão, Open WebUI escuta apenas em localhost. Para usar em rede local (LAN doméstica), basta abrir a porta 3000 no firewall — qualquer dispositivo na mesma rede acessa via IP local. Para expor à internet (acessar de fora de casa), o caminho seguro é Tailscale ou ZeroTier (VPN mesh sem expor portas) ou Cloudflare Tunnel (cria túnel reverso autenticado). NUNCA exponha diretamente via port-forward para internet — o painel admin tem ataques de força bruta conhecidos se sem rate-limit. Habilite HTTPS via Traefik, Nginx Proxy Manager ou Caddy se for produção, e ative autenticação OIDC (Google, Microsoft, Authentik, Authelia) em vez de senha local para sua família/time. Toda conversa fica em SQLite no volume Docker; backup é copiar a pasta — não envia nada para servidor externo.
Perguntas frequentes
Open WebUI é grátis mesmo? Tem versão paga?
Sim, é 100% grátis e código aberto sob BSD-3-Clause. Não há tier pago, paywall, anúncios ou telemetria obrigatória. Há um botão de doação opcional. Empresas podem usar comercialmente sem custo.
Preciso de GPU para rodar?
Para Open WebUI em si, não — ele é só interface, consome 200-400 MB RAM. Para os modelos LLM via Ollama, sim: modelos de 7B parâmetros exigem 8 GB VRAM ou 16 GB RAM (CPU lento), 13B exigem 16 GB VRAM, 70B exigem 48+ GB VRAM. Modelos quantizados (Q4_K_M) cabem em hardware menor.
Posso usar Open WebUI com API OpenAI ou Claude paga?
Sim. Em “Admin > Connections” você adiciona endpoints OpenAI-compatíveis (api.openai.com, openrouter.ai, qualquer provider que exponha a API padrão). Para Claude, use OpenRouter ou um Pipe customizado da comunidade. Você mistura modelos locais e cloud na mesma interface.
Como atualizo o Open WebUI?
Com Docker: docker pull ghcr.io/open-webui/open-webui:main e recrie o container. Releases mensais. O volume persistente preserva configurações e conversas. Com pip: pip install -U open-webui.
Open WebUI envia meus dados para algum servidor?
Não por padrão. Toda inferência é local (Ollama na sua máquina). Há telemetria opcional desabilitada por padrão. Se você ativar pesquisa web via Brave/Tavily ou conectar API OpenAI, essas requisições saem; modelos puramente Ollama são 100% offline.
Veredicto: vale instalar?
Sim, sem dúvida, para qualquer pessoa que já rode ou queira rodar LLMs locais. Open WebUI é a interface mais madura, ativa e completa do ecossistema FOSS de IA em 2026, e a única que combina chat ChatGPT-like + RAG sólido + multi-usuário + plugins reais num pacote único e gratuito. A instalação Docker leva cinco minutos, e o ganho de produtividade sobre o terminal do Ollama é absoluto. Se você está começando, instale junto com Ollama e o modelo Llama 3.3 8B — em 15 minutos você tem um ChatGPT pessoal rodando 100% offline na sua máquina. Para uso familiar ou de pequeno time, é a forma mais barata e privada de oferecer IA de verdade para várias pessoas sem assinaturas mensais.
Para complementar o stack, veja também o WP-CLI para automatizar tarefas via terminal, o Tabby como emulador moderno onde rodar Ollama com conforto e o Linux Mint como base estável para servidor doméstico de IA.
Receba os melhores programas GRÁTIS por e-mail — 1 e-mail/semana
Software gratuito, open-source e alternativas legais a programas pagos. Sem spam, sem pirataria. Cancela quando quiser. Ao assinar você ganha nosso Kit Essencial: 30 Programas Grátis que Substituem Software Pago.




