Open WebUI
Open WebUI es una interfaz de chat para modelos de IA locales usando Ollama. Corre Llama, Mistral, Phi y otros modelos directamente en tu servidor. Sin costos por API, sin limites de tokens, privacidad total.
Para que sirve
- Chat privado con IA - Tus conversaciones nunca salen de tu servidor
- Sin costos por API - Modelos open-source corren gratis en tu VPS
- Multiples modelos - Instala varios y cambia entre ellos al vuelo
- Interfaz familiar - UI similar a ChatGPT, facil para cualquiera
- Opcional: APIs externas - Tambien conecta OpenAI, Anthropic si necesitas
Casos de uso comunes
Privacidad empresarial
- Documentos confidenciales que no pueden salir de tu red
- Cumplimiento de normativas de datos (GDPR, etc.)
- Evitar que terceros entrenen con tus conversaciones
Ahorro en costos de IA
- Sin limites de tokens ni suscripciones mensuales
- Una vez instalado, usalo todo lo que quieras
- Ideal para equipos con alto volumen de uso
Experimentacion con modelos
- Prueba diferentes modelos para cada tarea
- Compara respuestas entre Llama, Mistral, Phi
- Aprende sobre IA sin gastar en APIs
Desarrollo y prototipado
- Desarrolla aplicaciones con IA sin costos de API
- Prueba prompts antes de implementar en produccion
- Ambiente de sandbox para experimentar
Primeros pasos
1. Accede a tu Open WebUI
Despues de crear tu deployment, ve a:
https://tu-subdominio.deployalo.com
2. Crea tu cuenta de administrador
La primera persona en registrarse se convierte en admin:
- Clic en Sign up
- Ingresa tu email y contrasena
- Este sera el administrador del sistema
Puedes deshabilitar el registro publico despues en Configuracion.
3. Descarga tu primer modelo
Por defecto, Ollama no tiene modelos instalados. Descarga uno:
- Abre el menu (icono de hamburguesa arriba a la izquierda)
- Ve a Admin Panel → Settings → Models
- En Pull a model, escribe el nombre del modelo:
llama3.2:3b- Ligero, rapido (2GB)llama3.1:8b- Balanceado (5GB)mistral:7b- Muy bueno para texto (4GB)
- Clic en el boton de descarga
- Espera a que termine (puede tomar varios minutos)
4. Empieza a chatear
- Selecciona el modelo descargado en el dropdown superior
- Escribe tu mensaje
- Listo - tu propia IA privada
Modelos recomendados
Por capacidad del servidor
| Plan | RAM | Modelos recomendados |
|---|---|---|
| Basico | 4 GB | llama3.2:3b, phi3:mini |
| Avanzado | 8 GB | llama3.1:8b, mistral:7b, gemma2:9b |
| Pro | 16 GB | llama3.1:70b, mixtral:8x7b, codellama:34b |
Por caso de uso
| Uso | Modelo | Tamano |
|---|---|---|
| Chat general | llama3.2:3b | 2 GB |
| Escritura | mistral:7b | 4 GB |
| Codigo | codellama:7b | 4 GB |
| Razonamiento | llama3.1:8b | 5 GB |
| Multilingue | gemma2:9b | 5 GB |
Descargar modelos
Desde la interfaz
- Menu → Admin Panel → Settings → Models
- En Pull a model, escribe:
nombre-modelo:tag - Clic en descargar
- Espera a que complete
Tags comunes
:latest- Version por defecto:7b,:8b,:13b,:70b- Tamano del modelo (B = billones de parametros):q4_0- Cuantizado a 4 bits (mas pequeno, ligeramente menos preciso)
Ejemplos
llama3.2:3b # Llama 3.2 de 3B parametros
mistral:7b-instruct # Mistral 7B optimizado para instrucciones
codellama:13b # CodeLlama para programacion
Configuracion
Desactivar registro publico
Si no quieres que cualquiera pueda registrarse:
- Menu → Admin Panel → Settings → General
- Desactiva Enable New Sign Ups
- Guarda cambios
Ahora solo el admin puede crear usuarios.
Agregar OpenAI (opcional)
Ademas de modelos locales, puedes usar GPT-4:
- Menu → Admin Panel → Settings → Connections
- En OpenAI API, ingresa tu API key
- Guarda
Ahora veras modelos de OpenAI en el dropdown.
Agregar Anthropic (opcional)
Para usar Claude:
- Ve a Connections
- Agrega tu API key de Anthropic
- Guarda
Personalizacion
Crear un personaje
Puedes crear asistentes con personalidad especifica:
- Menu → Workspace → Modelfiles
- Clic en Create a Modelfile
- Define tu asistente:
FROM llama3.2:3b
SYSTEM """
Eres un asistente de atencion al cliente para [Tu Empresa].
Respondes preguntas sobre productos y servicios.
Siempre eres amable y profesional.
Si no sabes algo, lo admites.
"""
PARAMETER temperature 0.7
- Guarda y usa tu personaje en chats
Parametros comunes
| Parametro | Descripcion | Valor por defecto |
|---|---|---|
temperature | Creatividad (0-2) | 0.8 |
top_p | Diversidad de respuestas | 0.9 |
num_ctx | Ventana de contexto | 2048 |
Integraciones
API de Open WebUI
Open WebUI expone una API compatible con OpenAI:
curl https://tu-subdominio.deployalo.com/api/chat/completions \
-H "Authorization: Bearer TU_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2:3b",
"messages": [{"role": "user", "content": "Hola!"}]
}'
Obtener API Key
- Menu → Settings → Account
- Genera una API Key
- Usala en tus integraciones
Conectar con n8n
- En n8n, usa el nodo HTTP Request
- Configura:
- URL:
https://tu-subdominio.deployalo.com/api/chat/completions - Method: POST
- Headers:
Authorization: Bearer TU_API_KEY
- URL:
- Envia mensajes y procesa respuestas
Rendimiento
Recomendaciones por plan
Basico (4 GB RAM):
- Usa modelos de 3B o menos
- Un chat a la vez
- Respuestas rapidas pero menos precisas
Avanzado (8 GB RAM):
- Modelos hasta 8B
- Multiples usuarios simultaneos
- Balance calidad/velocidad
Pro (16 GB RAM):
- Modelos grandes (hasta 70B cuantizado)
- Alto volumen de uso
- Maxima calidad de respuestas
Optimizar velocidad
- Usa modelos cuantizados (
:q4_0) - Reduce
num_ctxsi no necesitas contexto largo - Descarga solo los modelos que uses
Administracion
Gestion de usuarios
- Menu → Admin Panel → Users
- Ve todos los usuarios registrados
- Opciones:
- Cambiar rol (user/admin)
- Desactivar cuenta
- Eliminar usuario
Roles
| Rol | Puede hacer |
|---|---|
| User | Chatear, crear conversaciones |
| Admin | Todo + gestionar usuarios y modelos |
Monitoreo
En Admin Panel → Dashboard puedes ver:
- Usuarios activos
- Conversaciones recientes
- Modelos en uso
Preguntas frecuentes
¿Que modelos puedo usar?
Cualquier modelo de Ollama. Lista completa en ollama.com/library.
¿Por que es lento?
Los modelos de IA requieren mucha memoria y CPU. Si esta lento:
- Usa un modelo mas pequeno
- Actualiza a un plan con mas recursos
- Reduce el contexto de la conversacion
¿Mis datos estan seguros?
Si, todo corre en tu servidor de Deployalo. Tus conversaciones nunca salen de tu VPS.
¿Puedo usar GPU?
No en los planes actuales. Los servidores usan CPU. Para GPU, contacta soporte.
¿Cuantos usuarios pueden usarlo?
Depende del plan y modelo:
- Basico: 1-3 usuarios simultaneos
- Avanzado: 5-10 usuarios simultaneos
- Pro: 20+ usuarios simultaneos
¿Como actualizo Open WebUI?
Deployalo actualiza automaticamente los contenedores. Para forzar actualizacion, reinicia el servicio desde el panel.
¿Puedo correr multiples modelos a la vez?
Si, pero cada modelo consume memoria. Con 8GB puedes tener 2 modelos pequenos cargados. Con 16GB, varios mas.