Open WebUI

Open WebUI es una interfaz de chat para modelos de IA locales usando Ollama. Corre Llama, Mistral, Phi y otros modelos directamente en tu servidor. Sin costos por API, sin limites de tokens, privacidad total.

Para que sirve

Chat privado con IA - Tus conversaciones nunca salen de tu servidor
Sin costos por API - Modelos open-source corren gratis en tu VPS
Multiples modelos - Instala varios y cambia entre ellos al vuelo
Interfaz familiar - UI similar a ChatGPT, facil para cualquiera
Opcional: APIs externas - Tambien conecta OpenAI, Anthropic si necesitas

Casos de uso comunes

Privacidad empresarial

Documentos confidenciales que no pueden salir de tu red
Cumplimiento de normativas de datos (GDPR, etc.)
Evitar que terceros entrenen con tus conversaciones

Ahorro en costos de IA

Sin limites de tokens ni suscripciones mensuales
Una vez instalado, usalo todo lo que quieras
Ideal para equipos con alto volumen de uso

Experimentacion con modelos

Prueba diferentes modelos para cada tarea
Compara respuestas entre Llama, Mistral, Phi
Aprende sobre IA sin gastar en APIs

Desarrollo y prototipado

Desarrolla aplicaciones con IA sin costos de API
Prueba prompts antes de implementar en produccion
Ambiente de sandbox para experimentar

Primeros pasos

1. Accede a tu Open WebUI

Despues de crear tu deployment, ve a:

https://tu-subdominio.deployalo.com

2. Crea tu cuenta de administrador

La primera persona en registrarse se convierte en admin:

Clic en Sign up
Ingresa tu email y contrasena
Este sera el administrador del sistema

tip

Puedes deshabilitar el registro publico despues en Configuracion.

3. Descarga tu primer modelo

Por defecto, Ollama no tiene modelos instalados. Descarga uno:

Abre el menu (icono de hamburguesa arriba a la izquierda)
Ve a Admin Panel → Settings → Models
En Pull a model, escribe el nombre del modelo:
- llama3.2:3b - Ligero, rapido (2GB)
- llama3.1:8b - Balanceado (5GB)
- mistral:7b - Muy bueno para texto (4GB)
Clic en el boton de descarga
Espera a que termine (puede tomar varios minutos)

4. Empieza a chatear

Selecciona el modelo descargado en el dropdown superior
Escribe tu mensaje
Listo - tu propia IA privada

Modelos recomendados

Por capacidad del servidor

Plan	RAM	Modelos recomendados
Basico	4 GB	`llama3.2:3b`, `phi3:mini`
Avanzado	8 GB	`llama3.1:8b`, `mistral:7b`, `gemma2:9b`
Pro	16 GB	`llama3.1:70b`, `mixtral:8x7b`, `codellama:34b`

Por caso de uso

Uso	Modelo	Tamano
Chat general	`llama3.2:3b`	2 GB
Escritura	`mistral:7b`	4 GB
Codigo	`codellama:7b`	4 GB
Razonamiento	`llama3.1:8b`	5 GB
Multilingue	`gemma2:9b`	5 GB

Descargar modelos

Desde la interfaz

Menu → Admin Panel → Settings → Models
En Pull a model, escribe: nombre-modelo:tag
Clic en descargar
Espera a que complete

Tags comunes

:latest - Version por defecto
:7b, :8b, :13b, :70b - Tamano del modelo (B = billones de parametros)
:q4_0 - Cuantizado a 4 bits (mas pequeno, ligeramente menos preciso)

Ejemplos

llama3.2:3b          # Llama 3.2 de 3B parametros
mistral:7b-instruct  # Mistral 7B optimizado para instrucciones
codellama:13b        # CodeLlama para programacion

Configuracion

Desactivar registro publico

Si no quieres que cualquiera pueda registrarse:

Menu → Admin Panel → Settings → General
Desactiva Enable New Sign Ups
Guarda cambios

Ahora solo el admin puede crear usuarios.

Agregar OpenAI (opcional)

Ademas de modelos locales, puedes usar GPT-4:

Menu → Admin Panel → Settings → Connections
En OpenAI API, ingresa tu API key
Guarda

Ahora veras modelos de OpenAI en el dropdown.

Agregar Anthropic (opcional)

Para usar Claude:

Ve a Connections
Agrega tu API key de Anthropic
Guarda

Personalizacion

Crear un personaje

Puedes crear asistentes con personalidad especifica:

Menu → Workspace → Modelfiles
Clic en Create a Modelfile
Define tu asistente:

FROM llama3.2:3b

SYSTEM """
Eres un asistente de atencion al cliente para [Tu Empresa].
Respondes preguntas sobre productos y servicios.
Siempre eres amable y profesional.
Si no sabes algo, lo admites.
"""

PARAMETER temperature 0.7

Guarda y usa tu personaje en chats

Parametros comunes

Parametro	Descripcion	Valor por defecto
`temperature`	Creatividad (0-2)	0.8
`top_p`	Diversidad de respuestas	0.9
`num_ctx`	Ventana de contexto	2048

Integraciones

API de Open WebUI

Open WebUI expone una API compatible con OpenAI:

curl https://tu-subdominio.deployalo.com/api/chat/completions \
  -H "Authorization: Bearer TU_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Hola!"}]
  }'

Obtener API Key

Menu → Settings → Account
Genera una API Key
Usala en tus integraciones

Conectar con n8n

En n8n, usa el nodo HTTP Request
Configura:
- URL: https://tu-subdominio.deployalo.com/api/chat/completions
- Method: POST
- Headers: Authorization: Bearer TU_API_KEY
Envia mensajes y procesa respuestas

Rendimiento

Recomendaciones por plan

Basico (4 GB RAM):

Usa modelos de 3B o menos
Un chat a la vez
Respuestas rapidas pero menos precisas

Avanzado (8 GB RAM):

Modelos hasta 8B
Multiples usuarios simultaneos
Balance calidad/velocidad

Pro (16 GB RAM):

Modelos grandes (hasta 70B cuantizado)
Alto volumen de uso
Maxima calidad de respuestas

Optimizar velocidad

Usa modelos cuantizados (:q4_0)
Reduce num_ctx si no necesitas contexto largo
Descarga solo los modelos que uses

Administracion

Gestion de usuarios

Menu → Admin Panel → Users
Ve todos los usuarios registrados
Opciones:
- Cambiar rol (user/admin)
- Desactivar cuenta
- Eliminar usuario

Roles

Rol	Puede hacer
User	Chatear, crear conversaciones
Admin	Todo + gestionar usuarios y modelos

Monitoreo

En Admin Panel → Dashboard puedes ver:

Usuarios activos
Conversaciones recientes
Modelos en uso

Preguntas frecuentes

¿Que modelos puedo usar?

Cualquier modelo de Ollama. Lista completa en ollama.com/library.

¿Por que es lento?

Los modelos de IA requieren mucha memoria y CPU. Si esta lento:

Usa un modelo mas pequeno
Actualiza a un plan con mas recursos
Reduce el contexto de la conversacion

¿Mis datos estan seguros?

Si, todo corre en tu servidor de Deployalo. Tus conversaciones nunca salen de tu VPS.

¿Puedo usar GPU?

No en los planes actuales. Los servidores usan CPU. Para GPU, contacta soporte.

¿Cuantos usuarios pueden usarlo?

Depende del plan y modelo:

Basico: 1-3 usuarios simultaneos
Avanzado: 5-10 usuarios simultaneos
Pro: 20+ usuarios simultaneos

¿Como actualizo Open WebUI?

Deployalo actualiza automaticamente los contenedores. Para forzar actualizacion, reinicia el servicio desde el panel.

¿Puedo correr multiples modelos a la vez?

Si, pero cada modelo consume memoria. Con 8GB puedes tener 2 modelos pequenos cargados. Con 16GB, varios mas.

Para que sirve​

Casos de uso comunes​

Privacidad empresarial​

Ahorro en costos de IA​

Experimentacion con modelos​

Desarrollo y prototipado​

Primeros pasos​

1. Accede a tu Open WebUI​

2. Crea tu cuenta de administrador​

3. Descarga tu primer modelo​

4. Empieza a chatear​

Modelos recomendados​

Por capacidad del servidor​

Por caso de uso​

Descargar modelos​

Desde la interfaz​

Tags comunes​

Ejemplos​

Configuracion​

Desactivar registro publico​

Agregar OpenAI (opcional)​

Agregar Anthropic (opcional)​

Personalizacion​

Crear un personaje​

Parametros comunes​

Integraciones​

API de Open WebUI​

Obtener API Key​

Conectar con n8n​

Rendimiento​

Recomendaciones por plan​

Optimizar velocidad​

Administracion​

Gestion de usuarios​

Roles​

Monitoreo​

Preguntas frecuentes​

¿Que modelos puedo usar?​

¿Por que es lento?​

¿Mis datos estan seguros?​

¿Puedo usar GPU?​

¿Cuantos usuarios pueden usarlo?​

¿Como actualizo Open WebUI?​

¿Puedo correr multiples modelos a la vez?​

Recursos​