
Cómo desplegar una render farm GPU dedicada de 20 nodos transfronteriza (2026)
Resumen
Introducción
Cuando un equipo creativo solicita una render farm dedicada que abarca varios sitios y un océano, casi siempre está sorteando una restricción que una render farm SaaS no puede resolver. Podría tratarse de un estudio que contractualmente no puede permitir que un tercero retenga sus credenciales, un equipo distribuido cuyos artistas en un país operan nodos en otro, o una productora cuyo compromiso multi-mensual hace económicamente inadecuada la facturación por frame.
¿Está evaluando infraestructura dedicada frente a nuestro alquiler de render farm administrada? En nuestra experiencia desplegando clusters dedicados, el problema difícil rara vez es "alquilar más GPUs". Es conectar las piezas correctas: almacenamiento en la nube propiedad del cliente, una flota GPU privada dimensionada para la carga, transporte transfronterizo cifrado que soporte el jitter, y una capa de escritorio remoto que no colapse al abrir un viewport 3D pesado. Cuando una pieza está mal, el cluster funciona, pero los artistas lo notan — y el compromiso se degrada silenciosamente.
Operamos Super Renders Farm, una render farm en la nube con flota CPU y GPU sustancial, y también montamos clusters GPU dedicados para equipos cuyos workflows no encajan en nuestro servicio administrado por defecto. Este artículo es una guía de campo derivada de esos despliegues — cómo arquitectamos una render farm GPU dedicada de 20 nodos que abarca dos sitios y sirve a artistas remotos cruzando fronteras, con notas honestas sobre las decisiones que tomamos, las que revertimos y las lecciones que aplicamos ahora por defecto.
Criterios de decisión: dedicado contra SaaS
La mayoría de cargas de renderizado no necesitan un cluster dedicado. Una render farm en la nube administrada envía una escena, programa los frames y factura por minuto. Para trabajo basado en proyecto — un cortometraje, un anuncio de 30 segundos, un lote de stills — ese modelo gana en cada eje relevante.
Un cluster dedicado solo se justifica cuando uno o más de los siguientes son verdaderos:
- El control de propiedad intelectual es contractual, no preferencial. El contrato del cliente prohíbe que un tercero retenga archivos de escena o credenciales de render. Los pipelines SaaS que median la subida de escenas violan esa restricción incluso si el cómputo subyacente es idéntico.
- El compromiso dura meses, no días. Trabajo de forma fija — una serie animada de larga duración, un pipeline archviz multi-trimestral, una etapa de producción virtual en curso — amortiza el costo arquitectónico inicial.
- El workflow es lo suficientemente personalizado para que un pipeline administrado no pueda alojarlo. Stacks personalizados de plugins DCC, render managers internos, pipelines pesados en simulación que pre-cocinan a una caché compartida, o cadenas de herramientas propietarias empujan hacia nodos dedicados.
- Bring-your-own-cloud es un requisito duro. Cuando los assets del proyecto del cliente viven en una plataforma de cloud file-streaming bajo la cuenta del cliente, el cluster debe iniciar sesión como el cliente.
- Las necesidades de segmentación de red van más allá de VLAN por tenant. Algunos workflows requieren que el cluster sea invisible a la red más amplia del proveedor.
Si ninguno de estos criterios aplica, una render farm administrada es casi con certeza la elección correcta. Si dos o más aplican, la conversación se desplaza hacia lo dedicado. La pregunta restante es geográfica.
Vista general de arquitectura
La arquitectura que desplegamos para clusters dedicados transfronterizos tiene tres planos: un plano de transporte, un plano de cómputo y un plano de aceleración de almacenamiento. Cada uno tiene un único modo de falla que, en nuestra experiencia, representa la mayor parte del dolor operativo cuando se rompe.
[ Equipo de artistas remotos ]
│ WireGuard (UDP 51820, cifrado extremo a extremo)
▼
┌──────────────────────────────────────────────────┐
│ Main DC (buen tránsito internacional) │
│ │
│ ┌──────────────────────────────────────────┐ │
│ │ EDGE + CACHE BOX (host Ubuntu único) │ │
│ │ • WireGuard hub (NAT/MASQUERADE) │ │
│ │ • Caché Samba SMB3 (single SSD, ext4) │ │
│ │ • dnsmasq (zona .lan) │ │
│ │ • chrony (NTP) │ │
│ │ • ufw + BBR + clamp TCP MSS │ │
│ └────────────┬─────────────────────────────┘ │
│ │ LAN │
│ ┌──────────▼───────────┐ │
│ │ Group A — ~10 nodos │ RTX 5090 │
│ │ (Sunshine + cliente │ C4D / Redshift / etc. │
│ │ cloud + mount caché) │ │
│ └───────────────────────┘ │
│ │
│ WireGuard sitio a sitio (vía ISP público) │
└────────────────────┬───────────────────────────────┘
▼
┌──────────────────────────────────────────────────┐
│ Sitio secundario (misma metrópoli) │
│ ┌───────────────────────┐ │
│ │ Group B — ~10 nodos │ lee caché vía │
│ │ (túnel a Main DC) │ túnel entre sitios │
│ └───────────────────────┘ │
└──────────────────────────────────────────────────┘
Plataforma de cloud file-streaming externa — el cliente inicia sesión;
el proveedor de infraestructura no retiene credenciales.
El plano de transporte es WireGuard, en patrón hub-and-spoke para artistas remotos más un túnel sitio a sitio entre los dos sitios de cómputo. El plano de cómputo son dos grupos de diez nodos Windows 11 Pro, cada uno con una NVIDIA RTX 5090 de 32 GB de VRAM. El plano de aceleración es una única edge-and-cache box en el sitio principal que aloja un share Samba SMB3 sobre un SSD único en ext4 — junto con los servicios de red (DNS, NTP, firewall).
Decisión clave: la edge box y la cache box son la misma máquina. Una versión anterior separaba edge gateway y caché NAS, creando condiciones de carrera en cold pulls. Consolidar en un host Ubuntu 22.04 LTS removió ambos problemas. Ver nuestro análisis arquitectónico detallado.
Configuración del cluster GPU de 20 nodos
El tamaño por defecto para los despliegues descritos es veinte nodos RTX 5090 — divididos diez y diez entre dos sitios. Este tamaño mapea bien a un equipo creativo en el rango de diez a veinte artistas, la banda donde los clusters dedicados se amortizan para workflows sensibles a PI.
Cada nodo tiene la misma configuración: una RTX 5090 con 32 GB de VRAM, una CPU multi-core moderna, 64 o 128 GB de RAM, y un disco NVMe local dimensionado para OS y scratch. Los datos persistentes viven en la caché compartida o en la plataforma cloud upstream — nunca en el nodo.
El sistema operativo es Windows 11 Pro, desplegado desde una imagen limpia. No precargamos stacks de plugins DCC en la imagen. El cliente conduce la instalación de sus propias herramientas DCC — Cinema 4D, Redshift, Houdini, After Effects, Blender — para que la imagen del nodo permanezca minimal y reproducible.
Group A y Group B están configurados idénticamente. Una vez el túnel WireGuard entre sitios está arriba y la caché montada, el sitio secundario se comporta como una extensión delgada del LAN del sitio principal. La flota es enrutable capa 3 — el cliente instala su propio render manager.
Credenciales propiedad del cliente (Model B)
La decisión arquitectónica que más a menudo convierte un cluster dedicado en la respuesta correcta para workflows sensibles a PI es lo que llamamos Model B: credenciales propiedad del cliente. En Model A — el default para render farms administradas, incluido nuestro propio servicio SaaS — el proveedor retiene las credenciales del pipeline de renderizado.
En Model B, el proveedor suministra hardware, sistema operativo, red y capa caché, pero nunca retiene el material de autenticación del cliente para la plataforma de cloud file-streaming. El cliente inicia sesión en cada nodo, exactamente como lo haría en su propia estación de trabajo. Los archivos del proyecto fluyen desde la nube del cliente; los renders escriben de vuelta a la nube del cliente.
Tres razones: (1) Contractual — cuando el contrato downstream restringe dónde residen credenciales; (2) Auditoría — respuesta limpia para un auditor de seguridad; (3) Cierre de compromiso — el proveedor nunca retuvo credenciales, simplificando la limpieza.
Model B no es para todos. Pone al equipo de operaciones del cliente en el anzuelo del ciclo de vida de credenciales. Ver nuestro análisis profundo BYOC.
Integración de cloud file-streaming
En las configuraciones discutidas, los assets del proyecto del cliente viven en una plataforma de cloud file-streaming — un servicio que expone el árbol del proyecto respaldado en la nube como sistema de archivos virtual en cada nodo. El artista monta el proyecto; el nodo lee archivos bajo demanda; la plataforma maneja el almacenamiento de respaldo, versionado y replicación entre regiones.
Integramos con una plataforma genérica de cloud file-streaming elegida por el cliente. La plataforma ve un evento de inicio de sesión desde cada nodo con la cuenta del cliente; el cliente de la plataforma en el nodo monta el árbol del proyecto; la aplicación DCC del cliente abre archivos exactamente como en una estación de trabajo local.
Lo que cambia con un cluster de 20 nodos es el patrón de acceso. Un solo artista en una sola estación de trabajo tira un archivo a la vez. Veinte nodos de render abriendo la misma escena al mismo tiempo crean una ráfaga sincronizada de lecturas cloud. Sin caché, cada nodo tira cada textura en paralelo — desperdicia ancho de banda internacional.
El write-back: cuando un frame termina, el nodo escribe la salida a la plataforma cloud — a través de la cuenta del cliente. El equipo del cliente en la oficina remota ve los frames aparecer en el árbol del proyecto en tiempo real.
Arquitectura de caché compartida
La caché compartida es una de las dos o tres decisiones arquitectónicas que, mal tomadas, erosionan silenciosamente el valor del cluster. La hemos tomado mal en despliegues anteriores. El patrón que ha aguantado es deliberadamente conservador.
Una única edge-and-cache box corre Ubuntu 22.04 LTS, con un único SSD SATA de 8 TB formateado como ext4 y expuesto al cluster vía Samba SMB3. El mount de caché aparece en cada nodo en una ruta fija (por ejemplo \\cache.lan\proj). Cuando un nodo abre un archivo vía el cliente cloud, el archivo fluye a través de la caché local; las lecturas subsecuentes del mismo archivo en cualquier nodo golpean el SSD directamente sobre el LAN.
Tres decisiones deliberadas: (1) Caché único, no por nodo — evita 200 TB redundantes. (2) Un SSD único en ext4, no RAID 10 con LUKS sobre XFS — la caché no es la fuente de verdad, la nube del cliente lo es. (3) Pre-calentar la caché antes del primer día de producción — convierte cold cloud pulls en lecturas SMB calientes.
Entre sitios, Group B lee la caché vía el túnel WireGuard. Con MSS clamping correctamente aplicado, ha sido confiable.
Optimización de red transfronteriza
La capa de transporte decide si un cluster transfronterizo se siente sin costuras o roto. Los comportamientos por defecto de TCP/IP, fragmentación IP y DNS-sobre-VPN son sutilmente incorrectos para túneles cifrados de larga distancia que transportan SMB y escritorio remoto.
WireGuard hub-and-spoke más sitio a sitio. Cada artista se conecta desde su estación vía un cliente WireGuard al hub del sitio principal. Los dos sitios de cómputo también tienen un túnel WireGuard entre ellos.
TCP BBR. El control de congestión por defecto de Linux (CUBIC) fue diseñado para enlaces de baja latencia. Los enlaces ISP públicos de larga distancia con tráfico cifrado son muy diferentes. BBR produce consistentemente más throughput utilizable. Usamos BBR v1 estándar del kernel.
Clamping TCP MSS. La fuente más común de quejas "el cluster funciona, excepto para archivos grandes". Cuando el tráfico cruza un túnel que reduce el MTU efectivo, los paquetes grandes se fragmentan (lento) o se pierden silenciosamente (peor). Solución: clampar el TCP MSS en el router WireGuard.
dnsmasq con la interfaz VPN listada. Una trampa sutil: dnsmasq debe listar explícitamente la interfaz WireGuard (por ejemplo wg0), incluso si el cliente consulta una dirección .lan privada. Sin esto, las consultas DNS vía túnel expiran — pero el ping aún funciona.
chrony para NTP. La sincronización temporal importa para render managers (Deadline marca tiempo los trabajos), correlación de logs entre sitios y cualquier token de autenticación con componente temporal.
Moonlight y Sunshine para escritorio remoto
El escritorio remoto es la capa que los artistas experimentan más directamente. Si esa capa se siente lenta o entrecortada, no importa qué tan rápido sea el renderer — las manos del artista son lentas.
Usamos Moonlight (cliente) y Sunshine (host en cada nodo). La combinación usa el codificador hardware NVENC de NVIDIA en la RTX 5090 para codificar el framebuffer en tiempo real. Como la codificación ocurre en la GPU que ya está en el nodo, no hay contención con el renderer.
Para trabajo de viewport 3D, esto importa de una forma que no importa para escritorio remoto tradicional. Los protocolos antiguos — RDP, VNC — fueron diseñados para cargas de oficina. Moonlight + Sunshine tratan el framebuffer como video — exactamente el modelo correcto para 3D.
Tenemos un test de calidad que ejecutamos antes de entregar un nodo a un artista — informalmente "Test 8". Parsec es un fallback viable. Ver nuestra comparativa de Moonlight, Parsec y RDP.
Infraestructura híbrida (propia + alquilada)
Una de las decisiones operativas que mejoran consistentemente la economía de clusters dedicados es mezclar cómputo propio y alquilado. Para las configuraciones de 20 nodos descritas, típicamente configuramos cerca de diez nodos desde capacidad existente en el sitio principal y cerca de diez desde espacio alquilado en un sitio secundario.
Primera razón: flexibilidad de capital. Un cluster que mezcla capacidad propia y alquilada no requiere comprar veinte nodos nuevos al inicio. Segunda razón: planificación de capacidad. Los compromisos multi-mensuales rara vez tienen una curva de demanda plana — semanas de crunch necesitan más, semanas de estado estable necesitan menos.
Ambos grupos se comportan idénticamente desde la perspectiva del cliente. Ver nuestro modelo híbrido propio + alquilado.
Segmentación de red
La segmentación de red en un cluster así no es opcional. El cliente opera sobre la infraestructura del proveedor, pero nunca debe poder ver la red más amplia del proveedor — ni el NAS, ni interfaces de administración del router, ni otros inquilinos.
Implementamos segmentación en dos niveles. Nivel 1 — firewall edge — la edge-and-cache box ejecuta ufw en default-deny entrante. Solo el puerto WireGuard UDP (51820) está expuesto a internet público. Nivel 2 — firewall de host en cada nodo — cada nodo tiene su propia configuración de firewall Windows que refleja la postura edge.
En la práctica, el cliente no puede hacer ping o escanear los otros sistemas del proveedor incluso si quisiera. Ver nuestra arquitectura de seguridad de red.
Lecciones aprendidas
Cinco lecciones operativas que, en cada cluster dedicado que hemos levantado, nos han ahorrado horas de debug o — cuando olvidamos aplicarlas — costado horas.
1. Trampa de enrutamiento dual-home. Cuando la edge box tiene dos interfaces de red, el orden de las operaciones importa. La ruta LAN debe configurarse antes de cambiar la ruta por defecto, o la sesión SSH puede caerse.
2. WireGuard y DNS. dnsmasq debe listar explícitamente cada interfaz en la que debe escuchar, incluyendo la interfaz WireGuard. Sin eso, las consultas DNS vía VPN expiran.
3. Clamping TCP MSS no es opcional a través de un túnel. TLS, RDP, lecturas SMB de archivos grandes — todo lo que quiera enviar paquetes grandes — cae silenciosamente sin MSS clamp.
4. Dimensionar el almacenamiento correctamente. La caché no es la fuente de verdad, la nube del cliente lo es. No hay necesidad de RAID/LUKS cuando hay redundancia a nivel cloud.
5. Pre-calentar la caché. En D-Day, cada cache miss cuesta un viaje internacional de ida y vuelta. Una ventana de pre-calentamiento ahorra la primera hora de producción.
Ver nuestra colección de lecciones aprendidas.
Conclusión
Una render farm GPU dedicada de 20 nodos transfronteriza es la arquitectura correcta cuando el control de PI es contractual, el compromiso es multi-mensual, el workflow requiere configuración personalizada y la autenticación BYOC no es negociable. Fuera de esas condiciones, una render farm administrada es casi siempre la mejor respuesta.
Cuando las condiciones aplican, los patrones aquí cubiertos — credenciales Model B, caché compartida sobre ext4, WireGuard hub-and-spoke más sitio a sitio, BBR con clamping MSS, Moonlight + Sunshine, firewalls de dos niveles — son lo que desplegamos por defecto.
El equipo detrás de Super Renders Farm opera tanto el alquiler de render farm administrada como los despliegues de cluster dedicado — incluyendo las configuraciones de cluster GPU dedicado y las topologías transfronterizas descritas a lo largo de esta guía.
FAQ
Q: ¿Cuánto tarda un despliegue típico de cluster dedicado de 20 nodos? A: Dependiendo del alcance, la disponibilidad de hardware en el sitio alquilado y la configuración de cloud file-streaming del cliente, un compromiso típico va desde algunas semanas de lead time para hardware y aprovisionamiento de red, hasta una ventana de pre-calentamiento de uno a dos días antes del inicio de producción.
Q: ¿Qué pasa si mi equipo está repartido en tres continentes? A: El túnel WireGuard cliente-a-hub escala a ubicaciones de cliente adicionales sin cambiar la arquitectura del cluster. Cada artista remoto ejecuta un cliente WireGuard y se conecta al mismo hub en el sitio principal.
Q: ¿Puedo ver el cluster desde mi lado antes de comprometerme a un engagement multi-mensual? A: Típicamente arreglamos una ventana de prueba de concepto durante la conversación de alcance. La forma exacta depende del proyecto del cliente.
Q: ¿Cómo se maneja la seguridad de datos al final del compromiso? A: Como Model B mantiene las credenciales del cliente fuera de nuestras manos, el cierre se enfoca en la limpieza de hardware y caché. Borramos la caché SMB, re-imagenamos cada nodo desde la base limpia y proporcionamos una atestación escrita de destrucción.
Q: ¿Qué pasa si necesito más de 20 nodos? A: La configuración de 20 nodos es la forma más común, pero la arquitectura escala más allá. Hemos levantado flotas más grandes añadiendo grupos adicionales en sitios adicionales.
Q: ¿Puedo traer mi propia licencia para Cinema 4D, Redshift u otras herramientas DCC? A: El modelo de licencia — bring-your-own-license vs. provisto por el proveedor — es una decisión de negocio que depende del DCC específico y el inventario de licencias existente del cliente.
Q: ¿Cómo manejan el almacenamiento cloud de proveedores UE versus EE.UU.? A: La plataforma de cloud file-streaming es la elección del cliente. Nuestro cluster integra con cualquier plataforma que pueda ejecutar un cliente de inicio de sesión en Windows y exponer el árbol del proyecto del cliente.
Q: ¿Qué pasa si el túnel WireGuard se cae? A: WireGuard restablece automáticamente la sesión cuando la red subyacente se recupera; la sesión de escritorio remoto del cliente puede pausarse brevemente durante el nuevo handshake.
About Thierry Marc
3D Rendering Expert with over 10 years of experience in the industry. Specialized in Maya, Arnold, and high-end technical workflows for film and advertising.


