Performance cluster RTX 5090 render farm : guide 2026

Introduction

Un rack dense de GPU RTX 5090 alimentant un cluster de render farm

Quand les studios dimensionnent une render farm GPU dédiée pour Redshift, Octane ou V-Ray GPU en 2026, la RTX 5090 revient sans cesse. La performance par dollar sur les moteurs GPU de production reste sur la carte consumer-flagship depuis plusieurs générations, et les 32 Go de VRAM de la 5090 placent enfin la plupart des scènes de production dans la mémoire d'un seul GPU, sans débordement out-of-core.

Ce que les revues de cartes couvrent rarement, c'est ce qui se passe une fois 20 de ces cartes derrière une queue, à mesurer le débit réel face à de vrais plannings. L'enveloppe de refroidissement, la charge de cohérence des pilotes entre nœuds, la bande passante pour alimenter tous ces GPU — ce sont des préoccupations d'opérateur. Nous déployons des clusters GPU dédiés avec la RTX 5090 depuis sa disponibilité large, et nous avons opéré la génération précédente RTX 4090 assez longtemps pour les comparer en production.

Ce guide est la vue opérateur : ce que la 5090 apporte à l'échelle du cluster, ce qu'elle n'apporte pas, et quand 20× RTX 5090 est la bonne forme de flotte face aux alternatives (RTX 4090, RTX A6000, RTX 6000 Pro Blackwell). Les chiffres sont illustratifs — basés sur les charges typiques des pipelines Cinema 4D, Houdini et 3ds Max avec Redshift, Octane et V-Ray GPU. Les valeurs spécifiques sont publiées par les constructeurs ou dérivées de scènes de production typiques, non extraites de projets clients individuels.

Plongée dans les specs de la RTX 5090

La RTX 5090 repose sur l'architecture Blackwell de NVIDIA — successeur de la génération Ada Lovelace qui équipait la RTX 4090. Du point de vue render farm, quatre lignes de spec importent plus que les autres : capacité VRAM, bande passante mémoire, nombre de cœurs CUDA, et le gain RT/Tensor cores.

VRAM : 32 Go GDDR7. Le changement le plus important pour la render farm. Les 24 Go de la RTX 4090 contraignaient beaucoup de scènes de production en out-of-core memory paging dans Redshift et Octane — visualisation architecturale avec displacement lourd, VFX avec volumetrics profonds, visualisation produit avec sets 8K. À 32 Go, la plupart des scènes de production tiennent proprement, sans débordement. GDDR7 tourne aussi à environ 1,8 To/s de bande passante crête (vs ~1 To/s sur la 4090), ce qui se traduit directement par un sampling texture et un parcours BVH plus rapides en ray tracing.

Cœurs CUDA : 21 760. Un bond significatif depuis les 16 384 cœurs de la RTX 4090 — environ 33 % d'unités de calcul parallèles supplémentaires. Pour les moteurs qui scalent quasi-linéairement avec le nombre de cœurs (Redshift et Octane), cela donne un gain wall-clock d'environ 30-40 % sur la plupart des scènes de production.

RT cores (4e génération) et Tensor cores (5e génération). Les charges ray-traced — soit l'essentiel du rendu GPU moderne — gagnent séparément grâce aux RT cores dédiés ; les specs Blackwell publiées par NVIDIA suggèrent un débit d'intersection ray-triangle 2× supérieur à la génération précédente. Les Tensor cores comptent moins pour le rendu traditionnel mais deviennent pertinents si votre pipeline utilise l'AI denoising (OptiX, Intel OIDN GPU) ou les fonctionnalités neuronales émergentes dans Octane et Redshift.

NVENC et NVDEC. Blocs duaux NVENC (9e génération) et NVDEC (6e génération). Pour les render farms cela compte quand les nœuds encodent des frames de preview ou des proxies basse-résolution, et quand les nœuds GPU servent aussi d'endpoints Moonlight/Sunshine pour le bureau distant. L'encodage H.265 et AV1 matériel sur la 5090 gère les flux 4K60 sans impact mesurable sur la performance de rendu.

TDP : 575 W. Une seule 5090 tire plus que la combinaison complète CPU workstation + GPU génération précédente. À 20 nœuds, cela fait 11,5 kW de tirage GPU pur, avant CPU/RAM/stockage/réseau. La densité rack, la distribution électrique et le refroidissement doivent être dimensionnés en conséquence.

Format. Triple-slot, ~330 mm de long sur la plupart des designs AIB — exclut beaucoup de châssis workstation denses et pousse les builds farm vers de plus grands boîtiers 4U ou open-frame avec dégagement. Les variantes blower de certains fabricants (Asus, PNY) conviennent mieux aux racks serrés mais sont plus difficiles à sourcer.

Performance agrégée du cluster 20 nœuds

Un cluster de 20 nœuds RTX 5090 monté en baie dans un data-center

Les specs d'une carte unique sont intéressantes ; le comportement du cluster détermine si la flotte produit réellement des images. Avec 20× RTX 5090 derrière une seule queue de rendu, voici l'agrégat :

VRAM agrégée : 640 Go. Pas un pool unifié — chaque nœud garde 32 Go en local — mais pour le rendu frame-parallèle (une image par nœud), le plafond effectif est ce que chaque nœud peut tenir individuellement. Leçon pratique : 32 Go par nœud est la contrainte qui compte pour 95 % des jobs ; le titre 640 Go sert surtout quand plusieurs jobs parallèles tournent (4 nœuds sur Projet A, 16 sur Projet B) et qu'il faut connaître l'inventaire total de la flotte.

Débit CUDA agrégé. Vingt cartes × 21 760 cœurs = 435 200 cœurs CUDA sous une queue. Dans Redshift ou Octane cela donne ~20 images de production en parallèle — une animation 240 images qui prendrait 8 heures sur une workstation se termine en environ 25-30 minutes wall-clock. Le scaling cluster est rarement parfaitement linéaire (overhead queue, asset pre-cache, checkout licence, I/O par image grignotent un petit pourcentage), mais 80-90 % d'efficacité est typique pour des pipelines de production bien réglés.

Capacité de slots de rendu parallèles. Redshift et Octane licencient tous deux par nœud, donc 20 nœuds = 20 slots de rendu simultanés. Les studios multi-projets peuvent découper la flotte en sous-ensembles dédiés (10 nœuds sur un job archviz deadline-critique, 5 sur un shot VFX, 5 sur des renders catalogue de nuit) et servir les trois pipelines simultanément. C'est une des raisons pour lesquelles la location de cluster dédié gagne sur la flexibilité de planification pour les agences à projets clients parallèles.

Bande passante et stockage à l'échelle cluster. Une seule image Redshift pour une scène de production modérément complexe peut nécessiter 2-8 Go de lecture textures et géométrie au premier chargement. Avec 20 nœuds tirant en parallèle depuis le même cache partagé, on sature aisément un lien 10 GbE pendant la phase pre-warm des assets. Pousser les assets une seule fois dans un cache local rapide (SMB3 avec read-ahead réglé, ou une cache box dédiée par rack) et les servir à débit ligne aux 20 nœuds, c'est la différence entre un pre-warm de 5 minutes et de 45 minutes. La couche cache devient le goulot d'étranglement opérationnel sur les cluster farms plus souvent que les GPU eux-mêmes.

Enveloppe électrique et thermique. À 20× 575 W = 11,5 kW de tirage GPU, plus ~6 kW pour l'infrastructure de support, on regarde ~18 kW pour un cluster 20 nœuds — soit environ la moitié d'un rack datacenter 36 kW standard. Le refroidissement doit être dimensionné pour ~95 % d'utilisation GPU soutenue sur tous les nœuds pendant les périodes de burst. C'est une raison pour laquelle la plupart des déploiements de cluster dédié vivent dans de vrais environnements colocation plutôt qu'en bureaux improvisés.

Pour un regard plus approfondi sur notre approche du déploiement cluster end-to-end — y compris les couches réseau, cache et stockage partagé autour d'une flotte GPU — voir notre guide de déploiement 20 nœuds.

Workflow C4D + Redshift sur RTX 5090

Cinema 4D associé à Redshift est le workflow que nous voyons le plus souvent sur clusters RTX 5090 en 2026, et il est bien adapté à ce matériel. Redshift est GPU-natif, conçu à l'origine autour de CUDA — scalant proprement sur cartes consumer-flagship sans les fonctionnalités workstation (ECC, NVLink) qui justifient la prime des cartes professionnelles.

32 Go de VRAM gèrent les scènes de production 4K-8K sans débordement. La déclaration pratique la plus importante sur la combinaison 5090 + Redshift. Avec le modèle mémoire de Redshift — géométrie + textures + shaders + structures de données ray-tracing doivent tous tenir en VRAM pour le rendu GPU complet — 24 Go étaient une négociation constante sur la génération précédente. Les studios désactivaient les sets de textures 8K, réduisaient la qualité de displacement, ou divisaient les scènes en plusieurs passes pour rester sous la limite. À 32 Go, ces compromis disparaissent en grande partie pour les scènes dans la plage texture 4K-8K, y compris l'archviz lourde avec végétation complète et les shots produit avec réseaux shading complexes.

Gestion mémoire out-of-core. Redshift peut déborder en RAM système quand la VRAM est pleine, mais l'impact performance est significatif — typiquement 3-10× plus lent selon la fréquence d'accès hors du resident set VRAM. Les 32 Go de la 5090 réduisent dramatiquement le taux d'entrée en mode out-of-core. Pour les rares scènes qui ne tiennent toujours pas (volumetrics VFX extrêmes ou géométrie photogrammétrique haute densité), le chemin out-of-core de Redshift fonctionne toujours, mais on est dans un territoire où restructurer la scène vaut mieux que pousser le moteur.

Multi-GPU vs distribué. Faut-il mettre 2-4 GPU dans une seule workstation, ou distribuer un GPU par nœud ? Pour le travail render farm la réponse est presque toujours un GPU par nœud. Multi-GPU sur workstation a du sens pour le lookdev interactif (une session Cinema 4D voit tous les GPU), mais pour le rendu en queue, une carte par nœud offre meilleure isolation des pannes (un crash pilote affecte une image, pas quatre), comptabilité licence plus simple, et plus de flexibilité pour planifier des jobs parallèles. Une 5090 offre déjà assez de puissance pour la plupart des tâches de frame unique — doubler gaspille de la capacité mieux investie sur une autre image.

Profil de saturation GPU de Redshift. Une image Cinema 4D + Redshift typique traverse trois phases : chargement scène et construction BVH (CPU-bound), le pass principal de ray tracing (GPU-bound, ~95 % d'utilisation soutenue sur la 5090), et le denoising post-process (GPU-bound mais plus léger). La phase intermédiaire est celle que la 5090 accélère le plus — sur des scènes benchmarkées en interne, la même image qui prend ~18 minutes sur une seule RTX 4090 prend ~12-13 minutes sur une seule RTX 5090, soit une réduction wall-clock d'environ 30 % — reflétant à la fois les ~33 % de cœurs CUDA supplémentaires ET les 32 Go de VRAM qui maintiennent les scènes de production hors du chemin de pénalité out-of-core.

Les autres moteurs GPU se comportent similairement. Octane montre un gain comparable (il scale particulièrement bien avec les cœurs CUDA — les chiffres OctaneBench le confirment dans la section benchmark). V-Ray GPU est plus variable : le modèle hybride CPU+GPU de V-Ray pour certains calculs BSDF signifie que le gain par image dépend du caractère GPU-lourd de la scène. Arnold GPU en profite aussi, bien que la plupart des studios Arnold préfèrent le rendu CPU pour la production.

Pour le détail de la mise en place du pipeline Cinema 4D + Redshift sur notre farm, la page Redshift cloud render farm et la page Cinema 4D rendering couvrent la licence, le support plugin et le workflow de soumission.

Optimisation VRAM pour grandes scènes

Même avec 32 Go sur la 5090, l'optimisation VRAM reste une compétence opérationnelle — à la fois parce que certaines scènes dépassent réellement 32 Go, et parce qu'une utilisation efficace de la VRAM raccourcit les temps de rendu même quand la scène tient.

Estimer la taille de scène. Avant d'envoyer un job à la farm, savoir s'il tient en 32 Go fait gagner du temps. Le memory log de Redshift rapporte la consommation VRAM pic réelle d'un rendu précédent — pour toute scène rendue localement au moins une fois, vous avez un chiffre fiable de planification. Pour les nouvelles scènes, la répartition approximative : géométrie (20-40 % du total), textures (30-50 %), structures de données ray-tracing plus shaders (le reste). Displacement lourd, UDIMs multi-mégapixels et végétation dense sont les trois catégories qui poussent les scènes au-delà d'une marge VRAM confortable.

Quand 32 Go suffisent. Pour la plupart des scènes de production — intérieurs et extérieurs archviz, visualisation produit, motion-graphics, animation de personnages avec éclairage qualité film — 32 Go remplit la spec avec marge. Les studios qui devaient réfléchir à la VRAM à chaque étape du pipeline cessent généralement d'y penser sur la 5090.

Quand 32 Go ne suffisent pas. Trois catégories dépassent encore 32 Go : simulations VFX lourdes avec cache volumétrique profond (les shots fumée et feu avec caches VDB haute résolution atteignent 80-150 Go par image), environnements denses dérivés de photogrammétrie (scans urbains), et simulations de destruction haut-poly avec caches de géométrie image par image. Pour ces charges, même les 96 Go de la RTX 6000 Pro Blackwell ne suffisent souvent pas — elles exigent une restructuration de scène (workflows proxy out-of-core, chunking de simulation, ou repli sur rendu CPU sur machines à 256 Go+ de RAM système).

Optimisation de textures. Le plus grand gain VRAM unique est la rationalisation des sets de textures. Les scènes de production embarquent systématiquement des UDIMs 8K que le moteur n'échantillonnera qu'à 2K vu la distance caméra. Le sampling texture automatique de Redshift et la gestion mipmap aident, mais ne remplacent pas l'auteur de textures à la résolution réellement nécessaire. Nous voyons régulièrement des scènes archviz passer de 22 Go à 14 Go de pic VRAM juste en déclassant les textures sur-résolues.

Instanciation de géométrie. Pour les scènes avec grandes quantités de géométrie similaire (végétation, foule, villes peuplées), l'instanciation transforme un dépassement mémoire en ajustement confortable. Forest Pack et RailClone dans 3ds Max, MoGraph Cloners dans Cinema 4D, et Scatter dans Houdini génèrent tous de la géométrie instanciée que Redshift stocke une fois et référence plusieurs fois — des ordres de grandeur de mémoire en moins par rapport au bake de copies uniques.

Workflow proxy out-of-core. Quand une scène doit réellement tenir plus de 32 Go de données distinctes, le workflow proxy de Redshift (les fichiers .rs stockent de la géométrie compressée sur disque et streament en VRAM à la demande) donne un chemin de débordement contrôlé. C'est une technique de workflow, pas un fix matériel — mais c'est ce qui détermine si un nœud 5090 peut gérer une scène qui exigerait sinon une carte 96 Go.

Pour des scénarios VRAM spécifiques issus de la production, le walkthrough sur la limite VRAM de la RTX 5090 couvre les breakpoints exacts que nous avons mesurés.

Comparaison avec les alternatives

La comparaison honnête entre la RTX 5090 et les alternatives compte beaucoup pour les décisions de dimensionnement render farm. Il n'y a pas de carte « meilleure » — il y a des cartes appropriées pour des charges, budgets et profils opérationnels spécifiques.

RTX 5090 vs RTX 4090 (consumer-flagship précédente, 24 Go). La 5090 livre environ 33 % de cœurs CUDA en plus, 8 Go de VRAM en plus, ~1,8× la bande passante mémoire, et un TDP plus élevé. Le gain wall-clock sur les moteurs GPU de production se situe dans une plage d'environ 30-40 % selon la charge. La 4090 reste un choix valable si on peut la sourcer sous MSRP — mais pour les achats neufs en 2026, la marge VRAM seule de la 5090 justifie l'upgrade pour l'essentiel du travail de production. Nous avons opéré des flottes mixtes 4090 + 5090, et le surcoût opérationnel de supporter deux générations (pilotes différents, performance par nœud différente, profils énergétiques différents) est réel ; en partant à neuf, choisir une seule génération simplifie nettement la queue.

RTX 5090 vs RTX A6000 (workstation professionnelle, 48 Go). La A6000 porte 48 Go mais sur l'architecture précédente (Ampere), avec ~10 752 cœurs CUDA. Une seule 5090 surpasse une seule A6000 avec une marge notable (souvent 60-90 % plus rapide en Redshift). L'avantage de la A6000 est la capacité 48 Go pour scènes dépassant 32 Go sans atteindre la zone vraiment extrême, plus la certification pilote professionnelle et la mémoire ECC — pertinent en CAO/ingénierie, rarement en rendu de production. Pour 95 % du travail render farm la 5090 est le meilleur choix par dollar ; la A6000 conserve une niche pour le travail grande scène nécessitant 32-48 Go mais pas extrême au point de justifier la classe 6000 Pro.

RTX 5090 vs RTX 6000 Pro Blackwell (datacenter professionnel, 96 Go). La 6000 Pro est la variante workstation/datacenter de l'architecture Blackwell — même famille de puces que la 5090, mais avec 96 Go de VRAM, refroidissement blower, certification pilote professionnelle et mémoire ECC. Pour les charges nécessitant réellement 96 Go par image (VFX extrême, grande photogrammétrie, simulation volumétrique profonde), la 6000 Pro est la bonne carte. Pour tout le reste, on paie une prime significative pour de la VRAM inutilisée. En économie cluster, trois RTX 5090 surpassent une seule 6000 Pro en débit agrégé frame-parallèle — et trois 5090 offrent isolation des pannes et flexibilité de queue qu'une seule carte haut de gamme ne peut égaler.

Pourquoi la classe consumer gagne à l'échelle render farm. Le case pour les cartes consumer-flagship est resté cohérent sur trois générations (3090, 4090, 5090) : meilleure performance brute par dollar pour les charges GPU de rendu, disponibilité en volume chez plusieurs vendeurs, et surcoût opérationnel minimal entre pilotes « consumer » et « professionnel » pour le rendu batch. Les cartes workstation gagnent quand ECC, pilotes certifiés ou VRAM extrême sont réellement nécessaires. Les cartes datacenter (H100, A100) gagnent en entraînement AI — mais aucun moteur GPU n'est notablement accéléré par leurs designs tensor-lourds par rapport à l'architecture Blackwell consumer.

La leçon pratique : pour un cluster dédié 20 nœuds optimisé pour Cinema 4D, Houdini et 3ds Max avec rendu Redshift, Octane ou V-Ray GPU en 2026, la RTX 5090 se situe au point optimum productivité-coût. Les alternatives ne deviennent correctes que lorsqu'une exigence spécifique (VRAM extrême, ECC, pilotes certifiés) justifie la prime.

Illustration de benchmarks

Graphique à barres comparant les scores OctaneBench de rendu des RTX 5090 et RTX 4090

Les chiffres concrets aident au dimensionnement, mais doivent se lire comme plages, pas comme engagements. Les temps de rendu varient substantiellement selon complexité de scène, paramètres de rendu, résolution de sortie et version exacte du moteur. Les chiffres ci-dessous sont typiques pour le type de scènes de production que nous voyons sur les pipelines Cinema 4D, Houdini et 3ds Max — pas des mesures d'un projet client spécifique.

Scores de référence OctaneBench. Le benchmark standardisé d'Octane est la référence inter-vendeurs la plus citée pour la performance de rendu GPU. Résultats publiés typiques (OctaneBench 2025.2.1, GPU unique, en date de juin 2026) : RTX 4090 ~1 308 points, RTX 5090 ~1 730 points — soit un gain d'environ 32 % d'une génération à l'autre en calcul Octane brut, les scènes de production réelles gagnant souvent un peu plus une fois que les 32 Go de VRAM évitent les pénalités out-of-core.

Illustration scène de production Redshift. Une scène archviz Cinema 4D + Redshift modérément complexe en 4K avec global illumination ray-traced complète, AA 16 samples, et denoiser standard Redshift :

Une RTX 4090 : ~18-22 minutes par image
Une RTX 5090 : ~12-15 minutes par image
Cluster 20× RTX 5090 : les mêmes ~12-15 minutes par image unique (pas de gain de parallélisme sur une seule image) → une séquence de 100 images se termine en ~80-90 minutes wall-clock (vs ~25-30 heures sur une seule 4090), car 20 images rendent simultanément.

Les plages bougent substantiellement avec le contenu — volumetrics lourds ou cheveux/fourrure multiplient le temps ; les shots produit simples se terminent en une fraction de ces temps. Le point est la mathématique de scaling cluster, pas un chiffre par image spécifique.

Référence du test Karma. Le moteur natif Karma de Houdini devient progressivement le moteur GPU de choix pour les studios VFX. Karma scale différemment de Redshift sur le même matériel — il est plus bande-passante-bound sur scènes procédurales denses, donc le gain de bande passante de la 5090 sur la 4090 ressort plus que le gain de cœurs CUDA. Une image Karma typique sur un shot VFX procédural tourne ~25-30 % plus vite sur la 5090 vs 4090.

Économie par image à l'échelle cluster. Le chiffre qui compte pour la planification est le wall-clock par seconde d'animation livrée, pas par image. À 24 fps avec ~12 minutes par image sur un cluster 20 nœuds 5090, vous livrez ~120 images (5 secondes d'animation) par heure. Une séquence motion-graphics ou archviz typique de 30 secondes (720 images) se termine en ~6 heures de cluster, pour des scènes qui tiennent en 32 Go sans débordement. Les scènes qui ne tiennent pas peuvent être 3-10× plus lentes.

Avertissement variabilité. La variance réelle sur scènes de production est plus large que ce que la plupart attendent. Nous avons mesuré la même scène Redshift sur du matériel identique avec des écarts de 5-15 % selon activité en arrière-plan OS, subtilités de version pilote et température ambiante affectant le thermal throttling GPU. Les valeurs ci-dessus sont des plages illustratives, pas des spécifications.

Quand 20× RTX 5090 EST la bonne flotte

Un cluster 20 nœuds RTX 5090 n'est pas la bonne réponse pour tous les studios. C'est la bonne réponse pour un profil opérationnel spécifique — et il est honnête de préciser quand ce n'est pas le cas.

Agence ou studio moyen-grand avec charge GPU soutenue. L'économie d'un cluster dédié 20 nœuds prend sens quand la demande de rendu GPU est suffisamment soutenue pour utiliser la flotte de manière significative — typiquement plusieurs projets simultanés, ou un gros projet avec demande de rendu parallèle sur épisodes, séquences ou variations. Un freelance solo rendant un shot à la fois tire plus de valeur d'une capacité SaaS à la demande que d'une flotte dédiée.

Projets multi-mois à charge prévisible. L'autre bon fit, ce sont les projets dont la demande de rendu est suffisamment prévisible pour planifier une capacité dédiée à coût fixe — contenu épisodique, pitches archviz long-terme, retainers client, ou tout pipeline tournant ~5-10 heures de rendu GPU par jour sur les 3-6 prochains mois. C'est là que l'économie par image dédiée commence à battre le pricing à la demande.

Diversité de pipeline Houdini + Cinema 4D + After Effects. Une flotte 20 nœuds RTX 5090 sert VFX (Karma dans Houdini), motion-graphics (Redshift dans Cinema 4D) et post (After Effects avec plugins GPU) simultanément parce que le GPU est le substrat commun. Les studios à besoins de rendu multi-pipeline obtiennent plus de valeur composée d'une seule flotte partagée que de plusieurs flottes spécialisées.

Entreprise soucieuse des coûts. La capacité dédiée à grande échelle tourne notablement moins cher par heure de rendu que SaaS à la demande pour charges soutenues. Le crossover varie avec les tarifs de location, mais pour les studios au-dessus de ~40 heures de demande GPU par semaine, la capacité dédiée gagne souvent. En dessous, l'à la demande reste moins cher.

Profil opérationnel supportant l'infrastructure dédiée. Un cluster dédié implique une compétence opérationnelle de base : une queue/un scheduler que l'équipe maîtrise, un workflow de sync asset vers le stockage cluster, et soit une capacité interne soit du support vendeur pour les opérations cluster. Les studios ayant besoin d'un pipeline entièrement géré sans surcoût opérationnel sont mieux servis par les render farms SaaS managées.

Quand la réponse est autre chose. Petits studios, demande GPU sporadique, ou pipelines nécessitant réellement 48+ Go de VRAM par image devraient considérer : SaaS managée pour demande sporadique, modèles hybrides possession+location pour studios en croissance, ou location de cluster dédié à une autre échelle (10 ou 30 nœuds) si 20 n'est pas le bon nombre. Pour la comparaison SaaS vs dédié plus approfondie, voir comparaison SaaS render farm vs cluster dédié.

FAQ

Q: Pourquoi RTX 5090 plutôt que cartes professionnelles comme A6000 ou RTX 6000 Pro ? A: La performance de rendu GPU par dollar a favorisé les cartes consumer-flagship (3090, 4090, 5090) sur les cartes workstation depuis plusieurs générations. Les cartes professionnelles méritent leur prime quand ECC, pilotes certifiés ou VRAM extrême (96 Go sur la 6000 Pro) sont réellement nécessaires — peu courant en render farm. Pour Cinema 4D + Redshift, Houdini + Karma, ou 3ds Max + V-Ray GPU en production, la 5090 livre la même génération architecturale que la 6000 Pro à une fraction du coût par carte. Les cartes workstation gagnent pour le VFX grande scène ou les pipelines CAO ; pour le rendu de production général à l'échelle flotte, la 5090 est l'optimum par dollar.

Q: Quel est le débit job typique par nœud sur un cluster 5090 ? A: Pour une image Cinema 4D + Redshift modérément complexe en 4K avec global illumination ray-traced complète, attendez 12-15 minutes par image sur un seul nœud RTX 5090. À 20 nœuds frame-parallèles, c'est ~120 images par heure wall-clock, ou environ 5 secondes d'animation 24fps finie par heure. Les chiffres varient avec la complexité — volumetrics lourds ou cheveux/fourrure multiplient les temps ; les shots produit simples peuvent terminer en 2-3 minutes. Octane et V-Ray GPU se situent dans des plages similaires.

Q: Comment la RTX 5090 se compare à la RTX 4090 pour la render farm ? A: La 5090 livre environ 30-40 % de rendu wall-clock plus rapide que la 4090 sur la plupart des charges GPU de production (soit environ 32 % de gain OctaneBench, 1 308 → 1 730 sur OctaneBench 2025.2.1), plus 8 Go de VRAM en plus (32 vs 24) — le changement le plus significatif opérationnellement. Les 24 Go de la 4090 forçaient beaucoup de scènes en out-of-core dans Redshift et Octane ; 32 Go sur la 5090 placent l'essentiel du travail en VRAM. Pour les flottes neuves en 2026, la 5090 est le défaut. Les flottes 4090 existantes restent productives — mais mixer les générations sur une seule queue ajoute du surcoût opérationnel.

Q: Peut-on lancer V-Ray, Arnold ou Karma sur la RTX 5090 ? A: Oui — la RTX 5090 supporte tous les moteurs GPU de production majeurs : Redshift, Octane, V-Ray GPU, Arnold GPU, Karma et Cycles. Le gain varie : Redshift et Octane gagnent le plus (~30-40 % wall-clock plus rapide), V-Ray GPU est plus variable à cause de son modèle hybride CPU+GPU, et Karma scale entre les deux selon que la scène est CUDA-bound ou bande-passante-bound. Tous tournent proprement avec la ligne pilote NVIDIA Studio standard ; la cohérence pilote de production compte plus que le choix de moteur.

Q: Et les futures cartes RTX — la flotte devra-t-elle être upgradée bientôt ? A: La cadence de refresh consumer-flagship de NVIDIA tourne autour de 2 ans (3090 en 2020, 4090 en 2022, 5090 en 2024-25). Une flotte 5090 achetée en 2026 a 3-4 ans de durée de vie opérationnelle avant que l'économie par image de la génération suivante rende un refresh partiel attractif. La plupart des studios cyclent les flottes GPU graduellement (un tiers tous les 18 mois) plutôt que de tout swapper d'un coup. Pour les clients de location de cluster dédié, la décision de refresh part chez le loueur — une raison pour laquelle les prix de location tendent à baisser à mesure que le matériel s'amortit.

Q: Comment gérer la cohérence des pilotes GPU sur 20 nœuds ? A: Une divergence de pilotes entre nœuds peut causer des différences de rendu subtiles (comportement denoiser, changement de pattern de sampling) qui apparaissent comme incohérence image-à-image en sortie finale. Notre approche : épingler une version pilote connue-bonne sur tous les nœuds (typiquement le NVIDIA Studio matché aux versions moteur en production), automatiser le déploiement via configuration management, et valider la cohérence à cadence régulière. Quand un update moteur exige un pilote plus récent, la flotte roll-out par étapes coordonnées, avec test de régression sur un sous-ensemble d'abord. C'est le genre de travail facile à sous-estimer en planifiant un cluster auto-géré — une raison pour laquelle beaucoup de studios préfèrent la location de cluster dédié.