Houdini Cloud Rendering: VFX Deep Dive

Q: Was ist die beste .bgeo.sc-Komprimierungseinstellung für die Cloud-Upload-Bandbreite?

Für FLIP-Partikel-Caches ist das Standard-.bgeo.sc (Packed Sparse Compression) bereits nahezu optimal für den Upload — das Format ist dafür ausgelegt. Der größte einzelne Bandbreitengewinn liegt upstream: Aktivieren Sie Narrowband FLIP, wenn die Kamera nicht durch das tiefe Volumen schaut — das kann die Partikel-Cache-Größe um 60–80% reduzieren, bevor die Komprimierung überhaupt ansetzt. Für Vellum- und RBD-Caches ist .bgeo.sc ebenfalls bereits optimal; Gewinne kommen vom Cachen nur dessen, was sich ändert (Transforms, nicht vollständige Geometrie pro Frame), nicht vom Ändern des Formats.

Houdini-Szenen haben eine eigentümliche Art, Output zu produzieren, lange bevor auch nur ein einziges Frame fertig gerendert ist. Eine FLIP-Simulation, die lokal neun Stunden zum Cachen braucht; ein Pyro-Feuerball, der über 240 Frames eingebacken wird; ein Vellum-Cloth-Solve, der eine 4-TB-Scratch-Disk füllt — und das alles, bevor auch nur ein einziges Karma-Sample auf dem Beauty-Pass landet. Für die FX-TDs und Lookdev-Artists, mit denen wir zusammenarbeiten, liegt der Flaschenhals selten beim eigentlichen Rendering. Es sind die Simulation, der Cache und das Version-Juggling, die die Woche auffressen — und dann muss der „Render" in den Freitagnachmittag passen.

Diese Lücke — zwischen der fertig berechneten Sim und den ausgelieferten Frames — ist der Ort, an dem die Entscheidungen rund ums Cloud Rendering getroffen werden. Wir betreiben Super Renders Farm seit 2017; das Team führt verteiltes Rendering für FX-intensive Produktionsarbeit bereits seit 2010 durch. Die Fragen, die wir von Houdini-FX-TDs hören, sind fast nie: „Sollen wir Cloud-rendern?" Sie lauten: „Übersteht mein Pyro-Cache den Transport?" und: „Wenn ich mein Vellum-Bake auf die Farm verlagere, bleiben die Substeps noch stabil?" Die Antwort hängt davon ab, was die Simulation tut — weshalb dieser Artikel nach Simulationstyp gegliedert ist und nicht nach Workflow-Phase.

Was folgt, ist ein Optimierungshandbuch pro Sim-Typ. Für den End-to-End-Workflow-Aufbau — Szenen-Vorbereitung, $HIP- und $JOB-Pfade, USD-Asset-Auflösung, Plugin-Versions-Pinning — lesen Sie unsere Houdini Cloud-Render-Farm-Einrichtungsanleitung. Für einen Anbietervergleich verwalteter Houdini-Farmen nach Preis, Hardware und Renderer-Unterstützung lesen Sie unseren direkten Vergleich der Houdini-render-farms. Dieser Deep Dive setzt voraus, dass die Szene upload-fertig ist, und konzentriert sich auf die sim-typspezifischen Parameter, die darüber entscheiden, ob die Simulation den Weg zu einer Worker-Flotte übersteht — und was von ihr zurückkommt.

Warum Houdini-Sims eine Cloud-render-farm anders belasten

Die meisten render-farm-Inhalte betrachten die Arbeitslast als „Frames pro Stunde" — eine feste Szene, N-mal über N Worker gerendert. Dieses Modell passt für einen statischen Lookdev-Pass auf Karma oder Redshift. Es passt nicht für eine Houdini-Sim, denn in Houdini ist die „Szene" erst dann finalisiert, wenn der Sim-Cache finalisiert ist. Ein Pyro-Feuerball, ein FLIP-Volumen, ein Vellum-Cloth-Pre-Roll — das ist Zwischenzustand, kein Szenenzustand. Die Farm muss diesen Zwischenzustand entweder vorgebacken empfangen oder ihn aus einer .hip-Datei neu aufbauen, die der Worker gerade erhalten hat — und diese beiden Pfade haben sehr unterschiedliche Kostenprofile.

Die Einzelmaschinen-Grenze der meisten Houdini-Solver ist die entscheidende Einschränkung. DOPnet-Substep-Kohärenz — die Anforderung, dass Frame N von Frame N-1 im selben Solver-Kontext abhängt — bedeutet, dass Pyro, FLIP, Vellum und RBD-Solves meist nicht über Worker-Knoten hinweg parallelisierbar sind. PDG verteilt Wedges und frame-unabhängige SOP-Arbeit; der eigentliche Solve-Loop fächert sich im Allgemeinen nicht auf. Praktische Konsequenz: Eine Sim passt entweder auf einen einzelnen Worker und auf die Workstation, oder sie läuft auf der Farm überhaupt nicht. Die Farm gewinnt bei der render-seitigen Parallelität, nicht bei der sim-seitigen.

Auf unserer Farm laufen auf der CPU-Seite Dual Intel Xeon E5-2699 V4-Nodes mit 96–256 GB RAM (aggregat über 20.000 Cores), der relevante Tier für Cache-Rebuild und CPU-Sim/Render-Passes; auf der GPU-Seite laufen RTX 5090-Karten mit je 32 GB VRAM, der Tier, den Karma XPU und Redshift in der Render-Phase belegen. Die Sim-Phase und die Render-Phase landen auf unterschiedlichen Flotten — weshalb die Preisgestaltung bei Houdini-Arbeit fast immer zwei Posten hat: CPU-GHz-Stunden für den Cache-Rebuild (falls nötig) und GPU-Node-Stunden für den Render.

Die kanonischen Kommandozeilen-Einstiegspunkte sind hbatch (klassische Houdini-Szenenausführung) und husk (husk-Kommandozeilenreferenz — Solaris/USD-Stage-Rendering). Die meisten Farm-seitigen Automatisierungen laufen über einen dieser beiden — die .hip wird einmalig hochgeladen und entweder per Frame-Range neu ausgeführt (hbatch) oder gegen einen vorgebackenen USD-Stage gerendert (husk). Pro Sim-Typ lautet die Frage: Schicken wir einen vorgebackenen Cache und führen husk aus, oder schicken wir die .hip und lassen hbatch den Cache neu aufbauen?

Pyro: Rauch-, Feuer- und Explosions-Caches im Cloud-Maßstab

Pyro ist der Houdini-Solver für Rauch, Feuer und Explosionen — ein Sparse-Grid-Verbrennungsmodell, das auf dem Pyro Solver DOPnet aufgebaut ist und .vdb-Volumes pro Frame schreibt. Die Verbrennung erzeugt Temperatur-, Dichte-, Treibstoff-, Geschwindigkeits- und Divergenzfelder, und das Voxel-Grid ist die primäre Stellgröße für die Cache-Größe: eine Halbierung der Voxelgröße erhöht den Speicher- und Plattenbedarf ungefähr um den Faktor 8 (kubische Skalierung). Vollständige technische Dokumentation: SideFX Pyro-Dokumentation.

Cache-Strategie. Nahezu immer auf .vdb (OpenVDB Sparse) anstatt auf .bgeo.sc backen, da Pyro-Felder von Natur aus sparse sind — die meisten Voxel sind leere Luft. OpenVDBs Narrowband-Speicherung verwirft tote Voxel von der Disk. Die Substep-Anzahl spielt hier eine Rolle: Pyro-Solves laufen sauber bei 1–2 Substeps für langsam bewegte Rauchsäulen, 4–8 Substeps für schnelle Verbrennung oder Schockwellen. Mehr Substeps auf der Farm bedeuten mehr CPU pro Frame; weniger Substeps bedeuten weniger, aber die Sim kann bei schneller Bewegung die Kohärenz verlieren. Pinnen Sie die Substep-Anzahl im DOPnet — verlassen Sie sich nicht auf das Farm-Standardverhalten.

Voxelgröße, Advektionsschema (Semi-Lagrangian vs. Trilinear vs. MacCormack) und die Verbrennungsmodell-Parameter legen zusammen die .vdb-Größe pro Frame fest. Eine mittelkomplexe Pyro-Rauchsäule bei 0,05 Voxelgröße und 240 Frames landet typischerweise im Bereich von 20–60 GB gesamt. Prüfen Sie die Cache-Größe pro Frame vor dem Upload — die Bandbreite beim Hochladen ist oft der Flaschenhals, nicht das Rendering.

Überlegungen zur Cloud-render-farm. Pyro rendert auf der GPU via Karma XPU oder Redshift-Volumen-Rendering, beides konsumiert .vdb nativ. Die Sim selbst ist CPU-gebunden und OpenCL-beschleunigbar, aber die OpenCL-Beschleunigung hilft hauptsächlich bei der Workstation-Bake-Geschwindigkeit, nicht beim farm-seitigen parallelen Frame-Sim (weil jedes Frame noch vom vorherigen abhängt). Praktisches Muster: lokal backen, die .vdb-Sequenz hochladen, auf der GPU-Flotte rendern.

# Rendern einer gecachten Pyro-Rauchsäule via husk auf einem USD-Stage,
# mit Karma XPU auf dem GPU-Node und erhöhten Volumen-Samples.
husk --renderer karma \
     --frame 1 --frame-count 240 --frame-inc 1 \
     --verbose 3a \
     --output "$HIP/render/pyro_plume.\$F4.exr" \
     --settings xpu \
     --override "/Render/rendersettings:karma:volumesamples=8" \
     "$HIP/stage/pyro_plume_volumes.usd"

Der husk-Aufruf gegen einen USD-Stage, der die gecachte .vdb-Sequenz referenziert, ermöglicht es dem GPU-Worker, das Volumen zu zeichnen, ohne die Sim neu berechnen zu müssen. Eine Erhöhung von volumesamples vom Karma-Standard 4 auf 8 reduziert Rauschen bei dichten Rauchsäulen auf Kosten von ungefähr 1,5- bis 2-facher Renderzeit. Verwenden Sie 16 für Hero-Shots, lassen Sie den Wert bei 4 für Pre-Vis.

FLIP: Flüssigkeiten, Surface Reconstruction, Narrowband

FLIP — der Fluid Implicit Particle-Solver — kombiniert Partikel- und Grid-Darstellungen, um Wasser, viskose Flüssigkeiten und Freiflächen-Strömung zu simulieren. Der Output besteht aus zwei Teilen: einem Partikel-Cache (.bgeo.sc Packed Sequence) und optional einem rekonstruierten Surface-Mesh (ebenfalls .bgeo.sc). Beide gehen zur Farm, was bedeutet, dass FLIP den Disk-Footprint bei vergleichbarer Komplexität gegenüber Pyro fast immer verdoppelt.

Cache-Strategie. Partikel-Cache und Surface-Mesh in zwei separate Cache-Verzeichnisse trennen — Partikel backen zuerst, das Mesh rekonstruiert sich aus den Partikeln in einem nachgelagerten SOP-Netzwerk. Diese Trennung ermöglicht ein erneutes Meshing ohne erneutes Simmen, was wichtig ist, wenn die Oberflächenspannung oder die Partikelabstände einen zweiten Durchlauf benötigen. Eine 200-Frame-mittelkomplexe FLIP-Sim bei 0,02 Partikelabstand landet typischerweise bei 80–200 GB auf der Partikelseite und 20–40 GB auf der Mesh-Seite. Narrowband FLIP — bei dem nur Partikel nahe der Oberfläche mit voller Dichte gespeichert werden — reduziert den Partikel-Cache um 60–80% bei Shots, bei denen das tiefe Volumen nicht sichtbar ist. Aktivieren Sie diese Funktion, wenn die Kamera nicht durch das Wasser schaut.

Viskositätsstiffness und CFL-Constraints legen die Substep-Anzahl fest. Wasser-Sims bei Viskosität 0 laufen typischerweise bei 1–2 Substeps; Honig oder geschmolzenes Metall bei hoher Viskosität benötigt oft 5–10 Substeps, um stabil zu bleiben. CFL-Verletzungen erzeugen Partikel-Explosionen, die auf einer Farm weitaus kostspieliger sind als auf einer Workstation, weil Sie diese erst sehen, nachdem der Render abgeschlossen ist.

Überlegungen zur Cloud-render-farm. Die Cache-Upload-Zeit ist der dominante Kostenfaktor für FLIP auf einer Cloud-render-farm. Ein 100-GB-Partikel-Cache über einen 100-Mbps-Client-Uplink dauert ungefähr 2,5 Stunden, bevor das erste Render-Frame starten kann. Bei einem 1-Gbps-Uplink lädt derselbe Cache in ca. 15 Minuten hoch — der Unterschied entscheidet oft darüber, ob Cloud-FLIP für einen Shot operativ realisierbar ist. Prüfen Sie die Cache-Größe vor dem Hochladen.

# Hython-Probe — von einer Workstation oder einem Worker ausführen,
# um die Cache-Größe pro Frame zu berechnen, bevor Upload-Bandbreite
# bei einer mehrstufigen FLIP-Sim bezahlt wird. Als Pre-Flight-Gate verwenden.
import os, hou
cache_dir = hou.expandString("$HIP/cache/flip/v003")
total = 0
frames = 0
for f in sorted(os.listdir(cache_dir)):
    if f.endswith(".bgeo.sc"):
        size = os.path.getsize(os.path.join(cache_dir, f))
        total += size
        frames += 1
print(f"{frames} frames, {total/1e9:.2f} GB total, "
      f"{(total/frames)/1e6:.1f} MB/frame avg")

Wenn der Durchschnitt pro Frame 500 MB übersteigt und der Gesamtbetrag 100 GB überschreitet, akzeptieren Sie entweder das Upload-Fenster oder überarbeiten Sie Partikelabstand, Narrowband und den Surface-Mesh-Schwellenwert vor dem Transfer.

Vellum: Cloth, Soft Body, Constraint-Serialisierung

Vellum ist das Houdini-Framework für positionsbasierte Dynamik — Cloth, Soft Body, Haare, Körner und Flüssigkeiten auf einer Constrained-Position-Formulierung. Der Output ist ein .bgeo.sc-Cache pro Frame, aber anders als bei Pyro oder FLIP tragen Vellum-Caches neben den Punkt-Positionen auch den Constraint-Zustand. Der Constraint-Graph (Pin, Stretch, Bend, Attach-to-Static) muss sauber serialisieren, sonst löst der Farm-Worker die Sim mit beschädigten Constraints neu. Zur Constraint-Typ-Matrix: Vellum Solver-Dokumentation.

Cache-Strategie. Nach dem Vellum Solver DOPnet cachen, vor jeglichem nachgelagerten SOP-Cleanup. Verwenden Sie das Vellum I/O SOP anstelle eines generischen File Cache, da Vellum I/O Constraint-Attribute (__constraintnetwork, restlength, stiffness) erhält, die ein generischer Cache entfernen würde. Pre-Roll ist wichtig: Cloth benötigt 20–40 Frames zum Einpendeln, bevor der Camera-Frame-Range startet, und der Pre-Roll muss im Cache enthalten sein — andernfalls rendert der Worker Frame 1 mit nicht eingependeltem Cloth. Die meisten Vellum-Produktions-Rigs backen den Pre-Roll in die Frames -20 bis 0 des Cache.

Die Substep-Anzahl ist die häufigste einzelne Ursache für farm-seitige Vellum-Ausfälle. Die Standard-Substeps des Vellum Solvers (5) funktionieren für langsame Draperien und einfaches Character-Cloth, aber schnelle Bewegungen, hohe Stretch-Verhältnisse und enge Pin-Netzwerke benötigen oft 10–20 Substeps, um stabil zu bleiben. Pinnen Sie die Substep-Anzahl explizit im DOPnet — den Farm-Worker seinen Standard verwenden zu lassen, ist die Stelle, an der die cross-frame-Stabilität typischerweise bricht, weil lokal gebackene Caches bei Substep 10 nicht mit Worker-neu-gebauten Caches bei Substep 5 übereinstimmen.

Überlegungen zur Cloud-render-farm. Vellum ist CPU-gebunden, single-threaded pro Solver (mit begrenztem Multi-Threading bei der Constraint-Auflösung), und die Cache-Größe ist moderat — in der Regel 5–20 GB pro Shot — sodass der Upload-Flaschenhals weniger akut ist als bei FLIP. Der dominante Kostenfaktor auf einer Farm ist die Rebuild-Zeit, wenn die .hip anstelle eines vorgebackenen Cache geschickt wird. Ein 4-GB-Vellum-Cache (mittelkomplexes Kostüm) dauert typischerweise 30–90 Minuten zum Backen auf einem einzelnen E5-2699-Worker. Wenn Sie lokal backen und den Cache hochladen, sieht die Farm nur die Render-Kosten.

# Batch-Bake eines Vellum-Cloth-Solves auf .bgeo.sc mit explizitem
# Substep-Override. Standard-Substep-Anzahlen sind die Stelle, an der
# die farm-seitige Stabilität bei produktionswertigem Cloth zu brechen neigt.
hbatch -c "render -f 1 240 -i 1 \
  -v vellum_substeps=10 \
  -v cache_format=bgeo.sc \
  /obj/cloth_sim/dop_cache_OUT" \
  -d "/obj/cloth_sim/dopnet1" \
  "$HIP/scenes/cloth_main_v007.hip"

Der -v vellum_substeps=10-Override pinnt die Substep-Anzahl unabhängig davon, was der gespeicherte DOPnet-Parameter der .hip angibt. Dies ist die einzelne sicherste Absicherung gegen farm-seitige Vellum-Stabilitätsdrift.

Destruktion: RBD, Bullet, Constraint-Netzwerke

Destruktion in Houdini bedeutet Rigid-Body-Dynamik — RBD Solver, Bullet und die Constraint-Netzwerke, die gebrochene Geometrie zusammenkleben, einpinnen oder abschnappen. Das Cache-Format ist .bgeo.sc Packed Primitives, wobei jedes Packed Prim ein Bruchstück repräsentiert und das Constraint-Netzwerk als separates .bgeo.sc pro Frame gespeichert wird. Die Frakturierung erfolgt upstream der Sim — in SOPs, nicht in DOPs — und nur die post-frakturierte Geometrie plus das Constraint-Netzwerk gehen an den Solver.

Cache-Strategie. Zwei Caches sind wichtig: die frakturierte Geometrie (statisch, ein Frame) und der dynamische Transform-pro-Frame-Zustand. Cachen Sie nur die Transforms während der Sim, dann wenden Sie diese beim Rendern über den Packed Disk Primitive-Workflow an. Das trennt die schwere Geometrie (oft 5–50 GB an Bruchstücken) von dem kostengünstigen dynamischen Zustand (typischerweise 10–50 MB pro Frame). Die Geometrie wird einmal hochgeladen; der dynamische Cache wird pro Shot hochgeladen.

Constraint-Netzwerk-Serialisierung ist der Fallstrick. RBD-Constraints (Glue, Hard, Soft, Cone-Twist) tragen ein __constraintnetwork-Attribut, das das Vellum I/O-Äquivalent — das RBD I/O SOP — korrekt handhabt, ein generischer File Cache jedoch nicht. Verwenden Sie RBD I/O für die Constraint-Seite; verwenden Sie den Standard-Packed-Prim-Cache für die Transforms.

Überlegungen zur Cloud-render-farm. RBD-Sims sind deterministisch, sofern Random Seeds gepinnt sind. Das Standardverhalten — $F-gesteuerte Seeds, Zeit-des-Tages-Seeds oder nicht gesetzte Seeds — erzeugt unterschiedliche Bruchmuster auf unterschiedlichen Workern. Auf einer Farm, bei der ein Worker den Cache neu aufbaut und ein anderer gegen ein erwartetes Muster rendert (z.B. ein Comp-Setup, das auf einem Workstation-Cache vorgebaut wurde), erzeugt Seed-Drift sichtbare Diskrepanzen, die erst nach dem Landen des Renders sichtbar werden. Pinnen Sie jeden Random Seed vor dem Bake.

# Deterministischer RBD-Bake — RBD_SEED pinnen, damit zwei Worker,
# die denselben Frame-Range rendern, identische Fraktur-Caches erzeugen.
# Ohne dies können Fraktur-Solves zwischen Workstation und Farm
# desynchronisieren, was beim Compositing als Nichtübereinstimmung sichtbar wird.
hbatch -c "set -g \$RBD_SEED 42; \
  render -f 1 200 \
  -v packed_prims=1 \
  /obj/destruction/dop_constraint_OUT" \
  "$HIP/scenes/destruction_v012.hipnc"

Bullet vs. RBD Solver: Bullet ist schneller bei großen Stückzahlen (1.000+ Chunks) und akzeptabel für Destruktionen mittlerer Qualität; RBD Solver ist genauer für Hero-Shot-Dynamik, Stack-Collapse und constraint-gesteuerte Setups, bei etwa dem 3- bis 5-fachen der Solve-Kosten pro Frame. Auf einer Farm ist Bullet der praktische Standard, es sei denn, es handelt sich um einen Hero-Shot.

Crowds: Agents, LOD, Ragdoll-Übergabe

Houdini Crowds ist das Agent-Simulations-Framework — Populationen von Agents mit Motion-Clip-Bibliotheken, Verhaltens-States und LOD-Varianten. Der Cache ist komplexer als bei anderen Sim-Typen: Agent-Caches (.bclip.sc Motion Clips), Crowd-Transform-Caches (.bgeo.sc pro Frame) und Agent-Prim-Packed-Prim-Referenzen, die zur Renderzeit aufgelöst werden. Jeder Agent hat seine eigene LOD-Hierarchie, die zur Renderzeit über Solaris-Variant-Sets ausgetauscht wird.

Cache-Strategie. Die Crowd-Sim auf einen .bgeo.sc-Transform-Cache backen (eine Datei pro Frame, die pro-Agent-Transform plus Motion-Clip-Index enthält). Die Agent-Geometrie — die tatsächlichen Mesh-Daten — lebt in einer separaten .bclip.sc-Bibliothek, die referenziert, nicht pro Frame gebacken wird. Diese Trennung ist der Grund, warum Crowd-Renders überhaupt handhabbar sind: Ein Shot mit tausend Agents hat möglicherweise einen 200-MB-Transform-Cache pro Frame, aber insgesamt nur 2 GB Agent-Geometrie, die von der Disk referenziert wird.

Motion-Clip-Caching ist wichtig, weil Crowds durch das Mischen von Clips animieren, nicht durch frame-basierte Keyframes. Die Clip-Bibliothek muss auf dem Worker vorhanden sein, bevor der Render startet. Backen Sie die Clip-Bibliothek einmal, laden Sie sie in den persistenten Speicher des Workers hoch — dann sind pro-Shot-Uploads nur noch der Transform-Cache.

Ragdoll-Übergabe — bei der ein Agent von clip-gesteuerter Animation auf RBD-gesteuerte Physik übergeht — erfordert besondere Behandlung auf der Farm. Der Ragdoll-State-Cache ist vom Crowd-Transform-Cache getrennt, und der Übergabe-Frame muss deterministisch sein, was das Pinnen von Seeds und Ragdoll-Start-Frames explizit erfordert. Andernfalls produzieren verschiedene Worker unterschiedliche Ragdoll-Trajektorien.

Überlegungen zur Cloud-render-farm. Crowds rendern auf Karma (CPU und XPU) via Solaris-Stages, mit Agent-LOD-Varianten, die zur Renderzeit aufgelöst werden. Render-Zeit-LOD-Swap bedeutet, dass Sie den LOD pro Shot ändern können, ohne erneut zu simmen — High-LOD-Agents rendern für Hero-Shots, Low-LOD für Weitwinkel-Shots, ohne den Cache zu berühren.

# Rendern eines Solaris-Crowd-Stage mit bei husk-Aufruf ausgewähltem
# Agent-LOD. Karma berücksichtigt Agent-Prim-Varianten für LOD-Swapping
# ohne Neuaufbau der Crowd-Sim.
husk --renderer karma --settings xpu \
     --frame 1 --frame-count 240 \
     --output "$HIP/render/crowd.\$F4.exr" \
     --override "/World/crowd:variantSet:lodVariant:value=mid" \
     "$HIP/stage/crowd_main.usd"

Der lodVariant:value=mid-Override wählt das Mid-LOD-Agent-Variant-Set zur Renderzeit aus. Wechseln Sie zu low für entfernte Hintergrundpässe und zu high für Hero-Vordergrund, ohne die Crowd-Sim neu ausführen zu müssen. Dies ist die größte Einzelshot-Kostenersparnis beim Cloud-Crowd-Rendering — Render-Zeit-LOD ermöglicht es einem Cache, jeden Shot in einer Sequenz zu bedienen.

Ehrliche Grenzen: Wann die Farm nicht das richtige Werkzeug ist

Eine Cloud-render-farm ist nicht die Antwort auf jedes Houdini-Sim-Problem — und dies explizit zu sagen verhindert, dass Shots auf die Farm enden, weil niemand die vorgelagerte Frage gestellt hat.

Verteilte Simulation ist weitgehend nicht realisierbar. Pyro, FLIP, Vellum und RBD-Solver sind durch DOPnet-Substep-Kohärenz meist einzelmaschinen-gebunden. PDG kann Wedges und frame-unabhängige SOP-Arbeit verteilen, aber der innere Solve-Loop kann sich im Allgemeinen nicht über Worker-Knoten mid-Sim auffächern. Wenn Ihre Sim nicht auf eine Maschine passt — und der Farm-Worker ist typischerweise ein Dual Xeon E5-2699 V4 mit 96–256 GB RAM, was sich nicht radikal von einer High-End-Workstation unterscheidet — löst ein Umzug auf die Farm das Problem nicht.

Cache-Upload-Bandbreiten-Mathematik. Ein 100-GB-FLIP-Cache über einen 100-Mbps-Client-Uplink dauert ungefähr 2,5 Stunden, bevor das erste Render-Frame startet. Cache-Uploads sind Echtzeit, die Sie bezahlen, bevor auch nur ein einziges Rendering stattfindet. Gigabit-Uplink hilft; die Client-seitige Workstation-Bandbreite oft nicht.

Der GPU-vs.-CPU-Sim-Kompromiss ist geklärt, aber nicht so, wie Anwender erwarten. Pyro und FLIP haben OpenCL-Pfade, die Substep-Solves auf der Workstation beschleunigen. Der farm-seitige Gewinn ist die parallel-frame-Rendering des gecachten Sim, nicht die parallel-frame-Sim. Umformuliert: GPU auf der Farm bedeutet Render-Beschleunigung via Karma XPU oder Redshift; CPU auf der Farm bedeutet Cache-Rebuild, wenn Sie eine .hip anstelle eines Cache schicken.

Iterations-Latenz bei cloud-seitiger Sim-Anpassung. Wenn Sie einen Pyro-Dichteparameter optimieren und neu simmen müssen, laden Sie die modifizierte .hip hoch, cachen neu auf dem Worker und rendern dann. Der Zyklus auf der Farm ist für sim-intensive Arbeit oft 4–8-mal länger als der lokale Zyklus. Cachen Sie auf der Workstation, wenn die Workstation die Auflösung halten kann; die Farm gewinnt auf der Render-Seite, nicht auf der Iterations-Seite.

Verfügbarkeit von Lizenz-Tokens für Houdini Engine. Die Render-Only-Nutzung auf einer verwalteten Farm deckt Houdini-Render-Worker ab, aber Houdini Engine-Lizenzen (für HDA-intensive Prozedurale Pipelines, Game-Asset-Workflows) sind ein separater Seat-Typ. Klären Sie mit der Farm, ob Engine-Tokens gepoolt sind und wie die Parallelität gehandhabt wird, bevor Sie Engine-abhängige Szenen einreichen. Wenn die Farm das richtige Werkzeug ist, aber die Frage wird welche Farm, deckt unser direkter Vergleich der Houdini-render-farms fünf verwaltete Anbieter nach Houdini-spezifischen Kriterien ab.

Workflow-Empfehlungen: Zusammenfassung

Pro Sim-Typ fällt die Entscheidung „lokal cachen vs. auf der Farm backen" meist wie folgt aus. Pyro: lokal backen, .vdb hochladen, GPU rendern. FLIP: lokal backen, wenn der Uplink die Cache-Größe unterstützt, andernfalls hbatch-Rebuild auf dem Worker in Betracht ziehen. Vellum: fast immer lokal backen — Caches sind klein, Rebuild-Zeiten sind nicht trivial. Destruktion: lokal mit gepinnten Seeds backen, Transform-Cache hochladen (nicht vollständige Geometrie pro Frame). Crowds: Transform-Cache lokal backen, einmal mit der Agent-Bibliothek hochladen, mit LOD-Varianten pro Shot rendern.

Der Entscheidungsbaum, den wir neue Houdini-Kunden auf unserer Houdini Cloud-render-farm-Landingpage durchlaufen lassen, deckt die Renderer-Matrix auf Käufer-Ebene ab; dieser Artikel behandelt die FX-TD-Level-Optimierungsparameter darunter. Der CPU-Preis auf unserer veröffentlichten Rate beträgt 0,004 USD/GHz-Hr — relevant, wenn ein mehrtägiger Cache-Rebuild gegen eine Workstation-Alternative bemessen wird. Die Renderer-Matrix auf unserer Farm unterstützt Karma XPU und Karma CPU, Mantra, Redshift, Arnold, V-Ray für Houdini und Octane.

FAQ

Q: Was ist die beste .bgeo.sc-Komprimierungseinstellung für die Cloud-Upload-Bandbreite? A: Für FLIP-Partikel-Caches ist das Standard-.bgeo.sc (Packed Sparse Compression) bereits nahezu optimal für den Upload — das Format ist dafür ausgelegt. Der größte einzelne Bandbreitengewinn liegt upstream: Aktivieren Sie Narrowband FLIP, wenn die Kamera nicht durch das tiefe Volumen schaut — das kann die Partikel-Cache-Größe um 60–80% reduzieren, bevor die Komprimierung überhaupt ansetzt. Für Vellum- und RBD-Caches ist .bgeo.sc ebenfalls bereits optimal; Gewinne kommen vom Cachen nur dessen, was sich ändert (Transforms, nicht vollständige Geometrie pro Frame), nicht vom Ändern des Formats.

Q: Kann ich verteilte Pyro- oder FLIP-Simulationen über mehrere Cloud-Worker ausführen? A: Nein, nicht für den inneren Solve-Loop. Pyro, FLIP, Vellum und RBD verlassen sich alle auf DOPnet-Substep-Kohärenz — Frame N hängt von Frame N-1 im selben Solver-Kontext ab — sodass der Solve sich nicht über Worker-Knoten mid-Sim auffächern kann. PDG kann Wedges (Parameter-Sweeps) und frame-unabhängige SOP-Arbeit verteilen, aber der eigentliche Solver läuft auf einer Maschine. Der Gewinn der Farm bei Sim-Arbeit ist das parallel-frame-Rendering des gebackenen Cache, nicht die parallel-frame-Simulation.

Q: Soll ich Vellum auf der Workstation oder auf der Farm cachen? A: Fast immer auf der Workstation. Vellum-Caches sind moderat (typischerweise 5–20 GB pro Shot), Workstation-Bake-Zeiten sind handhabbar (30–90 Minuten für ein mittelkomplexes Kostüm auf einer einzelnen CPU), und der Cache lädt günstig hoch. Den Farm-Worker einen Vellum-Cache aus der .hip neu aufbauen zu lassen, bedeutet, CPU-GHz-Stunden auf der Worker-Seite zu bezahlen, die Sie lokal kostenlos aufgewendet hätten. Die Ausnahme: Shot-Revisions-Szenarien, bei denen Sie die .hip anpassen und die Substep-Änderung den Cache ungültig macht; in diesen Fällen ist ein Farm-Rebuild sinnvoll.

Q: Unterstützt Karma XPU das Volumen-Rendering gecachter Pyro-.vdb-Dateien auf einem Cloud-Worker? A: Ja. Karma XPU konsumiert OpenVDB-Volumes nativ über Solaris-Stages, und ein husk-Aufruf gegen einen USD-Stage, der die gecachte .vdb-Sequenz referenziert, rendert das Volumen ohne erneutes Lösen. Der GPU-Worker zeichnet das Volumen direkt; die Sim muss nicht auf dem Worker vorhanden sein. Erhöhen Sie karma:volumesamples vom Standard 4 auf 8 für produktionsqualitative Volumes, 16 für Hero-Shots — die Kosten betragen ungefähr das 1,5- bis 2-Fache der Renderzeit pro Verdoppelung.

Q: Wie halte ich RBD-Destruktions-Sims über Cloud-Worker hinweg deterministisch? A: Pinnen Sie jeden Random Seed im DOPnet vor dem Bake — RBD_SEED, Fraktur-Seeds und alle $F-gesteuerten oder Zeit-des-Tages-Seeds. Ohne Seed-Pinning erzeugt dieselbe RBD-Szene, die auf zwei verschiedenen Workern gebacken wird, unterschiedliche Bruchmuster, was als Compositing-Diskrepanz sichtbar wird, wenn ein workstation-gerendertes Referenz- und ein farm-gerendertes Endergebnis nicht übereinstimmen. Setzen Sie den Seed als globale Variable im hbatch-Aufruf (set -g $RBD_SEED 42) und verifizieren Sie, dass das DOPnet ihn liest.

Q: Benötige ich Houdini Engine-Lizenzen, um Crowd-Sims auf einer Cloud-render-farm zu rendern? A: Das hängt davon ab, wie die Crowd-Pipeline aufgebaut ist. Eine Crowd-Sim, die auf einen .bgeo.sc-Transform-Cache backt und via Karma gegen den Cache rendert, benötigt keine Engine — der Render-Only-Lizenz-Tier bewältigt das. Eine Crowd-Sim, die HDAs zur Renderzeit ausführt (prozedurale Agent-Generierung, instanzierte prozedurale Assets), benötigt möglicherweise Engine-Seats. Klären Sie mit der Farm, ob Engine-Tokens gepoolt sind und wie die Parallelität gehandhabt wird. Auf unserer Farm ermöglicht das Render-Only-Lizenzmodell das Rendern von Karma XPU auf der GPU-Flotte und CPU-Renderern auf der CPU-Flotte ohne Engine-Seat-Beschränkungen; HDA-intensive Crowd-Pipelines sollten während des Shot-Setups besprochen werden.