大陸間 render farm:現場からの6つの教訓

はじめに:アーキテクチャ図は嘘をつくが、本番ログは嘘をつかない

整然としたアーキテクチャ計画と雑然とした本番環境の現実

計画文書に描くアーキテクチャ図と、火曜日の午後に実際に顧客向けにレンダリングを実行するシステムとの間には隔たりがあります。私たちがデプロイしてきたすべての大陸間 render farm は、その隔たりを苦労して埋めてきました — 自分自身のゲートウェイから締め出されるコマンド、ICMP がネットワークは健全だと言っている間に静かにタイムアウトする DNS クエリ、きれいに完了した直後に大きなパケットがトンネルを越えようとした瞬間に切れる TCP ハンドシェイク。

この記事は render farm の構築方法に関するチュートリアルではありません。アーティストが一つの国で働き、ハードウェアが別の国で稼働する顧客向けに専用 GPU クラスタをデプロイしながら、私たちが実際に何を壊し、何を修正したかの記録です。ここでの教訓は意図的に運用的なものであり、アーキテクチャ的なものではありません。ベンダーの製品ページには現れず、公開カンファレンスのトークにもめったに登場しない種類のものです。なぜならエンジニアリングというより現場ノートのように読めるからです。

Super Renders Farm では10年以上にわたり fully managed cloud render farm を運用しています。チームが大陸をまたがる専用クラスタを必要とする場合 — 一方にアーティスト、もう一方に GPU — これらは3回目のデプロイメントの後ではなく最初のデプロイメントの前に読んでおきたかった6つの教訓です。また正直な反対教訓セクションも含めます:私たちが試し、却下し、または意図的にデプロイしなかったコンポーネントです。全体像が欲しい場合は、この記事を当社の完全な運用ガイドおよびアーキテクチャ深掘りと併せてお読みください。

教訓1:デュアルホームゲートウェイのルーティングトラップ

2つのネットワークインターフェース — 一つは公開インターネット向け、もう一つは内部 LAN 向け — を持つゲートウェイマシンを最初にデプロイしたとき、内部ルートを設定する前にデフォルトルートを変更しました。3秒以内に SSH セッションが切れました。再接続できませんでした。マシンはアウトオブバンドコンソールのないデータセンターラックにあり、戻る唯一の道はリモートハンズチケットでした。

これがデュアルホームゲートウェイのルーティングトラップであり、私たちが知っているすべてのオペレータを少なくとも一度は噛んできました。仕組みは単純です:マシンに2つの NIC がある場合、どのゲートウェイがどのネットワークを処理するかをカーネルに伝える必要があります。デフォルトルートを公開インターフェースを指すように変更し(外部トラフィックが WireGuard エンドポイント、NAT 出口、または設計が要求する場所を経由して egress するように)、内部 LAN 用のルートをまだ固定していない場合、内部 LAN 経由で入ってくる SSH セッションは突然戻り道を失います。ラップトップに送り返すすべてのパケットは公開インターフェース経由で出ようとし、ソース IP がその方向から見て意味をなさないため上流ルーターにドロップされ、ターミナルがハングします。

修正は機械的です:常に最初に内部ルートを設定し、その後デフォルトを変更します。Ubuntu 22.04 を実行する Linux ゲートウェイでは、そのシーケンスはおおよそ次のように見えます。まず LAN 側ゲートウェイ経由で LAN サブネットの明示的なルートを追加します。次に、そしてその時にのみ、デフォルトルートを egress 設計が要求するものに変更します。

# ステップ1:LAN 側ゲートウェイ経由で内部 LAN ルートを固定
sudo ip route add 10.0.0.0/24 via 10.0.0.1 dev eth1

# ステップ2:今だけデフォルトルートを変更
sudo ip route replace default via <public-gateway-ip> dev eth0

実務において2つの運用習慣がこれをより安全にします。第一に、ルーティング変更には tmux または screen のようなツールを使います。セッションを失っても作業は切断を生き延び、再接続した瞬間に復旧できます。第二に、デフォルトルートに触れるすべてのゲートウェイ変更にウォッチドッグを設定します:キャンセルしない限り5分以内にルーティングテーブルを既知の良好な状態に戻す cron ジョブです。その cron ジョブは何度かリモートハンズチケットから救ってくれました。

一般化できる教訓は、どのデュアルホームマシンでも、操作の順序が最終状態の正しさよりも重要だということです。間違った順序で適用された同じ設定は、正しい順序で適用された同じ設定とは異なる結果を生みます — そして違いはシェルを保持できるかどうかです。

教訓2:WireGuard と DNS の構成トラップ

レンダーノードがゲートウェイへの WireGuard トンネルを開きます。トンネルが立ち上がります。ICMP が両方向で機能します — アーティスト側のオペレータはすべての内部 IP に ping できます。ネットワークが健全だと確信したオペレータは、レンダージョブを起動します。ジョブが止まります。ログは DNS 解決タイムアウトを示します。混乱が広がります。なぜならオペレータはたった今すべての内部アドレスを ping テストし、すべて応答したからです。

これが WireGuard と DNS の構成トラップです。このパターンは、大陸間 render farm デプロイメントにおける最も直感に反するデバッグ体験の一つです。なぜなら標準的な「ネットワークは生きているか?」のチェック(ICMP)が緑を返している間に、実際にユーザに見える障害は別のプロトコル層で起きているからです。

根本原因はほぼ常に dnsmasq です — またはゲートウェイで動かしている内部 DNS リゾルバが何であれ — WireGuard インターフェースをリッスンするように設定されていないことです。デフォルトでは、dnsmasq は起動時に認識しているインターフェースにバインドします。WireGuard インターフェース(wg0)は dnsmasq の後に立ち上がり、そこをリッスンするよう明示的に伝えない限り、トンネル経由で到着するクエリはリゾルバに決して届きません。他のすべてのプロトコル — ICMP、内部 IP への TCP、IP リテラルによる直接 SMB マウントを含む — が動作している間、クライアント側でタイムアウトします。

修正は dnsmasq 設定の1行です:

# /etc/dnsmasq.conf
interface=wg0
interface=eth1
bind-interfaces

bind-interfaces ディレクティブも同様に重要です。それなしでは dnsmasq はワイルドカード 0.0.0.0 でリッスンし、これは多くのケースで機能しますが一部のファイアウォール構成と相性が悪いです。どのインターフェースが DNS を提供するかを明示する方が安全です。

診断のトラップは危険な部分です。ICMP が機能している場合、自然な人間の本能はネットワークを除外しアプリケーション層を見ることです。このデバッグの道が何時間も食うのを見てきました:オペレータはレンダーノードのファイアウォールルールを追い、次にライセンスサーバを確認し、次に古い Deadline 構成を疑い、そして最後に — 3時間後に — アーティスト側で dig @internal-dns-ip cache.lan を実行し、タイムアウトを得ます。このデバッグセッションを一度経験すれば二度と忘れません。一般的な教訓:ネットワーク健全性 smoke test に DNS 解決を追加します。ICMP だけでは不十分です。

教訓3:長いトンネル向けの TCP MSS clamping

3つ目の教訓は、見たことがないと最も時間がかかるものです。なぜなら障害モードが他のすべてに似ているからです。小さな操作は機能します。SSH セッションは接続を維持します。ポートへの telnet は成功します。短い HTTP GET はヘッダを返します。次に誰かがトンネル経由で SMB シェアをマウントしようとし、または TLS ハンドシェイクを開始し、または RDP セッションを開始します — そして接続が永遠にハングします。エラーなし、リセットなし、ただ沈黙。

これが MTU ブラックホール問題であり、長いトンネルでは何かを行わない限り本質的に保証されます。WireGuard は暗号化されたエンベロープとヘッダのために各パケットに約60バイトのオーバーヘッドを追加し、トンネル内の有効 MTU を標準の1500バイトイーサネット MTU を下回らせます。2つのエンドポイントがトンネルを越えてフルサイズのパケットを送ろうとすると、中間のルーターはそれを断片化する(しばしば許可されない)か、送信者がより小さく再試行できるように ICMP「Fragmentation Needed」メッセージを返します。

ICMP Fragmentation Needed メッセージは中間ファイアウォールによって日常的にドロップされます。path MTU discovery がこの方法で壊れると、送信者はトンネルの横断に静かに失敗する大きすぎるパケットを送り続けます。小さなパケットは通過します;大きなパケット — サーバ証明書を運ぶ TLS ハンドシェイク、SMB ネゴシエーション、RDP フレーミング — は消えます。セッションは決して到着しない応答を待ちます。

修正は TCP MSS clamping です。WireGuard ゲートウェイで mangle テーブルに iptables ルールを追加します。このルールは wg0 を経由して出るすべてのパケットの TCP MSS オプションを、path MTU が実際にサポートするものに書き換えます。計算はカーネルが処理します:

sudo iptables -t mangle -A FORWARD -o wg0 \
  -p tcp --tcp-flags SYN,RST SYN \
  -j TCPMSS --clamp-mss-to-pmtu

ユーザより前にこれを捕まえる診断はストレートです:意図的に大きなパケットをトンネルに送り、何が起きるかを見ます。don't-fragment ビットが設定された ping -s 1400 は、MSS clamping が欠けていて PMTUD が壊れていれば失敗します。これを教訓2の DNS チェックの隣にデプロイメントの smoke test に追加します。なぜなら2つの障害が一緒にトリアージする「ネットワークは動くがアプリは動かない」レポートの大部分をカバーするからです。

一般化できる教訓は、どのトンネル化されたオーバーレイでも「TCP が機能する」は「TCP が大きなペイロードに対して機能する」と同じではないということです。ネットワークを健全と宣言する前に、常に大きなパケットをエンドツーエンドでテストします。

教訓4:適正サイジング対オーバーエンジニアリング

専用レンダークラスタを設計するために座ると、ハイパースケーラーのホワイトペーパーで見つけるようなストレージスタックを指定したいという運用的な誘惑があります。冗長性のための4ドライブにわたる RAID 10、保存時暗号化のための LUKS、誰かが XFS は大きなファイルをより良く扱うと一度言ったために、キャッシュファイルシステムに XFS。図面は印象的に見えます。部品表は必要なかった3つのドライブとコントローラを追加します。そして追加された各層は障害を起こしうるもう一つの層です。

私たちが行った大陸間デプロイメントの一つでは、当初の計画は正確にそのスタックを要求しました。デプロイされた現実は、ext4 を持ち保存時暗号化のない単一の8 TB SATA SSD でした。キャッシュサーバは WireGuard の背後で稼働し、その上のデータは日単位ではなく時間単位でクラウドストレージから再生可能であり、顧客の脅威モデルは複数のネットワーク隔離層の背後にあるデータセンターラックへの物理攻撃者のアクセスを含みませんでした。RAID 10 はデプロイメントが持たなかった問題を解決していました。LUKS はクラウド側ストレージがすでに提供する暗号化を複製していました。XFS は ext4 が適切に扱うワークロード(キャッシュされたシーン資産の順次読み取り)のためにファイルシステムの選択を追加していました。

私たちが今適用する一般ルール:層が実際のデプロイメントの実際の障害モードを修正しない限り、層を追加しないでください。マスターデータがクラウドストレージにあり、完全なキャッシュ再ウォームが数時間で終わる場合、キャッシュサーバ上のストレージ冗長性は不要です。コンテンツがすでに転送中とクラウドソースで暗号化されているハードウェアでの保存時暗号化は不要です。ワークロードがデフォルト選択のテスト済みエンベロープ内に十分収まる場合、理論的なベンチマークのためにあまり一般的でないファイルシステムを選ぶのは不要です。

認めたトレードオフ:単一の SSD はクラスタ上の冗長性を持ちません。そのドライブが故障すれば、復元するまでキャッシュは失われます。私たちの緩和策はストレートです — 別の NAS への夜間 rsync、SSD の SMART カウンタのモニタリング、SLA ウィンドウ内にクラウドストレージからキャッシュを再構築する文書化された再ウォーム手順です。要点は冗長性が悪いということではありません;要点は冗長性がデフォルトの反射としてではなく、明確に表現できる障害モードを修正する場所に属するということです。

オーバーエンジニアリングはまた運用上の可読性のコストがあります。各層は次のオペレータがデバッグのために理解しなければならない層です。単一の SSD 上の単一の ext4 ファイルシステムは、すべての Linux オペレータが第一原理からトラブルシュートできるものです。デプロイメントが無人で稼働し、リモートオペレータが午前2時に復旧しなければならない場合、よりシンプルなものが勝ちます。

教訓5:D-Day の前にキャッシュを事前ウォームする

迫りくる締め切りの輝きを前に光で満たされていく貯水池

render farm は顧客の最初の本番日まで見逃しやすいコールドスタート問題を隠します。1日目に20のレンダーノードが初めてオンラインになり、必要な資産をプルし始めます。キャッシュが空であれば、これらのノードのそれぞれが同時にクラウドストレージにヒットし、同じ上流帯域幅を競います。クラウド側のレート制限が発動します。共有インターネットパイプが飽和します。レンダーキューが止まります。クラスタに対する顧客の最初の印象は、古いワークステーションより遅いというものです。

これがコールドプル問題であり、完全に予防可能です。解決策は、顧客の最初に予定されたレンダーの24〜48時間前にキャッシュを事前ウォームすることです。仕組みは単純です:D-day に先立ち、顧客と協力して資産リストを取得します — 参照されるプロジェクトファイル、テクスチャ、シミュレーションキャッシュ、プラグインライブラリです。クラスタに本番負荷がない間にそれらすべてをキャッシュサーバに引き下ろし、1日目にレンダーノードがローカル LAN で自分たちを待つ温かいキャッシュを見つけるようにします。

事前ウォームパスは smoke test としても機能します。資産リストが解決しないパスを含む場合、最初のレンダーのパニックではなく事前ウォームウィンドウの平穏の中で発見します。顧客のクラウドアカウントとプルしているストレージパスの間に権限の問題があれば、それも発見します。資産リストがキャッシュに収まらないボリュームに達すれば、キャッシュをサイズ変更するか、より厳密なスコープを交渉する時間があります。これらの会話のいずれも、レンダーキューがすでに送信されている時に初めて起こるべきではありません。

関連する実践:本番バッチが入る前に小さなフレームバッチでの smoke-test レンダー。0日目にパイプラインを通じてエンドツーエンドで完全品質の20フレーム。何かが誤って設定されていれば — 欠けているプラグインライセンス、間違った出力パス、アーティストのワークステーションとクラスタ間の OCIO ドリフト — smoke test がそれを表面化させます。20フレームは2,000フレームの本番バッチのフレーム800で同じ問題を見つけることに対する安価な保険です。

一般的な教訓:新鮮なクラスタでの最初のレンダーは常に定常状態より遅くエラーが起こりやすいです。その周りで設計します。クラスタを冷たい状態で配送しないでください。

教訓6:ドキュメントは運用ツールであり、後付けではない

6番目の教訓はボーナス教訓です。なぜなら技術パターンよりも、デプロイメントがチームが後でサポートできるものになる方法についてだからです。私たちはランブックをデプロイメント後ではなくデプロイメント中に構築することを学びました。

私たちが運用するすべてのデプロイメントはリアルタイムのビルドログを生成します:時系列順のエントリの番号付き changelog、実際に実行されたコマンド、実際に返ってきた出力、特定の決定がなぜなされたかについてのオペレータコメント付き。私たちはこのログを遡及的に書きません。なぜならその時には詳細がすでに消えているからです。私たちは作業しながら書き、稼働中のインフラと同等の重みを持つ deliverable として扱います。

ビルドログには2つの観客がいます。最初はクラスタに触れる次のオペレータです — 通常はチームメイト、時にはセットアップしたオペレータの未来バージョン。2つ目は顧客で、ビルドログをきれいな as-built リファレンス、何かが壊れた場合の復旧手順、チームが所有するものと私たちが所有するものの間の運用境界に蒸留する引き継ぎ文書の形でです。

デプロイメント中の文書化のコストはデプロイメント時間の約15パーセントです。文書化しないコストは何かを復旧する必要があるたびにサポートサイクル、そしてシステムを引き継ぐチームメイトのための急な学習曲線です。ビルドログは毎回最初の1か月以内に自分自身の元を取りました。

正直な反対教訓:私たちがしなかったこと

どんな運用報告にも、最終スタックを最初から明らかな選択であったかのように記述したい誘惑があります。それはめったにそうではありません。これは私たちが検討し、試し、または意図的にデプロイしなかったコンポーネントです — すでに実行した実験を繰り返すサイクルを浪費しないように含まれています。

リモートデスクトップ用に RustDesk をデプロイしませんでした。 RustDesk は一般的なオフィス作業には使えますが、ストリーミング品質と色忠実度は3D と GPU レンダリングに必要なレベルにありませんでした。アーティストはテクスチャ表面の圧縮アーチファクトとビューポートプレビューの色シフトに気づきました。代わりに NVIDIA NVENC ハードウェアエンコーディングを使用し、高フレームレート高忠実度ストリーミング用に設計された Moonlight + Sunshine に標準化しました。Parsec は妥当なフォールバックです;RustDesk はこのワークロードに合いません。

BBR バージョン3をデプロイしませんでした。 TCP BBR はカーネルデフォルトより長くジッターの多い国際リンクを処理する輻輳制御アルゴリズムです。私たちはそれを使用します — しかし BBR バージョン1を使用し、バージョン3ではありません。BBRv3 はより新しく、理論的には改善されており、まだ顧客の本番期限の前に置くカーネル成熟度にはありません。BBRv1 は十分理解されており、現代の Linux カーネルに標準で付属し、仕事をします。

エッジルーターを NAS 上の VM として実行しませんでした。 以前の計画はキャッシュをホストする同じ Network Attached Storage ボックス上で実行する仮想マシンにエッジゲートウェイを統合することを検討しました。現実は関心の分離です:エッジルーターとキャッシュが同じ物理マシン上に存在する場合、NAS のカーネル更新がゲートウェイも倒します。誤動作するディスクがゲートウェイの I/O を飢えさせる可能性があります。キャッシュ作業を行い他のことを行わない専用のキャッシュボックスは運用的によりクリーンです。

AWS Global Accelerator または Cloudflare Tunnel をデプロイしませんでした。 どちらも妥当なオプションコンポーネントであり、どちらかが一部の顧客のレイテンシを削減します。それらはベースラインには不要でもあります。BBR と MSS clamping を持つ WireGuard トンネルは、限界改善が運用の複雑さを正当化しないほど長い国際リンクを十分に処理します。私たちはアーキテクチャ文書で Global Accelerator と Cloudflare Tunnel をフェーズ2オプションコンポーネントとして指定しましたが、デフォルトの大陸間ビルドではどちらも出荷されませんでした。顧客のレイテンシ要件がベースラインがサポートできるよりも厳しくなれば、再訪します。それまで、必要のないものはデプロイしません。

一般的な反対教訓:正直なデプロイメント報告は出荷されなかったものを含むべきです。そうでなければ次のオペレータは最終スタックが避けられなかったと仮定し、私たちがすでに支払った実験を繰り返します。

よくある質問

Q: 20ノードの専用大陸間 render farm クラスタをデプロイするのにどのくらいかかりますか? A: ハードウェア調達から顧客準備完了クラスタまで、私たちの典型的なタイムラインは2〜4週間にわたります。ハードウェアビルドと OS イメージングは予測可能な部分です。ネットワーク設定 — WireGuard、BBR、MSS clamping、DNS、NTP、ファイアウォール — は数日を追加します。事前ウォームと smoke testing はもう1〜2日を消費します。変動性は顧客側の前提条件から来ます:クラウドアカウントアクセスのプロビジョニング、資産リストの合意、アーティストクライアントセットアップの整合性。

Q: デプロイ遅延の最も一般的な原因は何ですか? A: 顧客側の認証情報とアクセスのプロビジョニング。インフラ作業はスケジュール通りに進みます。ボトルネックは通常、顧客のクラウドストレージ認証情報をセキュリティポリシーと互換性のある方法でクラスタに乗せること、そしてアーティスト側のクライアントツール(WireGuard、Moonlight)をアーティストが実際に使うワークステーションにインストールすることです。私たちはその会話を最終週ではなく1日目に始めることを学びました。

Q: 自分の DIY render farm セットアップにこれらの教訓に従えますか? A: はい。ここでの教訓はインフラパターンであり、ビジネスシークレットではありません。デュアルホームルーティングトラップ、DNS トラップ、MSS clamping、適正サイジング規律はすべて、10ノードでも200ノードでもあらゆるクロスネットワークデプロイメントに適用されます。インフラを自分で運用したくない場合は、当社のfully managed render farmが共有インフラでこれをすべて処理し、専用クラスタオファリングは自分だけのハードウェアを望む顧客のために同じことを行います。

Q: ホストされたサービスとは別に render farm インフラに関するコンサルティングを提供していますか? A: コンサルティング時間を販売するのではなく、インフラを自分自身で運用することに集中しています。構築対レンタルを天秤にかけるチームのために、当社のbuild versus cloud total cost ガイドが経済を説明し、チームは当社のハードウェアで専用クラスタを評価する見込み顧客とアーキテクチャの質問について話し合うことを喜びます。

Q: 距離の点で行った最長の大陸間 render farm デプロイメントは何ですか? A: 今日運用しているデプロイメントは大陸をまたがります — アーティストは北米から作業し、レンダリングハードウェアは東南アジアで稼働します。リンクが長いほどこれらの教訓は重要です。短い LAN 限定デプロイメントは MSS clamping と事前ウォームを無視できます。大陸をまたがるデプロイメントはできません。

Q: これらの教訓がまだ適用される最小のクラスタサイズは何ですか? A: これらのパターンのほとんどは20番目ではなく最初のノードから重要です。デュアルホームルーティングトラップは複数のインターフェースを持つあらゆるゲートウェイに適用されます。DNS プラス WireGuard トラップは内部名前解決を持つあらゆるトンネル化オーバーレイに適用されます。MSS clamping 要件は意味のある長さのトンネルを横断するあらゆる TCP トラフィックに適用されます。キャッシュ事前ウォームはノード数が増えるにつれてより重要になります。なぜならコールドプル帯域幅の競合は同時にクラウドにヒットするノード数に比例してスケールするからです。