AI 機能

TongFlow の変換は 小規模で明記された バックエンドモデルのセット上で動作します ——「何千ものモデル」という曖昧な約束ではありません。実際のリスト、各モデルの用途、アクセスの設定方法を示します。

バックエンドモデル(Modal で実行)

これらのモデルは Modal ワーカーコンテナ内で実行されます。MODAL_TOKEN_IDMODAL_TOKEN_SECRET を設定すると、ランタイムが Modal 経由で呼び出します:

モデル用途ノード
Z-Imageテキスト → 画像image-gen-textimage-gen
FLUX.2 Klein 9Bマルチリファレンス融合、画像編集image-fusionimage-edit
LTX-2テキスト/画像 → 動画、トーキングヘッドtext-gen-videoimage-gen-videoimage-image-gen-videoaudio-image-gen-video
SeedVR2画像と動画の超解像image-upscalevideo-upscale
Gemma 4マルチモーダルテキスト理解(画像 / 動画)image-describevideo-describevideo-gen-text
Qwen3音声認識と TTStranscribetranscribe-timestamptext-gen-speech-presettext-gen-speech-clonetext-gen-speech-instructconvert_voice
ACE-Stepテキスト → 音楽gen-music

アニメーション / キャラクター入れ替え / モーション転写(wan-animate-mixvideo-image-move-animalvideo-image-gen-video-mix)には、TongFlow は WAN-Animate バリアントを使用 ——正確なスロット配線は ABI を参照。

ローカルメディアパイプライン

モデルを必要としない操作もあります ——単にメディアツールです。これらは Modal ワーカー上で実行されますが、学習済みモデルは一切呼ばないという意味で「ローカル」です:

  • FFmpeg — トランスコード、ミックス、デマックス、フレーム抽出(merge-video-audioseparate-video-audioextract-audioget-first-frameget-last-frame
  • シーン検出split-video 用のショット境界検出
  • 字幕 / ウォーターマーク除去 — 専用ワーカーが処理(subtitle_removeremove_watermark

LLM プロバイダ(テキスト生成とルーティング用)

テキスト生成(gen-textcombine-text グルーピング)は 4 つの LLM プロバイダのいずれかを経由してルーティングされます。環境変数で選択:

プロバイダ環境変数備考
OpenRouterOPENROUTER_API_KEYgen-text のデフォルト。無料ルーティングティアあり。OPENROUTER_FREE_MODEL で特定のルートを固定可能
Google GeminiGEMINI_API_KEY または GOOGLE_API_KEYノードのモデルスロットが Gemini バリアントの場合に使用。一部マルチモーダルハンドラも駆動
OpenAIOPENAI_API_KEYノードのモデルスロットが OpenAI の場合に使用。デフォルトチャットモデルは gpt-4o-miniOPENAI_CHAT_MODEL で上書き)
DeepSeekDEEPSEEK_API_KEY特定のコードパス(バッチテキストグルーピング等)のみで使用。メインの gen-text ドロップダウンには含まれない

実際に使う予定のプロバイダだけ設定すれば十分です。少なくとも 1 つは設定してください ——どの LLM キーも未設定だと、スタジオはテキスト生成変換の実行を拒否します。

変換呼び出しの流れ

image-gen-text(「テキスト → 画像 with Z-Image」)ノードの場合:

  1. キャンバスはノードの入力(上流テキストノードの出力)をワークフローエクスポーターに渡す
  2. エクスポーターは Next.js タスク API を呼び出す:POST /api/task/create、ペイロード {feature: "image-gen-text", pluginId, prompt: {text}, nodeId}
  3. サーバーは Z-Image ワーカーへの Modal 呼び出しをキューに入れ、入力プロンプトを渡す
  4. ワーカーが画像を生成し、base64 を返す;サーバーが保存されたファイル参照(file_key)に後処理し、data/uploads/ に置く
  5. キャンバス上の画像ノードが結果で更新

任意の変換呼び出しがこのパターン ——スロット名と入力形状だけが異なります。

  • Modal は月 USD 30 の無料クレジットを提供。ほとんどの TongFlow ワークフローでは十分な枠です
  • 画像生成と TTS は安価。動画生成(特に長尺)と 4K アップスケールは高め ——Modal の使用ダッシュボードで消費が見えます
  • ハードな上限が欲しい場合、Modal の設定で支出制限を設定してください

LLM のコスト

  • OpenRouter 無料ティアは軽いテキスト生成用途をカバー
  • より重いテキスト用途は、OpenRouter 有料ルート、Gemini、OpenAI Mini が通常 1 回数セント
  • DeepSeek は安いがデフォルトではありません;特に必要な場合のみ有効化

モデルリストの拡張

新しいモデル(自分の LoRA、別のアップスケーラー、オープンソース TTS)を接続したい場合、tongflow リポジトリの docs/feature-registry.md を参照。フロー:

  1. config/tongflow.abi.json で新スロットを型付き入出力で定義
  2. pnpm gen:abi で TS 型を再生成
  3. plugins/ 配下に Python SDK でスロットを実装(@node_slot デコレータ + Pydantic モデル)
  4. pnpm tongflow:publish で新 SDK バージョンを公開、Modal にプラグインをデプロイ

関連