ノードタイプ

TongFlow のノードは 6 つのグループに分かれます。Add と Modality のノードがキャンバス上で素材を保持し、それ以外のノードがその素材を加工します。

正式な一覧は tongflow リポジトリの config/tongflow.abi.json にあります。このページはその現状を反映したものです。

Add ノード（7 種類）

Add ノードは新しい素材をキャンバスに置きます。Create モードで Smart Island の Add ツールバーから選びます。

ノード	アイコン	機能
`addTextNode`	Type	ノード本体に直接テキストを入力
`addImageNode`	Image	ファイルのアップロード、カメラ撮影、スケッチ描画のいずれかで画像を 1 枚出力
`addAudioNode`	Music	音声ファイルのアップロード、またはマイク録音
`addVideoNode`	Video	動画ファイルのアップロード、またはカメラ録画
`addFileNode`	FileText	ドキュメントのアップロード（PDF / DOCX / TXT / MD）
`addLinkNode`	Link	URL を貼り付けると、ページ内容を取得してテキストにする
`addModelNode`	Box	3D モデルファイルのアップロード（GLB / GLTF）

Add タイプは 7 種類であり、11 種類ではありません。以前のドキュメントは「画像追加」と「カメラ撮影」を別ノードとして数えていましたが、実際には同じ addImageNode の中のモードです。

Transform ノード

各変換は 1 つの入力モダリティを受け取り、別のモダリティを出力します。バックエンドモデルまたは外部 LLM に接続されています。

テキスト変換

ノードスロット	説明	バックエンド
`gen-text`	プロンプトからテキストを生成・書き換え	OpenRouter / Gemini / OpenAI / DeepSeek（設定可能）
`combine-text`	複数のテキスト入力を 1 つにマージ	ローカル
`split-text`	長いテキストをチャンクに分割	ローカル

画像変換

ノードスロット	説明	バックエンドモデル
`image-gen-text`	テキスト → 画像	Z-Image
`image-gen`	画像 → 編集済み画像（フルフレーム）	Z-Image
`image-gen-model`	モデル条件付き画像生成	設定可能
`image-edit`	インペイント / 指示ベースの編集	FLUX.2 Klein 9B
`image-fusion`	複数リファレンスのブレンド	FLUX.2 Klein 9B
`image-describe`	画像 → テキスト（キャプション / Q&A）	Gemma 4（マルチモーダル）
`image-upscale`	画像のアップスケール	SeedVR2

動画変換

ノードスロット	説明	バックエンド
`gen-video`、`text-gen-video`	テキスト → 動画	LTX-2
`image-gen-video`	画像 → 動画	LTX-2
`image-image-gen-video`	先頭フレーム + 末尾フレーム → 動画（補間）	LTX-2
`video-image-gen-video-mix`、`wan-animate-mix`	画像 + 動画 → 動画（キャラクター差し替え / シーン合成）	WAN Animate
`video-image-gen-video-move`、`video-image-move-animal`	モーション転写（被写体と動きを別ソースから合成）	WAN Animate（move バリアント）
`audio-image-gen-video`	音声 + 画像 → トーキングヘッド / アニメーションポートレート	LTX-2 / WAN
`video-describe`、`video-gen-text`	動画 → テキスト（要約 / キャプション）	Gemma 4
`video-upscale`	動画のアップスケール	SeedVR2
`get-first-frame`、`get-last-frame`	フレームを 1 枚抽出	ローカル（FFmpeg）
`subtitle_remove`	焼き込み字幕の除去	バックエンド
`remove_watermark`	ウォーターマークの除去	バックエンド

音声変換

ノードスロット	説明	バックエンド
`gen-music`	テキスト → 音楽	ACE-Step
`text-gen-speech-preset`	プリセット音声による TTS	Qwen3
`text-gen-speech-clone`	リファレンス音声によるクローン TTS	Qwen3
`text-gen-speech-instruct`	スタイル指示付き TTS	Qwen3
`text-audio-gen-speech`	テキストとリファレンス音声を併用する TTS	Qwen3
`transcribe`、`transcribe-timestamp`	音声 / 動画 → テキスト（タイムスタンプは任意）	Qwen3
`denoise_audio`	ノイズ除去	バックエンド
`separate_speaker`	話者分離	バックエンド
`separate_audio_track`、`separate-video-audio`	動画から音声を分離	ローカル（FFmpeg）
`convert_voice`	声質・音色の置き換え	Qwen3

クロスモーダルブリッジ

ノードスロット	説明
`parse-document`	ドキュメント → テキスト
`link`	URL → テキスト
画像 → 3D（開発中）	画像 → 3D モデル

Combine ノード

Combine ノードは複数の入力から 1 つの出力を作ります。

ノードスロット	入力	出力
`image-fusion`	画像 N 枚	ブレンドした画像 1 枚
`audio-video-lip-sync`	音声 + 動画	音声駆動のリップシンク（InfiniteTalk）
`speech-video-gen-video`	動画 + テキスト（目的のセリフ）	テキスト駆動のリップダビング（LTX LipDub）
その他のリップシンク系	音声 + 画像 / テキスト / 画像+動画	動画生成または合成
`speech-image-video-gen-video`	音声 + 画像 + 動画	合成動画
`speech-text-gen-video`	音声 + テキスト	動画
`convert_voice`（Combine 形式）	テキスト + リファレンス音声 → 音声	クローン音声
`combine-text`	テキストノード N 個 → 1 つ

ヘルパーノード

ノードスロット	説明
`concat-videos`	複数のクリップを順につなぐ
`merge-video-audio`	音声と動画を 1 ファイルにミックス
`split-video`	シーン境界で分割（シーン検出）
`separate-video-audio`	音声と映像を別トラックに分離
`extract-audio`	動画から音声トラックを取り出す
`split-text`	長いテキストをチャンクに分割
`combine-text`	テキストセグメントをマージ
`drop-video`	ルールに基づいてクリップを除外
`arrange-group`	クリップやテキストをグループ化・整列し、下流のバッチ処理へ渡す

型チェックの仕組み

接続の検証は ABI に基づきます。出力ハンドルを入力ハンドルにドラッグすると、モダリティと形状が一致するかがチェックされます。テキストを求める入力に動画をつなごうとしても、エッジは形成されません。生成された src/generated/abi/index.ts の TypeScript 型が、キャンバスとワークフローエクスポーターの整合性をコンパイル時に保証します。

独自ノードの追加

必要な変換が一覧にない場合は、プラグインとして追加できます。tongflow リポジトリの docs/feature-registry.md と docs/plugins.md を参照してください。手順は次のとおりです。

config/tongflow.abi.json にスロット定義を追加します。
型を再生成します：pnpm gen:abi
plugins/ 配下に、@node_slot デコレータと対応する Pydantic モデルを使ってプラグインを実装します。
Python SDK のバージョンピンを上げて公開し、Modal に再デプロイします。