オープンソースのマルチモーダル AIGC スタジオ

無限キャンバスの上で素材を追加し、モダリティを変換し、結果を組み合わせる。無料・オープンソース、あなた自身のパソコンで動きます。オープンソース。マルチモーダル。あなたのパソコンで動く。「すべての AI モデルはモダリティ変換である」という一つの考えから生まれました。

GitHub

ホスト版を試す

お問い合わせ

Add → Transform → Combine

ひとつのキャンバスで、すべてのモダリティを。

複雑なパラメータパネルも、手動でのノード接続も不要 —— 追加、変換、組み合わせだけ。

Add

テキスト、画像、写真、スケッチ、音声ファイル、録音、動画ファイル、録画、ドキュメント、URL、3D モデル —— あらゆる素材をキャンバスに直接配置できます。

Transform

テキスト → テキスト、テキスト → 画像、テキスト → 動画、画像 → 動画、音声 → テキスト、画像 → 3D —— すべてのモデルがモダリティ変換ノードとして公開されています。

Combine

画像融合、リップシンク、ボイスクローン、キャラクター入れ替え、モーション転写、テキスト結合 —— ノードをつなぐだけで自由に組み立てられます。

データはあなたのパソコンに

ワークフローもアップロードファイルもすべてあなた自身のパソコンに保存されます。アカウント登録不要、クラウド同期なし、テレメトリ送信なし。

好きな AI サービスを組み合わせて

重い AI 処理は Modal で実行されます（無料枠でも十分な GPU 時間が使えます）。テキスト生成は OpenRouter / Gemini / OpenAI / DeepSeek から好きなプロバイダを接続するだけ。

実在するモデル、明記

Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Gemma 4、Qwen3、ACE-Step —— 実際に動いているモデル名は README に明記しています。

現在実装されている機能

すべて README からそのまま転載しています。ここに載っているものは今日から使えます。

Add：11 種類の入力

テキスト、画像、写真、スケッチ、音声ファイル、録音、動画ファイル、録画、ドキュメント、URL、3D モデル —— あらゆる素材をキャンバスに配置できます。

Transform：画像

テキスト→画像、画像編集（インペイント / 再描画）、画像理解（キャプション・Q&A）、画像のアップスケール。

Transform：動画

テキスト→動画、画像→動画、最初/最後フレーム補間、動画理解、動画アップスケール、フレーム抽出、字幕除去、ウォーターマーク除去。

Transform：音声

音楽生成、音声合成（プリセット / ボイスクローン / 指示型）、音声認識、ノイズ除去、話者分離、ボイス置換。

Transform：テキスト

プロンプトから生成・リライト —— ノードのモデルスロットに応じて OpenRouter / Gemini / OpenAI / DeepSeek にルーティングされます。

Combine 組み合わせ

画像融合（複数参照のブレンド）、リップシンク（音声+動画 / 音声+画像 / 音声+テキスト → 動画）、ボイスクローン、キャラクター入れ替え、モーション転写、テキスト結合。

ヘルパー

動画連結、音声＋動画ミックス、ショット分割、デマックス、音声トラック抽出、長文分割、テキストブロック結合、クリップフィルタ、バッチ整列。

ブリッジ

画像 → 3D モデル、ドキュメント → テキスト、URL → テキスト —— 外部素材をキャンバスに取り込む。

バックエンド

FFmpeg メディアパイプライン、シーン検出、Modal GPU Worker。モデル：Z-Image、FLUX.2、LTX-2、SeedVR2、Gemma 4、Qwen3、ACE-Step。

FAQ

よくある質問

TongFlow が何で、何でないか —— 率直にお答えします。

本当にオープンソースですか？

はい。全ソースコードは GitHub の tong-io/tongflow に AGPL-3.0 で公開されています。閲覧、改変、自前ホストが可能です。

GPU は必要ですか？

ローカルには不要です。重い推論は Modal 上で動き、無料枠に H100 時間が含まれます。Modal トークンと LLM API キーをご自身で用意していただければ、TongFlow 自体はノート PC でも動きます。

AI ツールを別々に使うのとの違いは？

すべての AI モデルがキャンバス上のモダリティ変換ノードとしてラップされています。ノードを並べる —— 入力を追加し、テキスト/画像/音声/動画/3D 間で変換し、結果を組み合わせる —— だけで完結し、5 つのアプリ間でコピー&ペーストする必要はありません。

自前ホストと app.tongflow.com の違いは？

自前ホスト（Docker コマンド 1 つ）はすべてがあなた自身のパソコン上で動きます —— あなたの API キー、あなたのファイル、アカウント不要、クラウドなし。app.tongflow.com は同じスタジオのホスト版で、自分で運用したくない場合はそのまま使えます。

インストール方法は？

Docker コマンド 1 つで完了します。git clone https://github.com/tong-io/tongflow && cd tongflow && docker compose up。必要なのは：Docker、Modal トークン 1 つ（無料枠で十分）、LLM API キー 1 つ（OpenRouter / Gemini / OpenAI / DeepSeek からお好きなものを）。あとは README に従ってください。

自分のモデルで拡張できますか？

できます。モデルスロットとハンドラルーティングは ABI（config/tongflow.abi.json）とプラグインスキャナで設定します。詳細はリポジトリの docs/feature-registry.md を参照してください。

プロジェクトの現在のステージは？

初期段階 —— v0.1.0 です。コードの貢献、バグ報告、モデル統合を歓迎します。Discord に参加するか、GitHub で Issue を立ててください。

始め方は 2 通り

Docker コマンド 1 つで自分のパソコンで動かすか、app.tongflow.com のホスト版を試すか。

GitHub

ホスト版を試す