オープンソースのマルチモーダル AIGC スタジオ

オープンソース。マルチモーダル。あなたのパソコンで動く。 「すべての AI モデルはモダリティ変換である」という一つの考えから生まれました。

Workflow screenshot

Add → Transform → Combine

ひとつのキャンバスで、すべてのモダリティを。

複雑なパラメータパネルも、手動でのノード接続も不要 —— 追加、変換、組み合わせだけ。

Add

テキスト、画像、写真、スケッチ、音声ファイル、録音、動画ファイル、録画、ドキュメント、URL、3D モデル —— あらゆる素材をキャンバスに直接配置できます。

Transform

テキスト → テキスト、テキスト → 画像、テキスト → 動画、画像 → 動画、音声 → テキスト、画像 → 3D —— すべてのモデルがモダリティ変換ノードとして公開されています。

Combine

画像融合、リップシンク、ボイスクローン、キャラクター入れ替え、モーション転写、テキスト結合 —— ノードをつなぐだけで自由に組み立てられます。

データはあなたのパソコンに

ワークフローもアップロードファイルもすべてあなた自身のパソコンに保存されます。アカウント登録不要、クラウド同期なし、テレメトリ送信なし。

好きな AI サービスを組み合わせて

重い AI 処理は Modal で実行されます(無料枠でも十分な GPU 時間が使えます)。テキスト生成は OpenRouter / Gemini / OpenAI / DeepSeek から好きなプロバイダを接続するだけ。

実在するモデル、明記

Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Gemma 4、Qwen3、ACE-Step —— 実際に動いているモデル名は README に明記しています。

現在実装されている機能

すべて README からそのまま転載しています。ここに載っているものは今日から使えます。

Add:11 種類の入力

テキスト、画像、写真、スケッチ、音声ファイル、録音、動画ファイル、録画、ドキュメント、URL、3D モデル —— あらゆる素材をキャンバスに配置できます。

Transform:画像

テキスト→画像、画像編集(インペイント / 再描画)、画像理解(キャプション・Q&A)、画像のアップスケール。

Transform:動画

テキスト→動画、画像→動画、最初/最後フレーム補間、動画理解、動画アップスケール、フレーム抽出、字幕除去、ウォーターマーク除去。

Transform:音声

音楽生成、音声合成(プリセット / ボイスクローン / 指示型)、音声認識、ノイズ除去、話者分離、ボイス置換。

Transform:テキスト

プロンプトから生成・リライト —— ノードのモデルスロットに応じて OpenRouter / Gemini / OpenAI / DeepSeek にルーティングされます。

Combine 組み合わせ

画像融合(複数参照のブレンド)、リップシンク(音声+動画 / 音声+画像 / 音声+テキスト → 動画)、ボイスクローン、キャラクター入れ替え、モーション転写、テキスト結合。

ヘルパー

動画連結、音声+動画ミックス、ショット分割、デマックス、音声トラック抽出、長文分割、テキストブロック結合、クリップフィルタ、バッチ整列。

ブリッジ

画像 → 3D モデル、ドキュメント → テキスト、URL → テキスト —— 外部素材をキャンバスに取り込む。

バックエンド

FFmpeg メディアパイプライン、シーン検出、Modal GPU Worker。モデル:Z-Image、FLUX.2、LTX-2、SeedVR2、Gemma 4、Qwen3、ACE-Step。

FAQ

よくある質問

TongFlow が何で、何でないか —— 率直にお答えします。

本当にオープンソースですか?

はい。全ソースコードは GitHub の tong-io/tongflow に AGPL-3.0 で公開されています。閲覧、改変、自前ホストが可能です。

GPU は必要ですか?

ローカルには不要です。重い推論は Modal 上で動き、無料枠に H100 時間が含まれます。Modal トークンと LLM API キーをご自身で用意していただければ、TongFlow 自体はノート PC でも動きます。

AI ツールを別々に使うのとの違いは?

すべての AI モデルがキャンバス上のモダリティ変換ノードとしてラップされています。ノードを並べる —— 入力を追加し、テキスト/画像/音声/動画/3D 間で変換し、結果を組み合わせる —— だけで完結し、5 つのアプリ間でコピー&ペーストする必要はありません。

自前ホストと app.tongflow.com の違いは?

自前ホスト(Docker コマンド 1 つ)はすべてがあなた自身のパソコン上で動きます —— あなたの API キー、あなたのファイル、アカウント不要、クラウドなし。app.tongflow.com は同じスタジオのホスト版で、自分で運用したくない場合はそのまま使えます。

インストール方法は?

Docker コマンド 1 つで完了します。git clone https://github.com/tong-io/tongflow && cd tongflow && docker compose up。必要なのは:Docker、Modal トークン 1 つ(無料枠で十分)、LLM API キー 1 つ(OpenRouter / Gemini / OpenAI / DeepSeek からお好きなものを)。あとは README に従ってください。

自分のモデルで拡張できますか?

できます。モデルスロットとハンドラルーティングは ABI(config/tongflow.abi.json)とプラグインスキャナで設定します。詳細はリポジトリの docs/feature-registry.md を参照してください。

プロジェクトの現在のステージは?

初期段階 —— v0.1.0 です。コードの貢献、バグ報告、モデル統合を歓迎します。Discord に参加するか、GitHub で Issue を立ててください。

始め方は 2 通り

Docker コマンド 1 つで自分のパソコンで動かすか、app.tongflow.com のホスト版を試すか。