Add → Transform → Combine
一张画布,覆盖所有模态。
没有复杂参数面板,不用手动连线 —— 添加、转换、组合,仅此而已。
Add
文本、图像、相机拍照、手绘、音频、录音、视频、录像、文档、URL、3D 模型 —— 任意素材都能直接放上画布。
Transform
文本 → 文本、文本 → 图像、文本 → 视频、图像 → 视频、音频 → 文本、图像 → 3D —— 每个模型都是一个模态转换节点。
Combine
图像融合、口型同步、声音克隆、角色替换、动作迁移、文本合并 —— 节点连起来即可组装任意工作流。
数据留在你自己的电脑上
工作流和上传文件都保存在你自己的电脑上。无需注册账号、无云端同步、无任何遥测。
AI 服务自由组合
重型 AI 任务跑在 Modal 上(他们的免费额度包含相当多的 GPU 时间)。文本生成接入你自己的 OpenRouter / Gemini / OpenAI / DeepSeek 即可。
真实模型,明码标价
Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Gemma 4、Qwen3、ACE-Step —— 干活的模型在 README 里写得清清楚楚。
当前已实现的能力
全部摘自 README。这里列出的,今天就能用。
文本、图像、相机拍照、手绘、音频文件、录音、视频文件、录像、文档、URL、3D 模型 —— 任意素材都能放上画布。
文生图、图像编辑(inpaint / 重绘)、图像理解(描述、问答)、图像超分。
文生视频、图生视频、首尾帧插帧、视频理解、视频超分、抽帧、字幕去除、水印去除。
音乐生成、语音合成(预设音色 / 声音克隆 / 指令式)、语音识别、降噪、说话人分离、音色替换。
根据 Prompt 生成或改写文案 —— 根据节点的 Model Slot 路由到 OpenRouter / Gemini / OpenAI / DeepSeek。
图像融合(多参考混合)、口型同步(音频+视频 / 音频+图像 / 音频+文本 → 视频)、声音克隆、角色替换、动作迁移、文本合并。
拼接视频、视频音频混流、按镜头分割、视频音频分离、抽取音轨、长文切片、文本块合并、片段筛选、批量分组排列。
图像 → 3D 模型、文档 → 文本、URL → 文本 —— 把外部素材带上画布。
FFmpeg 媒体管线、镜头切换检测、Modal GPU Worker。模型:Z-Image、FLUX.2、LTX-2、SeedVR2、Gemma 4、Qwen3、ACE-Step。
FAQ
常见问题
关于 TongFlow 是什么、不是什么 —— 直接回答。
真的是开源的吗?
是的。全部源码托管在 GitHub tong-io/tongflow,采用 AGPL-3.0 许可证。可以阅读、修改、自行部署。
需要 GPU 吗?
本地不需要。重的推理任务跑在 Modal 上,免费额度包含 H100 时间。你提供自己的 Modal Token 和 LLM API Key,TongFlow 本身在笔记本上也能跑。
和单独使用各种 AI 工具有什么区别?
每个 AI 模型都被封装成画布上的模态转换节点。你只需排列节点 —— 添加输入、在文本/图像/音频/视频/3D 之间转换、组合结果 —— 不用在五个 App 之间复制粘贴。
自托管和 app.tongflow.com 有什么区别?
自托管(一行 Docker 命令)所有东西都在你自己电脑上:自己的 API Key、自己的文件、无需账号、无云端。app.tongflow.com 是同一个工作室的托管版本,如果你不想自己折腾就直接用它。
怎么安装?
一行 Docker 命令。git clone https://github.com/tong-io/tongflow && cd tongflow && docker compose up。你需要:Docker、一个 Modal Token(免费额度够用)、至少一个 LLM API Key(OpenRouter / Gemini / OpenAI / DeepSeek 任选一个)。剩下的步骤跟着 README 走。
能扩展自己的模型吗?
可以。模型槽位和处理路由通过 ABI(config/tongflow.abi.json)+ 插件扫描器配置。详见仓库 docs/feature-registry.md。
现在是什么阶段?
早期阶段 —— v0.1.0。欢迎贡献代码、反馈 bug、集成模型。加入 Discord 或在 GitHub 上提 Issue。

