TongFlow 是一个开源的多模态 GenAI 工作流工作室。 它把每个 AI 模型变成无限画布上的一个节点，让你像搭积木一样，把文本、图像、视频、音频、文档、3D 模型串联起来——做出任何单一模型都做不出的作品。

30 秒看懂

把素材丢上画布，挑下一步，连线自动完成，然后运行。没有参数面板，不用手动连线——整个理念就这么简单。已经有人用它做出了这些：

基础 —— 输入文字、生成图像，再把它们融合成一张图。
数字人视频 —— 主题 → 脚本 → 配音，加上角色描述 → 形象图，融合成一段口型同步的数字人视频。
音乐 MV —— 生成歌词 + 歌曲 + 角色 + 场景 + 分镜，再拼装成一支完整的 MV。

每个成果背后的工作流，可以在 GitHub 上的 Demo 与动图里看到。

为什么做 TongFlow

AI 能力正在爆发——文生图、图生视频、文本转语音、口型同步、超分辨率——但它们散落在各自孤立的工具里。每个都有自己的界面、自己的参数，把文件从一个搬到下一个全靠手工。只要你的想法跨越了一个以上的模态，摩擦力就赢了。

TongFlow 的答案是一张统一的画布：每个能力都是一个节点，每个节点都遵循强类型契约，连接是自动完成的。于是难的部分重新变回了创作本身。

核心理念

全模型：一套心智模型，装下所有

用「把什么变成什么」来理解任何一个 AI 模型：LLM 是 text → text，扩散模型是 text → image，语音合成是 text → audio，语音识别是 audio → text，3D 生成是 image → 3D。每一种能力本质上都是同一类东西——一次模态转换——所以 TongFlow 把它们统统封装成带强类型输入输出的节点。纷繁、且还在不断增长的 AI 模型世界，就此收敛成一套统一的心智模型。新模型出现时，它只是又一个节点；你的用法一点都不用变。

全模态：不止生成，而是自由互转

图像、视频、音频、文本、文档、3D——人们真正在网络上交付的那些格式——全是一等公民。而且不只是「生成」：你还能编辑、理解、超分、转写，并在模态之间自由转换。文字变成图像，图像动起来成为视频，视频再对上由文字合成的语音；一份文档、一个网址也能变成文本，喂给下一步。无论你带进来什么，总有一条路通向你想要的产物。

低门槛：不用懂 AI 也能上手

没有 CFG、采样器、随机种子这些藏在参数面板里的旋钮，也不用手动连线。你只和三个动词打交道：加（Add） 素材、转（Transform） 模态、合（Combine） 结果。把东西丢上画布、挑下一步，连线自动完成。装上桌面 App，几分钟内就能开始创作——零机器学习背景也没关系。

高可能性：上限随生态一起长高

因为任意节点都能与任意节点组合，简单的零件可以串成野心勃勃的成品：歌词 → 歌曲 → 角色 → 场景 → 分镜 → 一支完整的 MV，全在一张画布上。界面始终简单，但组合空间极其庞大——自由编排模型，你做出的就是真正属于你自己的作品，而不是某个工具吐出的唯一固定结果。门槛很低，而上限会随着模型生态的扩张持续抬高。

插件生态：核心精简，生态开放

TongFlow 的核心刻意保持精简。每个能力节点都由一份契约定义，并至少有一个官方插件实现它——开箱即用——同时任何人都能发布另一种实现。API 提供商、GPU 主机、CPU 服务：任何平台都能用同样的方式打包自己的插件，每个能力的「最佳实现」可以来自最擅长它的那一方。核心保持精简，生态保持开放。

能力全景

整个界面归纳为四类：

加（Add） —— 把素材放上画布：文本、图像、拍照、手绘、音频、录音、视频、文档、URL、3D 模型。
转（Transform） —— 在模态之间转换：文本改写；图像生成 / 编辑 / 理解 / 超分；文生视频 / 图生视频 / 首尾帧 / 视频理解；音乐生成；文本转语音（含声音克隆）；语音识别。
合（Combine） —— 把结果合起来：图像融合、口型同步、角色替换、动作迁移、文本合并。
辅助（Helpers） —— 工程化粘合：视频拼接、音视频混流、按镜头切分、抽取轨道、长文切块等等。

在 README 中标记 ✅ 的节点有官方插件、开箱即用；标记 ⬜ 的节点已在画布上、属于规划中。

五分钟上手

安装桌面 App —— macOS（Apple Silicon / Intel）和 Windows 安装包都在 Releases 页面。首次打开时，画布已预载了一个示例工作流。
安装插件 —— App 默认不带插件。打开插件管理器装上需要的；新插件立即可用，无需重启。
配置凭证 —— 打开 Settings，填入插件需要的环境变量（如 OPENAI_API_KEY，或 GPU 插件的 MODAL_TOKEN_*）。数值本地存储，免重启生效。
跑示例 —— 逐个节点跑，或切到 Execute 模式一键跑完整张图。

免费就能开始——而且不是试用噱头。 官方 GPU/CPU 插件跑在 Modal 上，每个新账号都有每月最高 30 美元的免费 GPU 算力，用的是 H100/A100 级别的真实硬件。这足够你生成图像、让视频动起来、合成语音与音乐，并跑通一整条多步流水线——不用自己买 GPU，也不用花一分钱。每个月你都能零成本地把一个工作流从想法做到成品。等你准备好了，再换上自己的 Key、再往上加量也不迟。

面向开发者：插件架构

每个可运行节点背后都有一份契约——即 ABI（config/tongflow.abi.json）——它定义了有哪些能力、每个能力的输入输出长什么样，与由谁实现无关。

插件就是一个小 Python 包，挑选一个或多个 ABI slot 来提供「怎么做」，并通过 tongflow Python SDK 按 ABI 生成的类型进行标注。
编译期契约。 从 ABI 生成的 TypeScript 类型和 Python Pydantic 模型就是全部闸门——拼写错误和结构不匹配由 tsc / pyright 捕获，没有运行时校验开销。
后端中立。 SDK 从不依赖 Modal。任何平台——API 提供商、GPU 主机、CPU 服务——都能用同样的方式发布自己的插件。

官方插件库已经覆盖 API 插件（OpenAI、Gemini、OpenRouter）和 GPU/CPU 插件（Z-Image、FLUX.2 Klein 9B、LTX、InfiniteTalk、Wan-Animate、SeedVR2、Whisper、Qwen3、ACE-Step 等）。完整开发流程见 docs/PLUGINS.md。

适合谁

创作者 —— 不用手工拼工具，做数字人、音乐 MV、短视频流水线。
开发者 / 平台方 —— 把自家模型打包成插件，接入生态。
企业 —— 在本地 GPU 上部署、定制节点、接入私有模型。

开源、许可与社区

TongFlow 采用双授权：AGPL-3.0（个人、研究、开源项目免费）与商业许可（用于闭源或 SaaS）。商务合作请联系 [email protected]。

如果这个项目对你有用，在 GitHub 点个 Star 是实打实的支持。来 Discord 一起玩，或者直接用托管版 app.tongflow.com 开干。

放开想象、延展你的创意——现在就试试。

TongFlow：一个开源的多模态 GenAI 工作流工作室