· TongFlow Team · Product · 10 min read
TongFlow:一个开源的多模态 GenAI 工作流工作室
把每个 AI 模型看作一次「模态转换」,用「加 / 转 / 合」三个动作,在一张无限画布上自由编排你的创意。
TongFlow 是一个开源的多模态 GenAI 工作流工作室。 它把每个 AI 模型变成无限画布上的一个节点,让你像搭积木一样,把文本、图像、视频、音频、文档、3D 模型串联起来——做出任何单一模型都做不出的作品。
30 秒看懂
把素材丢上画布,挑下一步,连线自动完成,然后运行。没有参数面板,不用手动连线——整个理念就这么简单。已经有人用它做出了这些:
- 基础 —— 输入文字、生成图像,再把它们融合成一张图。
- 数字人视频 —— 主题 → 脚本 → 配音,加上角色描述 → 形象图,融合成一段口型同步的数字人视频。
- 音乐 MV —— 生成歌词 + 歌曲 + 角色 + 场景 + 分镜,再拼装成一支完整的 MV。
每个成果背后的工作流,可以在 GitHub 上的 Demo 与动图里看到。
为什么做 TongFlow
AI 能力正在爆发——文生图、图生视频、文本转语音、口型同步、超分辨率——但它们散落在各自孤立的工具里。每个都有自己的界面、自己的参数,把文件从一个搬到下一个全靠手工。只要你的想法跨越了一个以上的模态,摩擦力就赢了。
TongFlow 的答案是一张统一的画布:每个能力都是一个节点,每个节点都遵循强类型契约,连接是自动完成的。于是难的部分重新变回了创作本身。
核心理念
全模型:一套心智模型,装下所有
用「把什么变成什么」来理解任何一个 AI 模型:LLM 是 text → text,扩散模型是 text → image,语音合成是 text → audio,语音识别是 audio → text,3D 生成是 image → 3D。每一种能力本质上都是同一类东西——一次模态转换——所以 TongFlow 把它们统统封装成带强类型输入输出的节点。纷繁、且还在不断增长的 AI 模型世界,就此收敛成一套统一的心智模型。新模型出现时,它只是又一个节点;你的用法一点都不用变。
全模态:不止生成,而是自由互转
图像、视频、音频、文本、文档、3D——人们真正在网络上交付的那些格式——全是一等公民。而且不只是「生成」:你还能编辑、理解、超分、转写,并在模态之间自由转换。文字变成图像,图像动起来成为视频,视频再对上由文字合成的语音;一份文档、一个网址也能变成文本,喂给下一步。无论你带进来什么,总有一条路通向你想要的产物。
低门槛:不用懂 AI 也能上手
没有 CFG、采样器、随机种子这些藏在参数面板里的旋钮,也不用手动连线。你只和三个动词打交道:加(Add) 素材、转(Transform) 模态、合(Combine) 结果。把东西丢上画布、挑下一步,连线自动完成。装上桌面 App,几分钟内就能开始创作——零机器学习背景也没关系。
高可能性:上限随生态一起长高
因为任意节点都能与任意节点组合,简单的零件可以串成野心勃勃的成品:歌词 → 歌曲 → 角色 → 场景 → 分镜 → 一支完整的 MV,全在一张画布上。界面始终简单,但组合空间极其庞大——自由编排模型,你做出的就是真正属于你自己的作品,而不是某个工具吐出的唯一固定结果。门槛很低,而上限会随着模型生态的扩张持续抬高。
插件生态:核心精简,生态开放
TongFlow 的核心刻意保持精简。每个能力节点都由一份契约定义,并至少有一个官方插件实现它——开箱即用——同时任何人都能发布另一种实现。API 提供商、GPU 主机、CPU 服务:任何平台都能用同样的方式打包自己的插件,每个能力的「最佳实现」可以来自最擅长它的那一方。核心保持精简,生态保持开放。
能力全景
整个界面归纳为四类:
- 加(Add) —— 把素材放上画布:文本、图像、拍照、手绘、音频、录音、视频、文档、URL、3D 模型。
- 转(Transform) —— 在模态之间转换:文本改写;图像生成 / 编辑 / 理解 / 超分;文生视频 / 图生视频 / 首尾帧 / 视频理解;音乐生成;文本转语音(含声音克隆);语音识别。
- 合(Combine) —— 把结果合起来:图像融合、口型同步、角色替换、动作迁移、文本合并。
- 辅助(Helpers) —— 工程化粘合:视频拼接、音视频混流、按镜头切分、抽取轨道、长文切块等等。
在 README 中标记 ✅ 的节点有官方插件、开箱即用;标记 ⬜ 的节点已在画布上、属于规划中。
五分钟上手
- 安装桌面 App —— macOS(Apple Silicon / Intel)和 Windows 安装包都在 Releases 页面。首次打开时,画布已预载了一个示例工作流。
- 安装插件 —— App 默认不带插件。打开插件管理器装上需要的;新插件立即可用,无需重启。
- 配置凭证 —— 打开 Settings,填入插件需要的环境变量(如
OPENAI_API_KEY,或 GPU 插件的MODAL_TOKEN_*)。数值本地存储,免重启生效。 - 跑示例 —— 逐个节点跑,或切到 Execute 模式一键跑完整张图。
免费就能开始——而且不是试用噱头。 官方 GPU/CPU 插件跑在 Modal 上,每个新账号都有每月最高 30 美元的免费 GPU 算力,用的是 H100/A100 级别的真实硬件。这足够你生成图像、让视频动起来、合成语音与音乐,并跑通一整条多步流水线——不用自己买 GPU,也不用花一分钱。每个月你都能零成本地把一个工作流从想法做到成品。等你准备好了,再换上自己的 Key、再往上加量也不迟。
面向开发者:插件架构
每个可运行节点背后都有一份契约——即 ABI(config/tongflow.abi.json)——它定义了有哪些能力、每个能力的输入输出长什么样,与由谁实现无关。
- 插件就是一个小 Python 包,挑选一个或多个 ABI slot 来提供「怎么做」,并通过
tongflowPython SDK 按 ABI 生成的类型进行标注。 - 编译期契约。 从 ABI 生成的 TypeScript 类型和 Python Pydantic 模型就是全部闸门——拼写错误和结构不匹配由
tsc/pyright捕获,没有运行时校验开销。 - 后端中立。 SDK 从不依赖 Modal。任何平台——API 提供商、GPU 主机、CPU 服务——都能用同样的方式发布自己的插件。
官方插件库已经覆盖 API 插件(OpenAI、Gemini、OpenRouter)和 GPU/CPU 插件(Z-Image、FLUX.2 Klein 9B、LTX、InfiniteTalk、Wan-Animate、SeedVR2、Whisper、Qwen3、ACE-Step 等)。完整开发流程见 docs/PLUGINS.md。
适合谁
- 创作者 —— 不用手工拼工具,做数字人、音乐 MV、短视频流水线。
- 开发者 / 平台方 —— 把自家模型打包成插件,接入生态。
- 企业 —— 在本地 GPU 上部署、定制节点、接入私有模型。
开源、许可与社区
TongFlow 采用双授权:AGPL-3.0(个人、研究、开源项目免费)与商业许可(用于闭源或 SaaS)。商务合作请联系 [email protected]。
如果这个项目对你有用,在 GitHub 点个 Star 是实打实的支持。来 Discord 一起玩,或者直接用托管版 app.tongflow.com 开干。
放开想象、延展你的创意——现在就试试。
