· TongFlow Team · Announcements  · 5 min read

TongFlow v0.1.0 开源了

一个 AGPL-3.0 开源的多模态 AIGC 工作室——文本、图像、视频、音频、3D 全部在一张无限画布上。Docker 一行起跑。

TongFlow v0.1.0 现已在 GitHub tong-io/tongflow 公开,采用 AGPL-3.0 协议。一行 Docker 命令、跑在你自己机器上,所有模态共享一张画布。

是什么

TongFlow 是一个多模态 AIGC 工作室,围绕一个核心理念构建:每一个 AI 模型都是一次模态转换。文生图模型是 text → image,语音识别是 audio → text,3D 生成是 image → 3D。把每个模型封装成一个带强类型输入输出的节点、放上无限画布——你就拥有了一条看得见、可编辑、可分享的创作流水线。

界面由三个动词覆盖:

  • Add(添加):把素材放上画布——文本、图像、相机拍照、手绘、音频、视频、文档、URL、3D 模型
  • Transform(转换):在模态之间转——文本到图像、图像到视频、音频到文本、图像到 3D 等等
  • Combine(组合):把结果拼起来——图像融合、口型同步、声音克隆、角色替换、动作迁移

没有复杂的参数面板、不用手动连线。把素材丢上画布,从智能岛(Smart Island)挑下一步,连线自动完成。

你能造什么

v0.1.0 的节点图已经支持下面这些端到端流程:

  • 数字人 / 说话头像视频 —— 脚本 → 语音 → 形象 → 口型同步视频,一张画布完成
  • 段落生短片 —— 文本 → 分镜图 → 图生视频 → 拼接成片
  • 电商批量出图 —— 一张产品图加一张参考,跑图像融合批处理,得到一组干净的变体
  • AI 原创音乐 —— ACE-Step 把一段文字描述变成完整曲目
  • AI 漫画 / 短剧 —— 故事提示 → 分格图像 → 排版 → 可选配音
  • 角色动起来 —— 静态角色通过动作迁移或角色替换节点变成动画

v0.1.0 里有什么

  • 7 种素材输入:文本、图像、音频、视频、文档、URL、3D 模型
  • 图像转换:生成、编辑、识别(图说 / 视觉问答)、放大、图生 3D
  • 视频转换:文本到视频、图像到视频、首尾帧补帧、视频描述、放大、抽帧、字幕去除、水印去除
  • 音频转换:音乐生成、语音合成(预设 / 声音克隆 / 指令)、语音识别、降噪、说话人分离、声音替换
  • 组合节点:图像融合、口型同步(音频+图像→视频、音频+视频→视频、音频+文本→视频)、声音克隆、角色替换、动作迁移、文本合并
  • 后端模型,全部明示:Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Gemma 4、Qwen3、ACE-Step
  • 设计上可扩展:新转换通过 ABI(config/tongflow.abi.json)和插件扫描器接入。接自己的模型、自己的 slot、自己的工作流
  • 一行 Docker 命令自托管git clone + docker compose up

隐私由架构保证

无需账号、无中央 CDN、无任何遥测。工作流和上传文件都存在本地 SQLite 数据库和本地磁盘上——掌控权完全在你、数据完全在你的机器上。工作室只对外通信两个服务:Modal 提供 GPU Worker,以及你自选的一家 LLM 提供商(OpenRouter / Gemini / OpenAI / DeepSeek)。API Key 由你保管,任何东西都不经过我们。

怎么试

git clone https://github.com/tong-io/tongflow
cd tongflow
docker compose up

你需要:

  • Docker(Compose v2)
  • Modal 账号 + Token —— 免费额度(每月 30 美元)跑日常工作绰绰有余
  • 一个 LLM API Key:OpenRouter、Gemini、OpenAI 或 DeepSeek 任选

.env.example 配置环境变量,然后访问 http://localhost:3000Getting Started 文档会带你走完第一个工作流。

不想自己装也行——托管版 https://app.tongflow.com 已经在线,同一张画布、同一套节点,浏览器里直接开干。

加入社区

如果你用 TongFlow 做出了东西,欢迎来秀。如果项目对你有用,在仓库点个 Star 是实打实的支持。

Related Posts

View All Posts »

TongFlow v0.1.0 is open source

An open-source multi-modal AIGC studio with text, image, video, audio, and 3D on one infinite canvas. AGPL-3.0, runs anywhere Docker runs.