AI 能力
TongFlow 的转换跑在一个小且具名的后端模型集合上——不是”上千个模型”的空话。这是实际清单、每个模型用在哪里、怎么配置访问。
后端模型(跑在 Modal 上)
这些模型在 Modal Worker 容器里执行。你设好 MODAL_TOKEN_ID 和 MODAL_TOKEN_SECRET,运行时通过 Modal 调用它们:
| 模型 | 用途 | 节点 |
|---|---|---|
| Z-Image | 文 → 图 | image-gen-text、image-gen |
| FLUX.2 Klein 9B | 多图融合、图像编辑 | image-fusion、image-edit |
| LTX-2 | 文/图 → 视频、说话头像 | text-gen-video、image-gen-video、image-image-gen-video、audio-image-gen-video |
| SeedVR2 | 图像和视频超分辨率 | image-upscale、video-upscale |
| Gemma 4 | 多模态文本理解(图/视频) | image-describe、video-describe、video-gen-text |
| Qwen3 | 语音识别和 TTS | transcribe、transcribe-timestamp、text-gen-speech-preset、text-gen-speech-clone、text-gen-speech-instruct、convert_voice |
| ACE-Step | 文 → 音乐 | gen-music |
动画 / 角色替换 / 动作迁移(wan-animate-mix、video-image-move-animal、video-image-gen-video-mix),TongFlow 用 WAN-Animate 变体——具体 slot 接线见 ABI。
本地媒体管线
有些操作不需要模型——只是媒体工具。这些跑在 Modal Worker 上,但”本地”意义上没有调任何学习过的模型:
- FFmpeg —— 转码、合成、解复用、抽帧(
merge-video-audio、separate-video-audio、extract-audio、get-first-frame、get-last-frame) - 场景检测 —— 用于
split-video的镜头边界检测 - 去字幕 / 去水印 —— 由专门 Worker 处理(
subtitle_remove、remove_watermark)
LLM 服务商(用于文本生成和路由)
文本生成(gen-text、combine-text 分组)通过四家 LLM 服务商之一路由。你通过环境变量选择:
| 服务商 | 环境变量 | 备注 |
|---|---|---|
| OpenRouter | OPENROUTER_API_KEY | gen-text 的默认。有免费路由层。可选 OPENROUTER_FREE_MODEL 钉一个具体路由 |
| Google Gemini | GEMINI_API_KEY 或 GOOGLE_API_KEY | 节点 model slot 设为 Gemini 变体时使用。也驱动一些多模态处理器 |
| OpenAI | OPENAI_API_KEY | 节点 model slot 设为 OpenAI 时使用。默认 chat 模型是 gpt-4o-mini(用 OPENAI_CHAT_MODEL 覆盖) |
| DeepSeek | DEEPSEEK_API_KEY | 只有少数特定代码路径使用(如批量文本分组)。不在主 gen-text 下拉里 |
只配置你打算用的服务商就够了。至少配一个——没有任何 LLM key 时工作室拒绝运行文本生成转换。
一次转换调用的过程
以 image-gen-text(“文 → 图 用 Z-Image”)节点为例:
- 画布把节点的输入(上游文本节点的输出)交给工作流导出器
- 导出器调用 Next.js 任务 API:
POST /api/task/create,参数{feature: "image-gen-text", pluginId, prompt: {text}, nodeId} - 服务端把对 Z-Image worker 的 Modal 调用入队,传入提示词
- Worker 生成图像,返回 base64;服务端后处理为存储文件引用(
file_key),落到data/uploads/ - 画布上的图像节点更新结果
任何转换调用都是这个模式——只是 slot 名和输入形状不同。
Modal 成本说明
- Modal 提供每月 30 美元免费额度。对绝大部分 TongFlow 工作流来说够用
- 图像生成和 TTS 便宜。视频生成(尤其长片段)和 4K 放大较贵——会在 Modal 使用面板看到明显消耗
- 在 Modal 设置里设消费上限可以硬性封顶
LLM 成本说明
- OpenRouter 免费层应付轻量文本生成
- 较重的文本使用,OpenRouter 付费路由、Gemini、OpenAI Mini 通常是几分钱一次调用
- DeepSeek 便宜但不是默认;只有特定需要时再启用
扩展模型清单
想接入新模型(自己的 LoRA、其他放大器、开源 TTS),见 tongflow 仓库的 docs/feature-registry.md。流程:
- 在
config/tongflow.abi.json定义新 slot,带强类型输入输出 pnpm gen:abi重生 TS 类型- 在
plugins/用 Python SDK 实现 slot(@node_slot装饰器 + Pydantic 模型) pnpm tongflow:publish发新 SDK 版本,再部署插件到 Modal
