AI 能力

TongFlow 的转换跑在一个小且具名的后端模型集合上——不是”上千个模型”的空话。这是实际清单、每个模型用在哪里、怎么配置访问。

后端模型(跑在 Modal 上)

这些模型在 Modal Worker 容器里执行。你设好 MODAL_TOKEN_IDMODAL_TOKEN_SECRET,运行时通过 Modal 调用它们:

模型用途节点
Z-Image文 → 图image-gen-textimage-gen
FLUX.2 Klein 9B多图融合、图像编辑image-fusionimage-edit
LTX-2文/图 → 视频、说话头像text-gen-videoimage-gen-videoimage-image-gen-videoaudio-image-gen-video
SeedVR2图像和视频超分辨率image-upscalevideo-upscale
Gemma 4多模态文本理解(图/视频)image-describevideo-describevideo-gen-text
Qwen3语音识别和 TTStranscribetranscribe-timestamptext-gen-speech-presettext-gen-speech-clonetext-gen-speech-instructconvert_voice
ACE-Step文 → 音乐gen-music

动画 / 角色替换 / 动作迁移(wan-animate-mixvideo-image-move-animalvideo-image-gen-video-mix),TongFlow 用 WAN-Animate 变体——具体 slot 接线见 ABI。

本地媒体管线

有些操作不需要模型——只是媒体工具。这些跑在 Modal Worker 上,但”本地”意义上没有调任何学习过的模型:

  • FFmpeg —— 转码、合成、解复用、抽帧(merge-video-audioseparate-video-audioextract-audioget-first-frameget-last-frame
  • 场景检测 —— 用于 split-video 的镜头边界检测
  • 去字幕 / 去水印 —— 由专门 Worker 处理(subtitle_removeremove_watermark

LLM 服务商(用于文本生成和路由)

文本生成(gen-textcombine-text 分组)通过四家 LLM 服务商之一路由。你通过环境变量选择:

服务商环境变量备注
OpenRouterOPENROUTER_API_KEYgen-text 的默认。有免费路由层。可选 OPENROUTER_FREE_MODEL 钉一个具体路由
Google GeminiGEMINI_API_KEYGOOGLE_API_KEY节点 model slot 设为 Gemini 变体时使用。也驱动一些多模态处理器
OpenAIOPENAI_API_KEY节点 model slot 设为 OpenAI 时使用。默认 chat 模型是 gpt-4o-mini(用 OPENAI_CHAT_MODEL 覆盖)
DeepSeekDEEPSEEK_API_KEY只有少数特定代码路径使用(如批量文本分组)。不在主 gen-text 下拉里

只配置你打算用的服务商就够了。至少配一个——没有任何 LLM key 时工作室拒绝运行文本生成转换。

一次转换调用的过程

image-gen-text(“文 → 图 用 Z-Image”)节点为例:

  1. 画布把节点的输入(上游文本节点的输出)交给工作流导出器
  2. 导出器调用 Next.js 任务 API:POST /api/task/create,参数 {feature: "image-gen-text", pluginId, prompt: {text}, nodeId}
  3. 服务端把对 Z-Image worker 的 Modal 调用入队,传入提示词
  4. Worker 生成图像,返回 base64;服务端后处理为存储文件引用(file_key),落到 data/uploads/
  5. 画布上的图像节点更新结果

任何转换调用都是这个模式——只是 slot 名和输入形状不同。

  • Modal 提供每月 30 美元免费额度。对绝大部分 TongFlow 工作流来说够用
  • 图像生成和 TTS 便宜。视频生成(尤其长片段)和 4K 放大较贵——会在 Modal 使用面板看到明显消耗
  • 在 Modal 设置里设消费上限可以硬性封顶

LLM 成本说明

  • OpenRouter 免费层应付轻量文本生成
  • 较重的文本使用,OpenRouter 付费路由、Gemini、OpenAI Mini 通常是几分钱一次调用
  • DeepSeek 便宜但不是默认;只有特定需要时再启用

扩展模型清单

想接入新模型(自己的 LoRA、其他放大器、开源 TTS),见 tongflow 仓库的 docs/feature-registry.md。流程:

  1. config/tongflow.abi.json 定义新 slot,带强类型输入输出
  2. pnpm gen:abi 重生 TS 类型
  3. plugins/ 用 Python SDK 实现 slot(@node_slot 装饰器 + Pydantic 模型)
  4. pnpm tongflow:publish 发新 SDK 版本,再部署插件到 Modal

相关