🚀 快速安装

复制以下命令并运行，立即安装此 Skill：

npx skills add https://skills.sh/affaan-m/everything-claude-code/fal-ai-media

💡 提示：需要 Node.js 和 NPM

fal.ai 媒体生成

通过 MCP 使用 fal.ai 模型生成图像、视频和音频。

何时激活此技能

用户想要根据文本提示生成图像
从文本或图像创建视频
生成语音、音乐或音效
任何媒体生成任务
用户说“生成图像”、“创建视频”、“文本转语音”、“制作缩略图”或类似内容

MCP 要求

必须配置 fal.ai MCP 服务器。将其添加到 ~/.claude.json 中：

"fal-ai": {
  "command": "npx",
  "args": ["-y", "fal-ai-mcp-server"],
  "env": { "FAL_KEY": "你的FAL密钥" }
}

在 fal.ai 获取 API 密钥。

MCP 工具

fal.ai MCP 提供以下工具：

search — 通过关键词查找可用模型
find — 获取模型详情和参数
generate — 使用参数运行模型
result — 检查异步生成状态
status — 检查任务状态
cancel — 取消正在运行的任务
estimate_cost — 预估生成成本
models — 列出热门模型
upload — 上传文件作为输入使用

图像生成

Nano Banana 2（快速）

最适合：快速迭代、草稿、文生图、图像编辑。

generate(
  app_id: "fal-ai/nano-banana-2",
  input_data: {
    "prompt": "赛博朋克风格的未来城市景观，日落时分",
    "image_size": "landscape_16_9",
    "num_images": 1,
    "seed": 42
  }
)

Nano Banana Pro（高保真）

最适合：生产级图像、逼真效果、文字渲染、详细提示。

generate(
  app_id: "fal-ai/nano-banana-pro",
  input_data: {
    "prompt": "专业产品照片，无线耳机放置在大理石表面上，影棚灯光",
    "image_size": "square",
    "num_images": 1,
    "guidance_scale": 7.5
  }
)

常见图像参数

参数	类型	选项	说明
`prompt`	字符串	必需	描述您想要的图像
`image_size`	字符串	`square`（方形）、`portrait_4_3`（竖屏 4:3）、`landscape_16_9`（横屏 16:9）、`portrait_16_9`（竖屏 16:9）、`landscape_4_3`（横屏 4:3）	宽高比
`num_images`	数字	1-4	生成数量
`seed`	数字	任意整数	用于结果的可重现性
`guidance_scale`	数字	1-20	遵循提示的程度（越高越字面）

图像编辑

使用 Nano Banana 2 配合输入图像进行内绘、外绘或风格迁移：

# 首先上传源图像
upload(file_path: "/path/to/image.png")

# 然后使用图像输入进行生成
generate(
  app_id: "fal-ai/nano-banana-2",
  input_data: {
    "prompt": "同一场景，但改为水彩风格",
    "image_url": "<上传后的URL>",
    "image_size": "landscape_16_9"
  }
)

视频生成

Seedance 1.0 Pro（字节跳动）

最适合：文生视频、图生视频，运动质量高。

generate(
  app_id: "fal-ai/seedance-1-0-pro",
  input_data: {
    "prompt": "无人机飞越山间湖泊，黄金时刻，电影质感",
    "duration": "5s",
    "aspect_ratio": "16:9",
    "seed": 42
  }
)

Kling Video v3 Pro

最适合：文/图生视频，原生音频生成。

generate(
  app_id: "fal-ai/kling-video/v3/pro",
  input_data: {
    "prompt": "海浪拍打岩石海岸，戏剧性的云层",
    "duration": "5s",
    "aspect_ratio": "16:9"
  }
)

Veo 3（谷歌 DeepMind）

最适合：生成带声音的视频，高视觉质量。

generate(
  app_id: "fal-ai/veo-3",
  input_data: {
    "prompt": "繁忙的东京夜市街头，霓虹灯，人群嘈杂声",
    "aspect_ratio": "16:9"
  }
)

图生视频

从现有图像开始：

generate(
  app_id: "fal-ai/seedance-1-0-pro",
  input_data: {
    "prompt": "相机缓慢拉远，微风拂动树木",
    "image_url": "<上传的图像URL>",
    "duration": "5s"
  }
)

视频参数

参数	类型	选项	说明
`prompt`	字符串	必需	描述视频内容
`duration`	字符串	`"5s"`、`"10s"`	视频长度
`aspect_ratio`	字符串	`"16:9"`、`"9:16"`、`"1:1"`	画面比例
`seed`	数字	任意整数	结果重现
`image_url`	字符串	URL	用于图生视频的源图像

音频生成

CSM-1B（对话式语音）

文本转语音，具有自然的对话质量。

generate(
  app_id: "fal-ai/csm-1b",
  input_data: {
    "text": "你好，欢迎来到演示。让我向您展示这是如何工作的。",
    "speaker_id": 0
  }
)

ThinkSound（视频转音频）

从视频内容生成匹配的音频。

generate(
  app_id: "fal-ai/thinksound",
  input_data: {
    "video_url": "<视频URL>",
    "prompt": "带有鸟鸣的环境森林声"
  }
)

ElevenLabs（通过 API，无 MCP）

如需专业语音合成，直接使用 ElevenLabs：

import os
import requests

resp = requests.post(
    "https://api.elevenlabs.io/v1/text-to-speech/<声音ID>",
    headers={
        "xi-api-key": os.environ["ELEVENLABS_API_KEY"],
        "Content-Type": "application/json"
    },
    json={
        "text": "您的文本在此",
        "model_id": "eleven_turbo_v2_5",
        "voice_settings": {"stability": 0.5, "similarity_boost": 0.75}
    }
)
with open("output.mp3", "wb") as f:
    f.write(resp.content)

VideoDB 生成音频

如果配置了 VideoDB，可以使用其生成音频功能：

# 语音生成
audio = coll.generate_voice(text="您的旁白文本", voice="alloy")

# 音乐生成
music = coll.generate_music(prompt="欢快的电子背景音乐", duration=30)

# 音效生成
sfx = coll.generate_sound_effect(prompt="雷声轰鸣后下雨")

成本估算

在生成前，检查预估成本：

estimate_cost(
  estimate_type: "unit_price",
  endpoints: {
    "fal-ai/nano-banana-pro": {
      "unit_quantity": 1
    }
  }
)

模型发现

查找特定任务的模型：

search(query: "文本转视频")
find(endpoint_ids: ["fal-ai/seedance-1-0-pro"])
models()

提示

使用 seed 参数可以在迭代提示时获得可重现的结果
从成本较低的模型（如 Nano Banana 2）开始进行提示迭代，最终版本切换到 Pro 模型
对于视频，保持描述性但简洁——专注于运动和场景
图生视频比纯文生视频产生更可控的结果
在运行昂贵的视频生成之前，检查 estimate_cost

fal.ai Media Generation

🚀 快速安装

fal.ai 媒体生成

何时激活此技能

MCP 要求

MCP 工具

图像生成

Nano Banana 2（快速）

Nano Banana Pro（高保真）

常见图像参数

图像编辑

视频生成

Seedance 1.0 Pro（字节跳动）

Kling Video v3 Pro

Veo 3（谷歌 DeepMind）

图生视频

视频参数

音频生成

CSM-1B（对话式语音）

ThinkSound（视频转音频）

ElevenLabs（通过 API，无 MCP）

VideoDB 生成音频

成本估算

模型发现

提示

相关技能

📄 原始文档

评论(0)

提示：请文明发言取消回复

fal.ai Media Generation

🚀 快速安装

fal.ai 媒体生成

何时激活此技能

MCP 要求

MCP 工具

图像生成

Nano Banana 2（快速）

Nano Banana Pro（高保真）

常见图像参数

图像编辑

视频生成

Seedance 1.0 Pro（字节跳动）

Kling Video v3 Pro

Veo 3（谷歌 DeepMind）

图生视频

视频参数

音频生成

CSM-1B（对话式语音）

ThinkSound（视频转音频）

ElevenLabs（通过 API，无 MCP）

VideoDB 生成音频

成本估算

模型发现

提示

相关技能

📄 原始文档

评论(0)

提示：请文明发言 取消回复

相关文章

market-researcher – 汇易宝

web-renderer-test – 汇易宝

run-acceptance-tests – 汇易宝

(create-tldr-page – 开发工具 | 汇易宝)

提示：请文明发言取消回复