🚀 快速安装

复制以下命令并运行,立即安装此 Skill:

npx skills add https://skills.sh/affaan-m/everything-claude-code/fal-ai-media

💡 提示:需要 Node.js 和 NPM

fal.ai 媒体生成

通过 MCP 使用 fal.ai 模型生成图像、视频和音频。

何时激活此技能

  • 用户想要根据文本提示生成图像
  • 从文本或图像创建视频
  • 生成语音、音乐或音效
  • 任何媒体生成任务
  • 用户说“生成图像”、“创建视频”、“文本转语音”、“制作缩略图”或类似内容

MCP 要求

必须配置 fal.ai MCP 服务器。将其添加到 ~/.claude.json 中:

"fal-ai": {
  "command": "npx",
  "args": ["-y", "fal-ai-mcp-server"],
  "env": { "FAL_KEY": "你的FAL密钥" }
}

fal.ai 获取 API 密钥。

MCP 工具

fal.ai MCP 提供以下工具:

  • search — 通过关键词查找可用模型
  • find — 获取模型详情和参数
  • generate — 使用参数运行模型
  • result — 检查异步生成状态
  • status — 检查任务状态
  • cancel — 取消正在运行的任务
  • estimate_cost — 预估生成成本
  • models — 列出热门模型
  • upload — 上传文件作为输入使用

图像生成

Nano Banana 2(快速)

最适合:快速迭代、草稿、文生图、图像编辑。

generate(
  app_id: "fal-ai/nano-banana-2",
  input_data: {
    "prompt": "赛博朋克风格的未来城市景观,日落时分",
    "image_size": "landscape_16_9",
    "num_images": 1,
    "seed": 42
  }
)

Nano Banana Pro(高保真)

最适合:生产级图像、逼真效果、文字渲染、详细提示。

generate(
  app_id: "fal-ai/nano-banana-pro",
  input_data: {
    "prompt": "专业产品照片,无线耳机放置在大理石表面上,影棚灯光",
    "image_size": "square",
    "num_images": 1,
    "guidance_scale": 7.5
  }
)

常见图像参数

参数 类型 选项 说明
prompt 字符串 必需 描述您想要的图像
image_size 字符串 square(方形)、portrait_4_3(竖屏 4:3)、landscape_16_9(横屏 16:9)、portrait_16_9(竖屏 16:9)、landscape_4_3(横屏 4:3) 宽高比
num_images 数字 1-4 生成数量
seed 数字 任意整数 用于结果的可重现性
guidance_scale 数字 1-20 遵循提示的程度(越高越字面)

图像编辑

使用 Nano Banana 2 配合输入图像进行内绘、外绘或风格迁移:

# 首先上传源图像
upload(file_path: "/path/to/image.png")

# 然后使用图像输入进行生成
generate(
  app_id: "fal-ai/nano-banana-2",
  input_data: {
    "prompt": "同一场景,但改为水彩风格",
    "image_url": "<上传后的URL>",
    "image_size": "landscape_16_9"
  }
)

视频生成

Seedance 1.0 Pro(字节跳动)

最适合:文生视频、图生视频,运动质量高。

generate(
  app_id: "fal-ai/seedance-1-0-pro",
  input_data: {
    "prompt": "无人机飞越山间湖泊,黄金时刻,电影质感",
    "duration": "5s",
    "aspect_ratio": "16:9",
    "seed": 42
  }
)

Kling Video v3 Pro

最适合:文/图生视频,原生音频生成。

generate(
  app_id: "fal-ai/kling-video/v3/pro",
  input_data: {
    "prompt": "海浪拍打岩石海岸,戏剧性的云层",
    "duration": "5s",
    "aspect_ratio": "16:9"
  }
)

Veo 3(谷歌 DeepMind)

最适合:生成带声音的视频,高视觉质量。

generate(
  app_id: "fal-ai/veo-3",
  input_data: {
    "prompt": "繁忙的东京夜市街头,霓虹灯,人群嘈杂声",
    "aspect_ratio": "16:9"
  }
)

图生视频

从现有图像开始:

generate(
  app_id: "fal-ai/seedance-1-0-pro",
  input_data: {
    "prompt": "相机缓慢拉远,微风拂动树木",
    "image_url": "<上传的图像URL>",
    "duration": "5s"
  }
)

视频参数

参数 类型 选项 说明
prompt 字符串 必需 描述视频内容
duration 字符串 "5s""10s" 视频长度
aspect_ratio 字符串 "16:9""9:16""1:1" 画面比例
seed 数字 任意整数 结果重现
image_url 字符串 URL 用于图生视频的源图像

音频生成

CSM-1B(对话式语音)

文本转语音,具有自然的对话质量。

generate(
  app_id: "fal-ai/csm-1b",
  input_data: {
    "text": "你好,欢迎来到演示。让我向您展示这是如何工作的。",
    "speaker_id": 0
  }
)

ThinkSound(视频转音频)

从视频内容生成匹配的音频。

generate(
  app_id: "fal-ai/thinksound",
  input_data: {
    "video_url": "<视频URL>",
    "prompt": "带有鸟鸣的环境森林声"
  }
)

ElevenLabs(通过 API,无 MCP)

如需专业语音合成,直接使用 ElevenLabs:

import os
import requests

resp = requests.post(
    "https://api.elevenlabs.io/v1/text-to-speech/<声音ID>",
    headers={
        "xi-api-key": os.environ["ELEVENLABS_API_KEY"],
        "Content-Type": "application/json"
    },
    json={
        "text": "您的文本在此",
        "model_id": "eleven_turbo_v2_5",
        "voice_settings": {"stability": 0.5, "similarity_boost": 0.75}
    }
)
with open("output.mp3", "wb") as f:
    f.write(resp.content)

VideoDB 生成音频

如果配置了 VideoDB,可以使用其生成音频功能:

# 语音生成
audio = coll.generate_voice(text="您的旁白文本", voice="alloy")

# 音乐生成
music = coll.generate_music(prompt="欢快的电子背景音乐", duration=30)

# 音效生成
sfx = coll.generate_sound_effect(prompt="雷声轰鸣后下雨")

成本估算

在生成前,检查预估成本:

estimate_cost(
  estimate_type: "unit_price",
  endpoints: {
    "fal-ai/nano-banana-pro": {
      "unit_quantity": 1
    }
  }
)

模型发现

查找特定任务的模型:

search(query: "文本转视频")
find(endpoint_ids: ["fal-ai/seedance-1-0-pro"])
models()

提示

  • 使用 seed 参数可以在迭代提示时获得可重现的结果
  • 从成本较低的模型(如 Nano Banana 2)开始进行提示迭代,最终版本切换到 Pro 模型
  • 对于视频,保持描述性但简洁——专注于运动和场景
  • 图生视频比纯文生视频产生更可控的结果
  • 在运行昂贵的视频生成之前,检查 estimate_cost

相关技能

  • videodb — 视频处理、编辑和流式传输
  • video-editing — AI 驱动的视频编辑工作流
  • content-engine — 为社交平台创建内容

📄 原始文档

完整文档(英文):

https://skills.sh/affaan-m/everything-claude-code/fal-ai-media

💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。