🚀 快速安装

复制以下命令并运行,立即安装此 Skill:

npx skills add https://skills.sh/imsus/pi-extension-minimax-coding-plan-mcp/minimax-image-understanding

💡 提示:需要 Node.js 和 NPM

MiniMax 图像理解技能

当您需要分析、描述或从图像中提取信息时,请使用此技能。

使用方法

直接调用 understand_image 工具并传入提示词和图像 URL:

understand_image({
  prompt: "您对图像的提问",
  image_url: "https://example.com/image.png"
})

使用场景

在以下情况下使用 understand_image

  • 截图:错误信息、UI 问题、代码截图
  • 视觉内容:照片、图表、数据可视化图形
  • 文档:从图像中提取文本(OCR)、理解布局
  • UI/UX 分析:评估设计、识别组件
  • 视觉调试:理解视觉错误或布局问题

不使用场景

在以下情况下不要使用 understand_image

  • 图像已在对话中描述过
  • 图像是简单的图标或您能识别的表情符号
  • 未提供图像或图像 URL 无法访问
  • 与现有上下文冗余(例如,文件内容已可见)

使用方法

understand_image({
  prompt: "这张图片里有什么?",
  image_url: "https://example.com/screenshot.png"
})

API 详情

端点POST {api_host}/v1/coding_plan/vlm

请求体

{
  "prompt": "您对图像的提问",
  "image_url": "data:image/jpeg;base64,/9j/4AAQ..."
}

响应格式

{
  "content": "AI 对图像的分析...",
  "base_resp": {
    "status_code": 0,
    "status_msg": "success"
  }
}

图像处理

该工具会自动处理三种类型的图像输入:

  1. HTTP/HTTPS URL:下载图像并转换为 base64 格式
    • 示例:https://example.com/image.jpg
  2. 本地文件路径:读取本地文件并转换为 base64 格式
    • 绝对路径:/Users/username/Documents/image.png
    • 相对路径:images/photo.png
    • 如果存在,会移除 @ 前缀
  3. Base64 数据 URL:直接传递现有的 base64 数据
    • 示例:data:image/png;base64,iVBORw0KGgo...

图像格式

支持的格式:

  • JPEG (.jpg, .jpeg)
  • PNG (.png)
  • WebP (.webp)

不支持的格式:

  • PDF、GIF、PSD、SVG 等其他格式

编写有效的提示词

用于描述

  • “详细描述这张图片中的内容”
  • “这张图片的主体是什么?”
  • “描述视觉风格和构图”

用于代码/技术内容

  • “这张截图中显示了什么代码?”
  • “提取这张图片中的所有文字”
  • “识别使用的 UI 框架/组件”

用于分析

  • “分析这个 UI 设计。哪些方面做得好,哪些可以改进?”
  • “这张图片传达了什么样的情绪或氛围?”
  • “将这种设计与 Material Design 原则进行比较”

用于 OCR/文本提取

  • “提取这张图片中的所有文本”
  • “读出这张截图中的错误信息”
  • “这张图片中的标签写了什么?”

示例

错误分析

understand_image({
  prompt: "这张截图中的错误信息是什么?它位于哪里?",
  image_url: "./error-screenshot.png"
})

代码截图

understand_image({
  prompt: "这张截图中显示了什么代码?请准确转录。",
  image_url: "https://example.com/code.png"
})

设计评审

understand_image({
  prompt: "分析这个 UI 设计。哪些方面做得好,哪些可以改进?",
  image_url: "https://example.com/mockup.png"
})

OCR

understand_image({
  prompt: "提取这张图片中的所有文本",
  image_url: "/Users/username/Documents/scan.png"
})

提示

  1. 提示词要具体明确,说明您想了解什么
  2. 如果需要结构化输出,请说明格式(例如,”列出所有元素”)
  3. 如果图像是更大任务的一部分,请包含上下文
  4. 对于截图,请说明是需要整页内容还是特定区域
  5. 复杂的分析可能会触发确认提示(分析、提取、描述、识别、转录、读取)

错误处理

  • 状态码 1004:认证错误 – 检查 API 密钥和区域
  • 状态码 2038:需要实名认证
  • 无效图像:文件不存在或 URL 无法访问
  • 不支持的格式:图像格式不是 JPEG、PNG、WebP 之一

📄 原始文档

完整文档(英文):

https://skills.sh/imsus/pi-extension-minimax-coding-plan-mcp/minimax-image-understanding

💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。