🚀 快速安装
复制以下命令并运行,立即安装此 Skill:
npx skills add https://skills.sh/imsus/pi-extension-minimax-coding-plan-mcp/minimax-image-understanding
💡 提示:需要 Node.js 和 NPM
MiniMax 图像理解技能
当您需要分析、描述或从图像中提取信息时,请使用此技能。
使用方法
直接调用 understand_image 工具并传入提示词和图像 URL:
understand_image({
prompt: "您对图像的提问",
image_url: "https://example.com/image.png"
})
使用场景
在以下情况下使用 understand_image:
- 截图:错误信息、UI 问题、代码截图
- 视觉内容:照片、图表、数据可视化图形
- 文档:从图像中提取文本(OCR)、理解布局
- UI/UX 分析:评估设计、识别组件
- 视觉调试:理解视觉错误或布局问题
不使用场景
在以下情况下不要使用 understand_image:
- 图像已在对话中描述过
- 图像是简单的图标或您能识别的表情符号
- 未提供图像或图像 URL 无法访问
- 与现有上下文冗余(例如,文件内容已可见)
使用方法
understand_image({
prompt: "这张图片里有什么?",
image_url: "https://example.com/screenshot.png"
})
API 详情
端点:POST {api_host}/v1/coding_plan/vlm
请求体:
{
"prompt": "您对图像的提问",
"image_url": "data:image/jpeg;base64,/9j/4AAQ..."
}
响应格式:
{
"content": "AI 对图像的分析...",
"base_resp": {
"status_code": 0,
"status_msg": "success"
}
}
图像处理
该工具会自动处理三种类型的图像输入:
- HTTP/HTTPS URL:下载图像并转换为 base64 格式
- 示例:
https://example.com/image.jpg
- 示例:
- 本地文件路径:读取本地文件并转换为 base64 格式
- 绝对路径:
/Users/username/Documents/image.png - 相对路径:
images/photo.png - 如果存在,会移除
@前缀
- 绝对路径:
- Base64 数据 URL:直接传递现有的 base64 数据
- 示例:
data:image/png;base64,iVBORw0KGgo...
- 示例:
图像格式
支持的格式:
- JPEG (.jpg, .jpeg)
- PNG (.png)
- WebP (.webp)
不支持的格式:
- PDF、GIF、PSD、SVG 等其他格式
编写有效的提示词
用于描述
- “详细描述这张图片中的内容”
- “这张图片的主体是什么?”
- “描述视觉风格和构图”
用于代码/技术内容
- “这张截图中显示了什么代码?”
- “提取这张图片中的所有文字”
- “识别使用的 UI 框架/组件”
用于分析
- “分析这个 UI 设计。哪些方面做得好,哪些可以改进?”
- “这张图片传达了什么样的情绪或氛围?”
- “将这种设计与 Material Design 原则进行比较”
用于 OCR/文本提取
- “提取这张图片中的所有文本”
- “读出这张截图中的错误信息”
- “这张图片中的标签写了什么?”
示例
错误分析
understand_image({
prompt: "这张截图中的错误信息是什么?它位于哪里?",
image_url: "./error-screenshot.png"
})
代码截图
understand_image({
prompt: "这张截图中显示了什么代码?请准确转录。",
image_url: "https://example.com/code.png"
})
设计评审
understand_image({
prompt: "分析这个 UI 设计。哪些方面做得好,哪些可以改进?",
image_url: "https://example.com/mockup.png"
})
OCR
understand_image({
prompt: "提取这张图片中的所有文本",
image_url: "/Users/username/Documents/scan.png"
})
提示
- 提示词要具体明确,说明您想了解什么
- 如果需要结构化输出,请说明格式(例如,”列出所有元素”)
- 如果图像是更大任务的一部分,请包含上下文
- 对于截图,请说明是需要整页内容还是特定区域
- 复杂的分析可能会触发确认提示(分析、提取、描述、识别、转录、读取)
错误处理
- 状态码 1004:认证错误 – 检查 API 密钥和区域
- 状态码 2038:需要实名认证
- 无效图像:文件不存在或 URL 无法访问
- 不支持的格式:图像格式不是 JPEG、PNG、WebP 之一
📄 原始文档
完整文档(英文):
https://skills.sh/imsus/pi-extension-minimax-coding-plan-mcp/minimax-image-understanding
💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)