🚀 快速安装

复制以下命令并运行，立即安装此 Skill：

npx skills add https://skills.sh/aradotso/trending-skills/open-autoglm-phone-agent

💡 提示：需要 Node.js 和 NPM

Open-AutoGLM 手机智能体

技能由 ara.so 提供 — Daily 2026 Skills 系列。

Open-AutoGLM 是一个开源的 AI 手机智能体框架，支持使用自然语言控制 Android、鸿蒙 NEXT 和 iOS 设备。它使用 AutoGLM 视觉语言模型（9B 参数）感知屏幕内容并执行多步骤任务，例如“打开美团搜索附近的火锅店”。

架构概述

用户自然语言 → AutoGLM VLM → 屏幕感知 → ADB/HDC/WebDriverAgent → 设备操作

模型：AutoGLM-Phone-9B（中文优化版）或 AutoGLM-Phone-9B-Multilingual（多语言版）
设备控制：ADB（Android）、HDC（鸿蒙 NEXT）、WebDriverAgent（iOS）
模型服务：vLLM 或 SGLang（自托管）或 BigModel/ModelScope API
输入：截图 + 任务描述 → 输出：结构化操作指令

安装

前提条件

Python 3.10+
已安装 ADB 并添加到 PATH（Android）或 HDC（鸿蒙）或 WebDriverAgent（iOS）
已开启开发者模式和 USB 调试的 Android 设备
在 Android 设备上安装 ADB Keyboard APK（用于文本输入）

安装框架

git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .

验证 ADB 连接

# Android
adb devices
# 预期输出：emulator-5554   device

# 鸿蒙 NEXT
hdc list targets
# 预期输出：7001005458323933328a01bce01c2500

模型部署选项

选项 A：第三方 API（推荐快速开始）

BigModel（智谱 AI）

export BIGMODEL_API_KEY="your-bigmodel-api-key"
python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey $BIGMODEL_API_KEY \
  "打开美团搜索附近的火锅店"

ModelScope

export MODELSCOPE_API_KEY="your-modelscope-api-key"
python main.py \
  --base-url https://api-inference.modelscope.cn/v1 \
  --model "ZhipuAI/AutoGLM-Phone-9B" \
  --apikey $MODELSCOPE_API_KEY \
  "open Meituan and find nearby hotpot"

选项 B：使用 vLLM 自托管

# 安装 vLLM（或使用官方 Docker：docker pull vllm/vllm-openai:v0.12.0）
pip install vllm

# 启动模型服务器（严格遵守以下参数）
python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --allowed-local-media-path / \
  --mm-encoder-tp-mode data \
  --mm_processor_cache_type shm \
  --mm_processor_kwargs '{"max_pixels":5000000}' \
  --max-model-len 25480 \
  --chat-template-content-format string \
  --limit-mm-per-prompt '{"image":10}' \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000

选项 C：使用 SGLang 自托管

# 安装 SGLang 或使用：docker pull lmsysorg/sglang:v0.5.6.post1
# 在容器内：pip install nvidia-cudnn-cu12==9.16.0.29

python3 -m sglang.launch_server \
  --model-path zai-org/AutoGLM-Phone-9B \
  --served-model-name autoglm-phone-9b \
  --context-length 25480 \
  --mm-enable-dp-encoder \
  --mm-process-config '{"image":{"max_pixels":5000000}}' \
  --port 8000

验证部署

python scripts/check_deployment_cn.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b

预期输出包含 <think>...</think> 块，后跟 <answer>do(action="Launch", app="...")。如果思维链非常短或乱码，则模型部署失败。

运行智能体

基本 CLI 用法

# Android 设备（默认）
python main.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b \
  "打开小红书搜索美食"

# 鸿蒙设备
python main.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b \
  --device-type hdc \
  "打开设置查看WiFi"

# 用于英文应用的多语言模型
python main.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b-multilingual \
  "Open Instagram and search for travel photos"

主要 CLI 参数

参数	描述	默认值
`--base-url`	模型服务端点	必需
`--model`	服务器上的模型名称	必需
`--apikey`	第三方服务的 API 密钥	无
`--device-type`	`adb`（Android）或 `hdc`（鸿蒙）	`adb`
`--device-id`	指定设备序列号	自动检测

Python API 用法

基本智能体调用

from phone_agent import PhoneAgent
from phone_agent.config import AgentConfig

config = AgentConfig(
    base_url="http://localhost:8000/v1",
    model="autoglm-phone-9b",
    device_type="adb",  # 或鸿蒙使用 "hdc"
)

agent = PhoneAgent(config)

# 运行任务
result = agent.run("打开淘宝搜索蓝牙耳机")
print(result)

带设备选择的自定义任务

from phone_agent import PhoneAgent
from phone_agent.config import AgentConfig
import os

config = AgentConfig(
    base_url=os.environ["MODEL_BASE_URL"],
    model=os.environ["MODEL_NAME"],
    apikey=os.environ.get("MODEL_API_KEY"),
    device_type="adb",
    device_id="emulator-5554",  # 指定设备
)

agent = PhoneAgent(config)

# 带敏感操作确认的任务
result = agent.run(
    "在京东购买最便宜的蓝牙耳机",
    confirm_sensitive=True  # 在购买操作前提示用户
)

直接模型 API 调用（用于测试/集成）

import openai
import base64
import os
from pathlib import Path

client = openai.OpenAI(
    base_url=os.environ["MODEL_BASE_URL"],
    api_key=os.environ.get("MODEL_API_KEY", "dummy"),
)

# 加载截图
screenshot_path = "screenshot.png"
with open(screenshot_path, "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="autoglm-phone-9b",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{image_b64}"},
                },
                {
                    "type": "text",
                    "text": "任务：搜索附近的咖啡店\n当前步骤：导航到搜索",
                },
            ],
        }
    ],
)

print(response.choices[0].message.content)
# 输出格式：<think>...</think>\n<answer>do(action="...", ...)

解析模型操作输出

import re

def parse_action(model_output: str) -> dict:
    """将 AutoGLM 模型输出解析为结构化操作。"""
    # 提取 answer 块
    answer_match = re.search(r'<answer>(.*?)(?:</answer>|$)', model_output, re.DOTALL)
    if not answer_match:
        return {"action": "unknown"}
    
    answer = answer_match.group(1).strip()
    
    # 解析 do() 调用
    # 格式：do(action="ActionName", param1="value1", param2="value2")
    action_match = re.search(r'do\(action="([^"]+)"(.*?)\)', answer, re.DOTALL)
    if not action_match:
        return {"action": "unknown", "raw": answer}
    
    action_name = action_match.group(1)
    params_str = action_match.group(2)
    
    # 解析参数
    params = {}
    for param_match in re.finditer(r'(\w+)="([^"]*)"', params_str):
        params[param_match.group(1)] = param_match.group(2)
    
    return {"action": action_name, **params}

# 示例用法
output = '<think>需要启动京东</think>\n<answer>do(action="Launch", app="京东")'
action = parse_action(output)
# {"action": "Launch", "app": "京东"}

ADB 设备控制模式

智能体使用的常见 ADB 操作

import subprocess

def take_screenshot(device_id: str = None) -> bytes:
    """捕获当前设备屏幕。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    cmd.extend(["exec-out", "screencap", "-p"])
    result = subprocess.run(cmd, capture_output=True)
    return result.stdout

def send_tap(x: int, y: int, device_id: str = None):
    """点击屏幕坐标。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    cmd.extend(["shell", "input", "tap", str(x), str(y)])
    subprocess.run(cmd)

def send_text_adb_keyboard(text: str, device_id: str = None):
    """通过 ADB Keyboard 发送文本（必须安装并启用）。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    # 首先启用 ADB Keyboard
    cmd_enable = cmd + ["shell", "ime", "set", "com.android.adbkeyboard/.AdbIME"]
    subprocess.run(cmd_enable)
    # 发送文本
    cmd_text = cmd + ["shell", "am", "broadcast", "-a", "ADB_INPUT_TEXT",
                      "--es", "msg", text]
    subprocess.run(cmd_text)

def swipe(x1: int, y1: int, x2: int, y2: int, duration_ms: int = 300, device_id: str = None):
    """在屏幕上滑动。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    cmd.extend(["shell", "input", "swipe",
                str(x1), str(y1), str(x2), str(y2), str(duration_ms)])
    subprocess.run(cmd)

def press_back(device_id: str = None):
    """按 Android 返回按钮。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    cmd.extend(["shell", "input", "keyevent", "KEYCODE_BACK"])
    subprocess.run(cmd)

def launch_app(package_name: str, device_id: str = None):
    """按包名启动应用。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    cmd.extend(["shell", "monkey", "-p", package_name, "-c",
                "android.intent.category.LAUNCHER", "1"])
    subprocess.run(cmd)

Midscene.js 集成

用于使用 AutoGLM 进行 JavaScript/TypeScript 自动化：

// .env 配置
// MIDSCENE_MODEL_NAME=autoglm-phone
// MIDSCENE_OPENAI_BASE_URL=https://open.bigmodel.cn/api/paas/v4
// MIDSCENE_OPENAI_API_KEY=your-api-key

import { AndroidAgent } from "@midscene/android";

const agent = new AndroidAgent();
await agent.aiAction("打开微信发送消息给张三");
await agent.aiQuery("当前页面显示的消息内容是什么？");

远程 ADB（WiFi 调试）

# 先通过 USB 连接设备，然后启用 TCP/IP 模式
adb tcpip 5555

# 获取设备 IP 地址
adb shell ip addr show wlan0

# 无线连接（之后可断开 USB）
adb connect 192.168.1.100:5555

# 验证连接
adb devices
# 192.168.1.100:5555   device

# 与智能体一起使用
python main.py \
  --base-url http://model-server:8000/v1 \
  --model autoglm-phone-9b \
  --device-id "192.168.1.100:5555" \
  "打开支付宝查看余额"

常见操作类型

AutoGLM 模型输出结构化操作：

操作	描述	示例
`Launch`	打开应用	`do(action="Launch", app="微信")`
`Tap`	点击屏幕元素	`do(action="Tap", element="搜索框")`
`Type`	输入文本	`do(action="Type", text="火锅")`
`Swipe`	滚动/滑动	`do(action="Swipe", direction="up")`
`Back`	按返回按钮	`do(action="Back")`
`Home`	回到主屏幕	`do(action="Home")`
`Finish`	任务完成	`do(action="Finish", result="已完成搜索")`

模型选择指南

模型	适用场景	语言
`AutoGLM-Phone-9B`	中文应用（微信、淘宝、美团）	中文优化
`AutoGLM-Phone-9B-Multilingual`	国际应用、混合内容	中文 + 英文 + 其他

HuggingFace：zai-org/AutoGLM-Phone-9B / zai-org/AutoGLM-Phone-9B-Multilingual
ModelScope：ZhipuAI/AutoGLM-Phone-9B / ZhipuAI/AutoGLM-Phone-9B-Multilingual

环境变量参考

# 模型服务
export MODEL_BASE_URL="http://localhost:8000/v1"
export MODEL_NAME="autoglm-phone-9b"
export MODEL_API_KEY=""  # BigModel/ModelScope API 需要

# BigModel API
export BIGMODEL_API_KEY=""
export BIGMODEL_BASE_URL="https://open.bigmodel.cn/api/paas/v4"

# ModelScope API
export MODELSCOPE_API_KEY=""
export MODELSCOPE_BASE_URL="https://api-inference.modelscope.cn/v1"

# 设备配置
export ADB_DEVICE_ID=""      # 留空自动检测
export HDC_DEVICE_ID=""      # 鸿蒙设备 ID

故障排除

模型输出乱码或思维链非常短

原因：vLLM/SGLang 启动参数不正确。
修复：确保设置了 --chat-template-content-format string（vLLM）和带有 max_pixels:5000000 的 --mm-process-config。检查 transformers 版本兼容性。

`adb devices` 未显示设备

修复：

确认 USB 线支持数据传输（而非仅充电）
在手机上接受“允许 USB 调试”对话框
尝试 adb kill-server && adb start-server
某些设备在启用开发者选项后需要重启

Android 上文本输入不起作用

修复：必须安装并启用 ADB Keyboard：

adb shell ime enable com.android.adbkeyboard/.AdbIME
adb shell ime set com.android.adbkeyboard/.AdbIME

智能体陷入循环

原因：模型无法找到完成任务的路径。
修复：框架包含敏感操作确认 — 确保对购买/删除任务设置 confirm_sensitive=True。对于登录/验证码屏幕，智能体支持人工介入。

vLLM CUDA 内存不足

修复：AutoGLM-Phone-9B 需要约 20GB 显存。使用 --tensor-parallel-size 2 进行多 GPU 部署，或改用 API 服务。

连接模型服务器被拒绝

修复：检查防火墙规则。对于远程服务器：

# 测试连接
curl http://YOUR_SERVER_IP:8000/v1/models
# 应返回模型列表 JSON

HDC 设备无法识别（鸿蒙）

修复：需要鸿蒙 NEXT（非早期版本）。在设置 → 关于 → 版本号（快速点击 10 次）中开启开发者模式。

iOS 设置

有关 iPhone 自动化，请参阅专用设置指南：

# 按照 docs/ios_setup/ios_setup.md 配置 WebDriverAgent 后
python main.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b-multilingual \
  --device-type ios \
  "Open Maps and navigate to Central Park"

📄 原始文档

完整文档（英文）：

https://skills.sh/aradotso/trending-skills/open-autoglm-phone-agent

💡 提示：点击上方链接查看 skills.sh 原始英文文档，方便对照翻译。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Open-AutoGLM Phone Agent

🚀 快速安装

Open-AutoGLM 手机智能体

架构概述

安装

前提条件

安装框架

验证 ADB 连接

模型部署选项

选项 A：第三方 API（推荐快速开始）

选项 B：使用 vLLM 自托管

选项 C：使用 SGLang 自托管

验证部署

运行智能体

基本 CLI 用法

主要 CLI 参数

Python API 用法

基本智能体调用

带设备选择的自定义任务

直接模型 API 调用（用于测试/集成）

解析模型操作输出

ADB 设备控制模式

智能体使用的常见 ADB 操作

Midscene.js 集成

远程 ADB（WiFi 调试）

常见操作类型

模型选择指南

环境变量参考

故障排除

模型输出乱码或思维链非常短

`adb devices` 未显示设备

Android 上文本输入不起作用

智能体陷入循环

vLLM CUDA 内存不足

连接模型服务器被拒绝

HDC 设备无法识别（鸿蒙）

iOS 设置

📄 原始文档

评论(0)

提示：请文明发言取消回复

Open-AutoGLM Phone Agent

🚀 快速安装

Open-AutoGLM 手机智能体

架构概述

安装

前提条件

安装框架

验证 ADB 连接

模型部署选项

选项 A：第三方 API（推荐快速开始）

选项 B：使用 vLLM 自托管

选项 C：使用 SGLang 自托管

验证部署

运行智能体

基本 CLI 用法

主要 CLI 参数

Python API 用法

基本智能体调用

带设备选择的自定义任务

直接模型 API 调用（用于测试/集成）

解析模型操作输出

ADB 设备控制模式

智能体使用的常见 ADB 操作

Midscene.js 集成

远程 ADB（WiFi 调试）

常见操作类型

模型选择指南

环境变量参考

故障排除

模型输出乱码或思维链非常短

adb devices 未显示设备

Android 上文本输入不起作用

智能体陷入循环

vLLM CUDA 内存不足

连接模型服务器被拒绝

HDC 设备无法识别（鸿蒙）

iOS 设置

📄 原始文档

评论(0)

提示：请文明发言 取消回复

相关文章

m01-ownership – 汇易宝

information-architecture – 汇易宝

opencli – 汇易宝

threejs – 汇易宝

`adb devices` 未显示设备

提示：请文明发言取消回复