🚀 快速安装

复制以下命令并运行,立即安装此 Skill:

npx skills add https://skills.sh/aradotso/trending-skills/open-autoglm-phone-agent

💡 提示:需要 Node.js 和 NPM

Open-AutoGLM 手机智能体

技能由 ara.so 提供 — Daily 2026 Skills 系列。

Open-AutoGLM 是一个开源的 AI 手机智能体框架,支持使用自然语言控制 Android、鸿蒙 NEXT 和 iOS 设备。它使用 AutoGLM 视觉语言模型(9B 参数)感知屏幕内容并执行多步骤任务,例如“打开美团搜索附近的火锅店”。

架构概述

用户自然语言 → AutoGLM VLM → 屏幕感知 → ADB/HDC/WebDriverAgent → 设备操作
  • 模型:AutoGLM-Phone-9B(中文优化版)或 AutoGLM-Phone-9B-Multilingual(多语言版)
  • 设备控制:ADB(Android)、HDC(鸿蒙 NEXT)、WebDriverAgent(iOS)
  • 模型服务:vLLM 或 SGLang(自托管)或 BigModel/ModelScope API
  • 输入:截图 + 任务描述 → 输出:结构化操作指令

安装

前提条件

  • Python 3.10+
  • 已安装 ADB 并添加到 PATH(Android)或 HDC(鸿蒙)或 WebDriverAgent(iOS)
  • 已开启开发者模式和 USB 调试的 Android 设备
  • 在 Android 设备上安装 ADB Keyboard APK(用于文本输入)

安装框架

git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .

验证 ADB 连接

# Android
adb devices
# 预期输出:emulator-5554   device

# 鸿蒙 NEXT
hdc list targets
# 预期输出:7001005458323933328a01bce01c2500

模型部署选项

选项 A:第三方 API(推荐快速开始)

BigModel(智谱 AI)

export BIGMODEL_API_KEY="your-bigmodel-api-key"
python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey $BIGMODEL_API_KEY \
  "打开美团搜索附近的火锅店"

ModelScope

export MODELSCOPE_API_KEY="your-modelscope-api-key"
python main.py \
  --base-url https://api-inference.modelscope.cn/v1 \
  --model "ZhipuAI/AutoGLM-Phone-9B" \
  --apikey $MODELSCOPE_API_KEY \
  "open Meituan and find nearby hotpot"

选项 B:使用 vLLM 自托管

# 安装 vLLM(或使用官方 Docker:docker pull vllm/vllm-openai:v0.12.0)
pip install vllm

# 启动模型服务器(严格遵守以下参数)
python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --allowed-local-media-path / \
  --mm-encoder-tp-mode data \
  --mm_processor_cache_type shm \
  --mm_processor_kwargs '{"max_pixels":5000000}' \
  --max-model-len 25480 \
  --chat-template-content-format string \
  --limit-mm-per-prompt '{"image":10}' \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000

选项 C:使用 SGLang 自托管

# 安装 SGLang 或使用:docker pull lmsysorg/sglang:v0.5.6.post1
# 在容器内:pip install nvidia-cudnn-cu12==9.16.0.29

python3 -m sglang.launch_server \
  --model-path zai-org/AutoGLM-Phone-9B \
  --served-model-name autoglm-phone-9b \
  --context-length 25480 \
  --mm-enable-dp-encoder \
  --mm-process-config '{"image":{"max_pixels":5000000}}' \
  --port 8000

验证部署

python scripts/check_deployment_cn.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b

预期输出包含 <think>...</think> 块,后跟 <answer>do(action="Launch", app="...")如果思维链非常短或乱码,则模型部署失败。

运行智能体

基本 CLI 用法

# Android 设备(默认)
python main.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b \
  "打开小红书搜索美食"

# 鸿蒙设备
python main.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b \
  --device-type hdc \
  "打开设置查看WiFi"

# 用于英文应用的多语言模型
python main.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b-multilingual \
  "Open Instagram and search for travel photos"

主要 CLI 参数

参数 描述 默认值
--base-url 模型服务端点 必需
--model 服务器上的模型名称 必需
--apikey 第三方服务的 API 密钥
--device-type adb(Android)或 hdc(鸿蒙) adb
--device-id 指定设备序列号 自动检测

Python API 用法

基本智能体调用

from phone_agent import PhoneAgent
from phone_agent.config import AgentConfig

config = AgentConfig(
    base_url="http://localhost:8000/v1",
    model="autoglm-phone-9b",
    device_type="adb",  # 或鸿蒙使用 "hdc"
)

agent = PhoneAgent(config)

# 运行任务
result = agent.run("打开淘宝搜索蓝牙耳机")
print(result)

带设备选择的自定义任务

from phone_agent import PhoneAgent
from phone_agent.config import AgentConfig
import os

config = AgentConfig(
    base_url=os.environ["MODEL_BASE_URL"],
    model=os.environ["MODEL_NAME"],
    apikey=os.environ.get("MODEL_API_KEY"),
    device_type="adb",
    device_id="emulator-5554",  # 指定设备
)

agent = PhoneAgent(config)

# 带敏感操作确认的任务
result = agent.run(
    "在京东购买最便宜的蓝牙耳机",
    confirm_sensitive=True  # 在购买操作前提示用户
)

直接模型 API 调用(用于测试/集成)

import openai
import base64
import os
from pathlib import Path

client = openai.OpenAI(
    base_url=os.environ["MODEL_BASE_URL"],
    api_key=os.environ.get("MODEL_API_KEY", "dummy"),
)

# 加载截图
screenshot_path = "screenshot.png"
with open(screenshot_path, "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="autoglm-phone-9b",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{image_b64}"},
                },
                {
                    "type": "text",
                    "text": "任务:搜索附近的咖啡店\n当前步骤:导航到搜索",
                },
            ],
        }
    ],
)

print(response.choices[0].message.content)
# 输出格式:<think>...</think>\n<answer>do(action="...", ...)

解析模型操作输出

import re

def parse_action(model_output: str) -> dict:
    """将 AutoGLM 模型输出解析为结构化操作。"""
    # 提取 answer 块
    answer_match = re.search(r'<answer>(.*?)(?:</answer>|$)', model_output, re.DOTALL)
    if not answer_match:
        return {"action": "unknown"}
    
    answer = answer_match.group(1).strip()
    
    # 解析 do() 调用
    # 格式:do(action="ActionName", param1="value1", param2="value2")
    action_match = re.search(r'do\(action="([^"]+)"(.*?)\)', answer, re.DOTALL)
    if not action_match:
        return {"action": "unknown", "raw": answer}
    
    action_name = action_match.group(1)
    params_str = action_match.group(2)
    
    # 解析参数
    params = {}
    for param_match in re.finditer(r'(\w+)="([^"]*)"', params_str):
        params[param_match.group(1)] = param_match.group(2)
    
    return {"action": action_name, **params}

# 示例用法
output = '<think>需要启动京东</think>\n<answer>do(action="Launch", app="京东")'
action = parse_action(output)
# {"action": "Launch", "app": "京东"}

ADB 设备控制模式

智能体使用的常见 ADB 操作

import subprocess

def take_screenshot(device_id: str = None) -> bytes:
    """捕获当前设备屏幕。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    cmd.extend(["exec-out", "screencap", "-p"])
    result = subprocess.run(cmd, capture_output=True)
    return result.stdout

def send_tap(x: int, y: int, device_id: str = None):
    """点击屏幕坐标。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    cmd.extend(["shell", "input", "tap", str(x), str(y)])
    subprocess.run(cmd)

def send_text_adb_keyboard(text: str, device_id: str = None):
    """通过 ADB Keyboard 发送文本(必须安装并启用)。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    # 首先启用 ADB Keyboard
    cmd_enable = cmd + ["shell", "ime", "set", "com.android.adbkeyboard/.AdbIME"]
    subprocess.run(cmd_enable)
    # 发送文本
    cmd_text = cmd + ["shell", "am", "broadcast", "-a", "ADB_INPUT_TEXT",
                      "--es", "msg", text]
    subprocess.run(cmd_text)

def swipe(x1: int, y1: int, x2: int, y2: int, duration_ms: int = 300, device_id: str = None):
    """在屏幕上滑动。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    cmd.extend(["shell", "input", "swipe",
                str(x1), str(y1), str(x2), str(y2), str(duration_ms)])
    subprocess.run(cmd)

def press_back(device_id: str = None):
    """按 Android 返回按钮。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    cmd.extend(["shell", "input", "keyevent", "KEYCODE_BACK"])
    subprocess.run(cmd)

def launch_app(package_name: str, device_id: str = None):
    """按包名启动应用。"""
    cmd = ["adb"]
    if device_id:
        cmd.extend(["-s", device_id])
    cmd.extend(["shell", "monkey", "-p", package_name, "-c",
                "android.intent.category.LAUNCHER", "1"])
    subprocess.run(cmd)

Midscene.js 集成

用于使用 AutoGLM 进行 JavaScript/TypeScript 自动化:

// .env 配置
// MIDSCENE_MODEL_NAME=autoglm-phone
// MIDSCENE_OPENAI_BASE_URL=https://open.bigmodel.cn/api/paas/v4
// MIDSCENE_OPENAI_API_KEY=your-api-key

import { AndroidAgent } from "@midscene/android";

const agent = new AndroidAgent();
await agent.aiAction("打开微信发送消息给张三");
await agent.aiQuery("当前页面显示的消息内容是什么?");

远程 ADB(WiFi 调试)

# 先通过 USB 连接设备,然后启用 TCP/IP 模式
adb tcpip 5555

# 获取设备 IP 地址
adb shell ip addr show wlan0

# 无线连接(之后可断开 USB)
adb connect 192.168.1.100:5555

# 验证连接
adb devices
# 192.168.1.100:5555   device

# 与智能体一起使用
python main.py \
  --base-url http://model-server:8000/v1 \
  --model autoglm-phone-9b \
  --device-id "192.168.1.100:5555" \
  "打开支付宝查看余额"

常见操作类型

AutoGLM 模型输出结构化操作:

操作 描述 示例
Launch 打开应用 do(action="Launch", app="微信")
Tap 点击屏幕元素 do(action="Tap", element="搜索框")
Type 输入文本 do(action="Type", text="火锅")
Swipe 滚动/滑动 do(action="Swipe", direction="up")
Back 按返回按钮 do(action="Back")
Home 回到主屏幕 do(action="Home")
Finish 任务完成 do(action="Finish", result="已完成搜索")

模型选择指南

模型 适用场景 语言
AutoGLM-Phone-9B 中文应用(微信、淘宝、美团) 中文优化
AutoGLM-Phone-9B-Multilingual 国际应用、混合内容 中文 + 英文 + 其他
  • HuggingFace:zai-org/AutoGLM-Phone-9B / zai-org/AutoGLM-Phone-9B-Multilingual
  • ModelScope:ZhipuAI/AutoGLM-Phone-9B / ZhipuAI/AutoGLM-Phone-9B-Multilingual

环境变量参考

# 模型服务
export MODEL_BASE_URL="http://localhost:8000/v1"
export MODEL_NAME="autoglm-phone-9b"
export MODEL_API_KEY=""  # BigModel/ModelScope API 需要

# BigModel API
export BIGMODEL_API_KEY=""
export BIGMODEL_BASE_URL="https://open.bigmodel.cn/api/paas/v4"

# ModelScope API
export MODELSCOPE_API_KEY=""
export MODELSCOPE_BASE_URL="https://api-inference.modelscope.cn/v1"

# 设备配置
export ADB_DEVICE_ID=""      # 留空自动检测
export HDC_DEVICE_ID=""      # 鸿蒙设备 ID

故障排除

模型输出乱码或思维链非常短

原因:vLLM/SGLang 启动参数不正确。
修复:确保设置了 --chat-template-content-format string(vLLM)和带有 max_pixels:5000000--mm-process-config。检查 transformers 版本兼容性。

adb devices 未显示设备

修复

  1. 确认 USB 线支持数据传输(而非仅充电)
  2. 在手机上接受“允许 USB 调试”对话框
  3. 尝试 adb kill-server && adb start-server
  4. 某些设备在启用开发者选项后需要重启

Android 上文本输入不起作用

修复:必须安装并启用 ADB Keyboard:

adb shell ime enable com.android.adbkeyboard/.AdbIME
adb shell ime set com.android.adbkeyboard/.AdbIME

智能体陷入循环

原因:模型无法找到完成任务的路径。
修复:框架包含敏感操作确认 — 确保对购买/删除任务设置 confirm_sensitive=True。对于登录/验证码屏幕,智能体支持人工介入。

vLLM CUDA 内存不足

修复:AutoGLM-Phone-9B 需要约 20GB 显存。使用 --tensor-parallel-size 2 进行多 GPU 部署,或改用 API 服务。

连接模型服务器被拒绝

修复:检查防火墙规则。对于远程服务器:

# 测试连接
curl http://YOUR_SERVER_IP:8000/v1/models
# 应返回模型列表 JSON

HDC 设备无法识别(鸿蒙)

修复:需要鸿蒙 NEXT(非早期版本)。在设置 → 关于 → 版本号(快速点击 10 次)中开启开发者模式。

iOS 设置

有关 iPhone 自动化,请参阅专用设置指南:

# 按照 docs/ios_setup/ios_setup.md 配置 WebDriverAgent 后
python main.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b-multilingual \
  --device-type ios \
  "Open Maps and navigate to Central Park"

📄 原始文档

完整文档(英文):

https://skills.sh/aradotso/trending-skills/open-autoglm-phone-agent

💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。