更新日志
v1.4 - Skills:让 AI 助手直接操控你的设备
v1.4 版本推出了 Midscene Skills —— 一套可安装到 Claude Code、OpenClaw 等 AI 助手中的技能包,让 AI 助手直接操控浏览器、桌面、Android 和 iOS 设备。同时本版本还包含独立桌面 MCP 服务、各平台 CLI 独立入口、AI 规划增强等多项改进。
Midscene Skills —— AI 助手的设备操控技能包
Midscene Skills 是一套可安装到 Claude Code、OpenClaw 等 AI 助手中的技能包。安装后,AI 助手可以通过自然语言直接操控浏览器、桌面、Android 和 iOS 设备。
各平台包(@midscene/android、@midscene/ios、@midscene/web 等)现在各自暴露了独立的 CLI 入口,Skills 正是基于此能力构建。
覆盖平台:
- 浏览器(Puppeteer 无头模式)
- Chrome Bridge(用户自己的桌面 Chrome)
- 桌面(macOS、Windows、Linux)
- Android(通过 ADB)
- iOS(通过 WebDriverAgent)
独立桌面自动化 MCP 包
新增 @midscene/computer-mcp 包,将 PC 桌面自动化能力以独立 MCP 服务的形式提供。开发者可以直接在 Cursor、Trae 等支持 MCP 的工具中使用桌面自动化能力,无需额外集成。
详见文档:PC 桌面自动化
Chrome 扩展支持 MCP 后台连接
Chrome 扩展新增后台 Bridge 模式的 MCP 连接支持,可以将桌面浏览器作为 MCP 工具暴露给 AI 助手,进一步打通 MCP 生态。
AI 规划能力增强
aiAct新增deepLocate选项:在执行操作时启用深度定位,提升复杂界面下的元素定位准确率- Swipe 与 DragAndDrop 语义区分:模型现在能更精确地区分滑动和拖放操作,减少手势规划错误
- LLM 规划增加页面导航限制:防止模型在规划时生成不合理的页面跳转操作,提升任务执行稳定性
- macOS 键盘输入改用 AppleScript:提升桌面自动化中键盘输入的稳定性和兼容性
- 鼠标移动操作:新增 cursor move 动作支持
YAML 脚本与文件上传增强
- YAML
aiTap支持fileChooserAccept:在 YAML 脚本中可直接处理文件上传对话框 - 支持目录上传:Web 端支持
webkitdirectory类型的文件夹选择上传
Chrome 扩展 Bridge 模式缓存
Bridge 模式下新增缓存支持,复用已有的 AI 规划结果,减少重复调用,提升调试效率。
Android 改进
- 优化文字输入逻辑,提升输入稳定性
iOS 改进
- Playground 实时画面流:iOS Playground 新增实时画面展示,调试时可实时预览设备屏幕。
v1.3 - PC 桌面自动化支持
v1.3 版本带来了全新的 PC 桌面自动化能力,大幅优化了 Android 截图性能,并对报告系统和稳定性进行了多项改进。
全新 PC 桌面自动化支持
Midscene 现在支持 PC 桌面自动化,在 Windows、macOS 和 Linux 上驱动原生键盘和鼠标。无论是 Electron、Qt、WPF 还是原生桌面应用,都可以通过视觉模型方案进行自动化。
核心能力:
- 鼠标操作:单击、双击、右键、移动鼠标、拖放
- 键盘输入:文本输入、组合键(Cmd/Ctrl/Alt/Shift)
- 屏幕截图:捕获任意显示器的截图
- 多显示器支持:同时操作多个显示器
使用方式:
- 支持使用 Computer Playground 零代码试用
- 支持 JavaScript SDK 脚本编写
- 支持 YAML 格式的自动化脚本和命令行工具
- 支持 HTML 报告回放所有操作路径
详见文档:PC 桌面自动化
Android 截图性能大幅提升
开启 Scrcpy 截图模式后,截图耗时从原来的 500–2000ms 降低到 100–200ms,显著提升 Android 自动化的响应速度,特别适用于远程设备调试和高帧率场景。
详见文档:Scrcpy 截图模式
深度思考模式增强
aiAct 的深度思考(deepThink)模式现在不仅用于元素定位,还能优化整体任务规划,在复杂表单、多步骤流程等场景下获得更好的执行效果。
报告体验优化
- 时间线折叠:新增折叠切换按钮,方便查看长任务流程
- 时间单位改为秒:更易读
- 步骤同步高亮:侧边栏步骤高亮与播放器回放实时同步
- 内存占用降低:优化报告生成机制,有效降低运行时内存占用
移动端改进
Android
- 特殊字符和 Unicode 输入更稳定
- Launch 操作时应用包名匹配更宽松(忽略大小写和空格)
- 部分设备截图异常时自动重试
iOS
- Bundle ID 匹配更宽松(忽略大小写和空格)
Web 自动化改进
- 修复 Puppeteer 在非活动标签页截图时可能挂起的问题
- 修复 headed 模式下窗口尺寸不准确的问题
shareBrowserContext模式下支持保留 localStorage 和 sessionStorage- Playwright 多项目配置下,报告中自动区分不同浏览器的测试用例
- 修复 YAML 脚本中 input 操作的
typeOnly模式不生效的问题
其他改进
- 图片处理性能提升
- SVG 图标缓存问题修复
- Playground 模型配置错误现在会显示具体原因
v1.2 - 智谱 AI 开源模型支持与文件上传支持
v1.2 版本中我们加入了对智谱 AI 开源模型的支持,新增了文件上传功能,修复了多个影响使用体验的问题,让自动化测试更加可靠。
新增智谱 AI 开源模型支持
智谱 GLM-V 视觉模型
- 智谱 GLM-V 系列模型是智谱 AI 推出的开源视觉模型,有多种参数的版本,支持云端部署和本地部署。
- 详见:GLM-V 模型配置
智谱 AutoGLM 移动端自动化模型
- 智谱 AutoGLM 是智谱 AI 推出的开源移动端自动化模型,能够根据自然语言指令理解手机屏幕内容,并结合智能规划能力生成操作流程完成用户需求。
- 详见:AutoGLM 模型配置
文件上传功能上线
在 Web 自动化场景中,文件上传是一个常见需求。v1.2 版本为 web 端新增了文件上传能力,支持通过自然语言操作文件输入框,让表单自动化更加完整。
详见:aiTap 文件上传
缓存机制优化
修复了缓存在 DOM 变更后未能及时更新的问题。当页面 DOM 发生变化导致缓存验证失败时,系统现在会自动更新缓存,避免因使用过期缓存而导致的操作失败,提升自动化脚本的稳定性。

