selenium 的原始作者最近发布了一款面向 ai agent 的新型浏览器自动化基础设施——vibium。
该项目的核心是一个用 Go 编写的轻量级单体二进制程序:Clicker。它内建了浏览器全生命周期控制、WebDriver BiDi 协议代理,以及符合 MCP 规范的服务端能力。
整体系统架构如下所示:
┌─────────────────────────────────────────────────────────────┐│ LLM / Agent ││ (Claude Code, Codex, Gemini, Local Models) │└─────────────────────────────────────────────────────────────┘ ▲ │ MCP Protocol (stdio) ▼ ┌─────────────────────┐ │ Vibium Clicker │ │ │ │ ┌───────────────┐ │ │ │ MCP Server │ │ │ └───────▲───────┘ │ ┌──────────────────┐ │ │ │ │ │ │ ┌───────▼───────┐ │WebSocket│ │ │ │ BiDi Proxy │ │◄───────►│ Chrome Browser │ │ └───────────────┘ │ BiDi │ │ │ │ │ │ └─────────────────────┘ └──────────────────┘ ▲ │ WebSocket BiDi :9515 ▼┌─────────────────────────────────────────────────────────────┐│ JS/TS Clien
借助 Vibium,像 Claude Code 这样的 AI Agent 只需发送标准 MCP 指令,即可实现对网页的完整操控。该方案内置浏览器自动发现与下载机制、元素就绪自动等待逻辑,并同时提供同步与异步两种调用方式,显著简化了 Agent 浏览器集成的复杂度。
开源地址:https://www./link/34576207c8c0fab46627c880a109c01f
源码地址:点击下载