Playwright、大模型与 Playwright MCP:UI 自动化的新工作流
前面写 UI 自动化时,我提到过自己用 YOLOv5 训练目标检测模型,让模型在页面截图里识别按钮、输入框、弹窗等元素。这是一条偏视觉的路线:当 DOM 不可靠、页面结构拿不到、或者界面本身就是 Canvas/远程桌面时,让自动化系统先“看见”页面,再决定怎么操作。
这篇换一个角度,聊聊现在 Web UI 自动化里非常重要的工具:Playwright。更准确地说,是三层东西:
- Playwright 本身解决“稳定控制浏览器”的问题;
- Playwright 结合大模型,解决“生成、维护、解释测试”的问题;
- Playwright MCP 把浏览器自动化包装成标准工具,让 AI Agent 可以通过 MCP 调用浏览器能力。