标签: UI自动化 - 学习笔记

2026-06-03发表2026-06-03更新技术笔记25 分钟读完 (大约3763个字)

前面写 UI 自动化时，我提到过自己用 YOLOv5 训练目标检测模型，让模型在页面截图里识别按钮、输入框、弹窗等元素。这是一条偏视觉的路线：当 DOM 不可靠、页面结构拿不到、或者界面本身就是 Canvas/远程桌面时，让自动化系统先“看见”页面，再决定怎么操作。

这篇换一个角度，聊聊现在 Web UI 自动化里非常重要的工具：Playwright。更准确地说，是三层东西：

2026-06-03发表2026-06-03更新技术笔记22 分钟读完 (大约3277个字)

做 UI 自动化测试时，最容易让人烦的往往不是“怎么点一个按钮”，而是“怎么稳定地找到这个按钮”。传统 Web 自动化通常依赖 CSS Selector、XPath、id、class、文本、DOM 层级等信息；这些信息在页面重构、组件库升级、样式类名哈希化、国际化文案变动之后，很容易失效。

我之前尝试过一条更偏视觉的路线：自己用 YOLOv5 训练目标检测模型，让模型直接在页面截图中识别 UI 元素，再根据检测框坐标去定位和操作元素。这篇文章记录一下这个思路，也顺便梳理最近 UI 自动化测试技术的发展方向。