用 YOLOv5 做 UI 自动化元素定位:从视觉检测到 AI Agent
做 UI 自动化测试时,最容易让人烦的往往不是“怎么点一个按钮”,而是“怎么稳定地找到这个按钮”。传统 Web 自动化通常依赖 CSS Selector、XPath、id、class、文本、DOM 层级等信息;这些信息在页面重构、组件库升级、样式类名哈希化、国际化文案变动之后,很容易失效。
我之前尝试过一条更偏视觉的路线:自己用 YOLOv5 训练目标检测模型,让模型直接在页面截图中识别 UI 元素,再根据检测框坐标去定位和操作元素。这篇文章记录一下这个思路,也顺便梳理最近 UI 自动化测试技术的发展方向。