互联网的普及本应惠及所有人,然而,对于许多残障人士来说,访问网络仍然面临重重障碍。传统 无障碍 技术依赖于网站的良好标记,但现实中大量网站存在缺陷,导致这些技术失效。而 大模型 的出现,为解决这一问题带来了新的希望。Jan Mittelman 提出的 a11y-agent 项目,正是利用 AI 技术,尤其是 大模型,重新思考 Web 无障碍 的可能性,并探索 后GUI 时代人机交互的新范式。
传统无障碍技术的局限性
一直以来,屏幕阅读器 (如 NVDA、VoiceOver 和 JAWS) 是视障人士访问网络的主要工具。这些工具依赖于网页的语义结构,通过解析 HTML 标记、ARIA 标签和地标来理解页面内容。当网页设计遵循 无障碍 规范,例如使用清晰的 HTML 结构、正确定义 ARIA 属性时,屏幕阅读器能够很好地工作。
然而,现实情况往往并非如此。大量的网站存在以下问题:
- 糟糕的标记和缺失标签: 开发者可能忽略了语义化 HTML 的重要性,导致屏幕阅读器无法正确识别页面元素。例如,缺少
<label for="">
标签会导致屏幕阅读器无法将文本标签与输入框关联,使得用户难以填写表单。 - 动态内容缺乏适当的角色定义: 许多现代网站使用 JavaScript 动态生成内容。如果这些内容没有正确定义 ARIA 角色,屏幕阅读器将无法识别其类型和状态,例如无法识别动态加载的提示信息或警告框。
- 复杂的 JavaScript 交互破坏标准流程: 一些网站使用复杂的 JavaScript 交互,例如自定义的下拉菜单或对话框,这些交互可能不符合标准的键盘导航模式,导致屏幕阅读器用户难以操作。
这些问题导致屏幕阅读器无法有效地工作,使得残障人士难以访问网站内容。据 WebAIM 发布的 “WebAIM Million” 年度报告显示,首页上平均存在 50.8 个可检测到的 无障碍 错误。这表明,依赖网站自身的可访问性来保证 无障碍 体验是不可靠的。
大模型如何变革 Web 访问
大模型 如 GPT-4o,通过对大量文本数据的学习,具备了强大的语义理解能力。与传统的屏幕阅读器不同, 大模型 不需要依赖 HTML 标记或 ARIA 属性,而是像人类一样,通过分析网页的布局、文本内容和视觉元素来理解页面。
例如, 大模型 可以通过以下方式理解网页:
- 识别标题: 通过分析文本的大小、字体和位置, 大模型 可以判断一段文本是否为标题,即使该文本没有使用
<h1>
到<h6>
标签。 - 识别按钮: 通过分析元素的颜色、形状和文本内容, 大模型 可以识别按钮,即使该按钮没有使用
<button>
标签或 ARIA 属性。 - 理解链接: 通过分析链接的文本内容和周围的上下文, 大模型 可以判断链接的用途,例如链接是否指向新闻文章、产品页面或联系方式。
这种基于语义理解的方式,使得 大模型 能够超越 DOM 结构的限制,从更高层次理解网页,从而为 无障碍 访问带来新的可能性。它能够理解用户的意图,并执行相应的操作,即使网页本身并不符合 无障碍 标准。
a11y-agent:用 AI 赋能 Web 访问
a11y-agent 是一个概念验证项目,旨在探索如何利用 AI 技术,特别是 大模型,来构建一个语音控制的浏览器代理,从而为残障人士提供更便捷的 Web 访问方式。
a11y-agent 的工作流程如下:
- 语音输入: 用户通过语音输入命令,例如 “打开 CNN 并总结最新的头条新闻”。
- 语音转文本 (STT): OpenAI Whisper 将用户的语音转换为文本。
- LLM 推理: GPT-4.1 分析用户的意图,并制定相应的行动计划。例如,如果用户说 “打开 CNN”, 大模型 会识别出用户想要访问 CNN 网站,并制定访问该网站的计划。如果用户说 “总结最新的头条新闻”, 大模型 会识别出用户想要获取 CNN 网站的头条新闻,并制定提取头条新闻的计划。
- 浏览器自动化: Playwright 控制浏览器执行相应的操作,例如打开 CNN 网站、滚动页面、点击链接、提取文本等。
- 文本转语音 (TTS): 代理将执行结果通过语音反馈给用户,例如 “已打开 CNN 网站,最新的头条新闻是……”。
- 循环: 用户可以继续通过语音输入命令,代理将继续执行相应的操作。
与传统的 无障碍 技术相比,a11y-agent 的优势在于:
- 理解用户意图: a11y-agent 不仅仅是读取屏幕上的内容,而是理解用户的意图,并执行相应的任务。例如,用户可以说 “预订明天早上 8 点的会议室”,a11y-agent 可以自动查找会议室预订系统,填写预订信息,并完成预订。
- 自主执行多步操作: a11y-agent 可以自主执行多步操作,例如填写复杂的表单、提取关键信息、总结内容等。
- 简化用户交互: 用户只需要通过语音输入命令,无需使用鼠标、键盘或记忆快捷键,从而大大简化了用户交互。
a11y-agent 的出现,标志着人机交互进入了一个新的时代——后GUI 时代。
后 GUI 时代:交互的未来
在 后GUI 时代,用户不再需要通过图形界面与计算机进行交互,而是可以通过自然语言或其他方式直接表达自己的意图。AI 代理将负责理解用户的意图,并执行相应的操作。
这种转变已经在许多领域发生:
- ChatGPT 和 Claude 取代搜索引擎: 用户可以直接向 ChatGPT 或 Claude 提问,而无需使用搜索引擎。
- Copilot 编写代码: 开发人员可以使用 Copilot 自动生成代码,而无需手动编写。
- Auto-GPT 处理端到端工作流程: Auto-GPT 可以自主完成复杂的任务,例如撰写文章、设计网站等。
a11y-agent 是探索 后GUI 时代的实践,它为我们展示了如何利用 AI 技术构建更智能、更便捷的人机交互方式,尤其是对于有 无障碍 需求的用户。
a11y-agent 的无障碍意义
a11y-agent 对于以下人群具有重要的 无障碍 意义:
- 视障人士: 无需依赖视觉层级结构进行导航。
- 运动障碍人士: 无需进行精确的物理输入。
- 认知障碍人士: 无需管理复杂的操作流程。
a11y-agent 将负担转移到代理上,用户只需表达意图,代理负责理解和执行。这为包容性设计开辟了新的可能性,不仅改善了 无障碍 体验,而且重新定义了 无障碍 的概念。
a11y-agent 的局限性与改进方向
目前 a11y-agent 仍然是一个早期原型,存在一些局限性:
- 延迟: 大模型 推理和浏览器控制需要时间,导致响应速度较慢。
- 成本: 使用 Whisper 和 GPT-4.1 的成本较高,不适合长期使用。
- 脆弱性: 自动化浏览器流程容易在复杂的网站上出现故障。
为了使 a11y-agent 更加实用和包容,需要从以下几个方面进行改进,参考了 POUR 原则:
- 可感知性 (Perceivable): 更好地告知用户代理正在执行的步骤,使用户始终了解发生了什么。
- 可操作性 (Operable): 给予用户更多的控制权,例如取消、暂停或接管操作。支持多种输入和输出方式,以适应不同的残疾类型。提高速度并支持本地音频输入/输出。
- 可理解性 (Understandable): 增强代理的反馈机制,例如允许用户调整播放速度、选择摘要或详细解释,并支持多种语言以提高全球可访问性。
- 稳健性 (Robust): 提高整个操作流程的稳健性。系统应能优雅地从错误中恢复,并在各种网站上执行可靠的浏览器导航。
未来展望
a11y-agent 只是一个开始。未来,我们可以想象:
- 针对不同残疾类型的插件: 例如,支持不同的输入/输出方式。
- 本地和实时语音支持: 提高响应速度和隐私性。
- 离线使用的设备端模型: 即使没有网络连接也能使用。
- 视觉模型: “看到” 屏幕并提供更自然的辅助 (计算机使用已经实现了这一点,但速度仍然太慢!)。
- 跨应用工作流程: 例如,”登录我的银行,下载我的账单,并将其通过电子邮件发送给我”。
- 选择不同的 LLM 提供商和工具: 例如 OpenAI, Anthropic, Ollama 以及 browser-use, computer-use 等。
后GUI 计算意味着界面适应用户,而不是用户适应界面。a11y-agent 的开源特性也鼓励更多人参与到 AI 赋能的 无障碍 事业中来,共同构建更美好的数字世界。
总结
a11y-agent 项目利用 大模型 和 AI 技术,为 无障碍 访问带来了新的思路。它展示了 后GUI 时代人机交互的可能性,以及 AI 如何赋能残障人士,使其能够更便捷地访问网络。虽然 a11y-agent 仍处于早期阶段,但它已经为我们打开了一扇通往更包容、更智能的数字世界的大门。随着技术的不断发展,我们有理由相信,AI 将在 无障碍 领域发挥越来越重要的作用,最终实现真正意义上的普惠数字体验。