AI 赋能无障碍：a11y-agent 如何用大模型重塑 Web 体验

互联网的普及本应惠及所有人，然而，对于许多残障人士来说，访问网络仍然面临重重障碍。传统 无障碍 技术依赖于网站的良好标记，但现实中大量网站存在缺陷，导致这些技术失效。而 大模型 的出现，为解决这一问题带来了新的希望。Jan Mittelman 提出的 a11y-agent 项目，正是利用 AI 技术，尤其是 大模型，重新思考 Web 无障碍 的可能性，并探索 后GUI 时代人机交互的新范式。

传统无障碍技术的局限性

一直以来，屏幕阅读器 (如 NVDA、VoiceOver 和 JAWS) 是视障人士访问网络的主要工具。这些工具依赖于网页的语义结构，通过解析 HTML 标记、ARIA 标签和地标来理解页面内容。当网页设计遵循 无障碍 规范，例如使用清晰的 HTML 结构、正确定义 ARIA 属性时，屏幕阅读器能够很好地工作。

然而，现实情况往往并非如此。大量的网站存在以下问题：

糟糕的标记和缺失标签： 开发者可能忽略了语义化 HTML 的重要性，导致屏幕阅读器无法正确识别页面元素。例如，缺少 <label for=""> 标签会导致屏幕阅读器无法将文本标签与输入框关联，使得用户难以填写表单。
动态内容缺乏适当的角色定义： 许多现代网站使用 JavaScript 动态生成内容。如果这些内容没有正确定义 ARIA 角色，屏幕阅读器将无法识别其类型和状态，例如无法识别动态加载的提示信息或警告框。
复杂的 JavaScript 交互破坏标准流程： 一些网站使用复杂的 JavaScript 交互，例如自定义的下拉菜单或对话框，这些交互可能不符合标准的键盘导航模式，导致屏幕阅读器用户难以操作。

这些问题导致屏幕阅读器无法有效地工作，使得残障人士难以访问网站内容。据 WebAIM 发布的 “WebAIM Million” 年度报告显示，首页上平均存在 50.8 个可检测到的 无障碍 错误。这表明，依赖网站自身的可访问性来保证 无障碍 体验是不可靠的。

大模型如何变革 Web 访问

大模型 如 GPT-4o，通过对大量文本数据的学习，具备了强大的语义理解能力。与传统的屏幕阅读器不同， 大模型 不需要依赖 HTML 标记或 ARIA 属性，而是像人类一样，通过分析网页的布局、文本内容和视觉元素来理解页面。

例如， 大模型 可以通过以下方式理解网页：

识别标题： 通过分析文本的大小、字体和位置， 大模型 可以判断一段文本是否为标题，即使该文本没有使用 <h1> 到 <h6> 标签。
识别按钮： 通过分析元素的颜色、形状和文本内容， 大模型 可以识别按钮，即使该按钮没有使用 <button> 标签或 ARIA 属性。
理解链接： 通过分析链接的文本内容和周围的上下文， 大模型 可以判断链接的用途，例如链接是否指向新闻文章、产品页面或联系方式。

这种基于语义理解的方式，使得 大模型 能够超越 DOM 结构的限制，从更高层次理解网页，从而为 无障碍 访问带来新的可能性。它能够理解用户的意图，并执行相应的操作，即使网页本身并不符合 无障碍 标准。

a11y-agent：用 AI 赋能 Web 访问

a11y-agent 是一个概念验证项目，旨在探索如何利用 AI 技术，特别是 大模型，来构建一个语音控制的浏览器代理，从而为残障人士提供更便捷的 Web 访问方式。

a11y-agent 的工作流程如下：

语音输入： 用户通过语音输入命令，例如 “打开 CNN 并总结最新的头条新闻”。
语音转文本 (STT)： OpenAI Whisper 将用户的语音转换为文本。
LLM 推理： GPT-4.1 分析用户的意图，并制定相应的行动计划。例如，如果用户说 “打开 CNN”， 大模型 会识别出用户想要访问 CNN 网站，并制定访问该网站的计划。如果用户说 “总结最新的头条新闻”， 大模型 会识别出用户想要获取 CNN 网站的头条新闻，并制定提取头条新闻的计划。
浏览器自动化： Playwright 控制浏览器执行相应的操作，例如打开 CNN 网站、滚动页面、点击链接、提取文本等。
文本转语音 (TTS)： 代理将执行结果通过语音反馈给用户，例如 “已打开 CNN 网站，最新的头条新闻是……”。
循环： 用户可以继续通过语音输入命令，代理将继续执行相应的操作。

与传统的 无障碍 技术相比，a11y-agent 的优势在于：

理解用户意图： a11y-agent 不仅仅是读取屏幕上的内容，而是理解用户的意图，并执行相应的任务。例如，用户可以说 “预订明天早上 8 点的会议室”，a11y-agent 可以自动查找会议室预订系统，填写预订信息，并完成预订。
自主执行多步操作： a11y-agent 可以自主执行多步操作，例如填写复杂的表单、提取关键信息、总结内容等。
简化用户交互： 用户只需要通过语音输入命令，无需使用鼠标、键盘或记忆快捷键，从而大大简化了用户交互。

a11y-agent 的出现，标志着人机交互进入了一个新的时代——后GUI 时代。

后 GUI 时代：交互的未来

在 后GUI 时代，用户不再需要通过图形界面与计算机进行交互，而是可以通过自然语言或其他方式直接表达自己的意图。AI 代理将负责理解用户的意图，并执行相应的操作。

这种转变已经在许多领域发生：

ChatGPT 和 Claude 取代搜索引擎： 用户可以直接向 ChatGPT 或 Claude 提问，而无需使用搜索引擎。
Copilot 编写代码： 开发人员可以使用 Copilot 自动生成代码，而无需手动编写。
Auto-GPT 处理端到端工作流程： Auto-GPT 可以自主完成复杂的任务，例如撰写文章、设计网站等。

a11y-agent 是探索 后GUI 时代的实践，它为我们展示了如何利用 AI 技术构建更智能、更便捷的人机交互方式，尤其是对于有 无障碍 需求的用户。

a11y-agent 的无障碍意义

a11y-agent 对于以下人群具有重要的 无障碍 意义：

视障人士： 无需依赖视觉层级结构进行导航。
运动障碍人士： 无需进行精确的物理输入。
认知障碍人士： 无需管理复杂的操作流程。

a11y-agent 将负担转移到代理上，用户只需表达意图，代理负责理解和执行。这为包容性设计开辟了新的可能性，不仅改善了 无障碍 体验，而且重新定义了 无障碍 的概念。

a11y-agent 的局限性与改进方向

目前 a11y-agent 仍然是一个早期原型，存在一些局限性：

延迟： 大模型 推理和浏览器控制需要时间，导致响应速度较慢。
成本： 使用 Whisper 和 GPT-4.1 的成本较高，不适合长期使用。
脆弱性： 自动化浏览器流程容易在复杂的网站上出现故障。

为了使 a11y-agent 更加实用和包容，需要从以下几个方面进行改进，参考了 POUR 原则：

可感知性 (Perceivable)： 更好地告知用户代理正在执行的步骤，使用户始终了解发生了什么。
可操作性 (Operable)： 给予用户更多的控制权，例如取消、暂停或接管操作。支持多种输入和输出方式，以适应不同的残疾类型。提高速度并支持本地音频输入/输出。
可理解性 (Understandable)： 增强代理的反馈机制，例如允许用户调整播放速度、选择摘要或详细解释，并支持多种语言以提高全球可访问性。
稳健性 (Robust)： 提高整个操作流程的稳健性。系统应能优雅地从错误中恢复，并在各种网站上执行可靠的浏览器导航。

未来展望

a11y-agent 只是一个开始。未来，我们可以想象：

针对不同残疾类型的插件： 例如，支持不同的输入/输出方式。
本地和实时语音支持： 提高响应速度和隐私性。
离线使用的设备端模型： 即使没有网络连接也能使用。
视觉模型： “看到” 屏幕并提供更自然的辅助 (计算机使用已经实现了这一点，但速度仍然太慢!)。
跨应用工作流程： 例如，”登录我的银行，下载我的账单，并将其通过电子邮件发送给我”。
选择不同的 LLM 提供商和工具： 例如 OpenAI, Anthropic, Ollama 以及 browser-use, computer-use 等。

后GUI 计算意味着界面适应用户，而不是用户适应界面。a11y-agent 的开源特性也鼓励更多人参与到 AI 赋能的 无障碍 事业中来，共同构建更美好的数字世界。

总结

a11y-agent 项目利用 大模型 和 AI 技术，为 无障碍 访问带来了新的思路。它展示了 后GUI 时代人机交互的可能性，以及 AI 如何赋能残障人士，使其能够更便捷地访问网络。虽然 a11y-agent 仍处于早期阶段，但它已经为我们打开了一扇通往更包容、更智能的数字世界的大门。随着技术的不断发展，我们有理由相信，AI 将在 无障碍 领域发挥越来越重要的作用，最终实现真正意义上的普惠数字体验。

AI 赋能无障碍：a11y-agent 如何用大模型重塑 Web 体验