你是否和我一样,曾被钢铁侠电影中无所不能的 AI助手 Jarvis 所深深吸引,它能够突破语言和学科的障碍,快速收集信息、分析数据、构建原型,最终将你的想法变成现实?这个曾经遥不可及的梦想,正在 Kragent.ai 的努力下,逐渐成为现实。Kragent.ai 致力于打造一个类似 Jarvis 的 AI助手,让每个人都能拥有强大的 AI助手,提升工作效率,释放创造力。
AIlice:通往自主AI代理的基石
Kragent.ai 的核心技术之一是 AIlice,这是一个通用型的自主AI代理系统。AIlice 采用了独特的交互式代理调用树(IACT)架构,能够动态地分解复杂的任务,并通过高度容错的交互机制来解决这些问题。在 GPT-4 的加持下,AIlice 已经能够处理相当复杂的任务。然而,由于推理成本的限制,实际部署变得困难重重。直到 Qwen 2.0 的出现,才让我们看到了在个人电脑上运行类 Jarvis 的 AI 助手的曙光。设想一下,一个能够理解你的意图,并能自主执行任务的自主AI代理,将会给我们的生活和工作带来怎样的变革?AIlice的出现,为我们描绘了这样一幅美好的蓝图。
配置挑战与Kragen.ai的诞生
然而,强大的功能往往伴随着复杂的配置。对于 AI代理 来说,工具越多,幻觉就越少,工具的多样性至关重要。虽然 AIlice 可以构建自己的工具,但它通常需要 API 密钥(用于网站平台交互工具)或本地 GPU 支持(用于 AI 多模态工具),而这些对于普通用户来说,要么难以自动化,要么根本无法实现。配置 AI代理 的过程,对于许多用户来说,就像攀登一座陡峭的山峰,充满了挑战。
正是为了解决这一难题,Kragent.ai 项目应运而生。Kragent.ai 的核心目标是提供一个开箱即用、类似 Jarvis 的 AI助手,配备:
- 丰富的工具集
- 可插拔的长期记忆模块
- 专门微调的模型
这些目标在本地机器条件下难以实现。Kragent.ai 的诞生,正是为了打破这些限制,让每个人都能轻松拥有一个强大的 AI助手。
Kragent.ai 的核心特性:交互式代理调用树(IACT)
Kragent.ai 的核心在于其 交互式代理调用树(IACT) 内核。交互式代理调用树(IACT) 从传统函数调用树中汲取灵感,用于复杂的任务分解,同时将调用者与被调用者之间的关系从一次性调用转变为多轮对话交互,从而解决了容错率低的问题。交互式代理调用树(IACT) 是一种创新的架构,它允许 AI代理 之间进行更深入、更灵活的协作。
你可以将 LLM 的上下文资源限制与传统 CPU 寄存器限制进行类比。正如我们使用函数调用栈机制在有限的寄存器上执行无限复杂的计算一样,我们使用调用树在有限的上下文中完成任意复杂的任务分解。
交互性是 交互式代理调用树(IACT) 架构的灵魂。这意味着被调用者可以主动向父级代理请求补充信息,报告项目进度,并在收到新的信息或指示后继续工作。如果子代理出错,父代理可以提供建议,并让子代理重试正确的方法。这种机制极大地提高了任务完成的成功率和效率。
例如,假设你需要 Kragent.ai 帮你预订一张机票。交互式代理调用树(IACT) 会将这个任务分解为多个子任务:
- 获取用户出发地和目的地信息: AI代理会主动与你沟通,询问你的出发地和目的地。
- 查询航班信息: AI代理会调用航班查询工具,根据你的需求查询航班信息。
- 筛选航班: AI代理会根据你的偏好(例如,价格、时间、航空公司)筛选航班。
- 预订航班: AI代理会调用预订接口,为你预订选定的航班。
- 确认订单: AI代理会向你确认订单信息,并完成支付。
在整个过程中,AI代理会不断与你互动,确认信息,并根据你的反馈进行调整。即使在某个环节出现问题,父级代理也会介入,提供帮助,确保任务最终能够成功完成。
灵活的文本到行动机制
Kragent.ai 采用了一种灵活的文本到行动机制,有别于行业标准的 JSON 函数调用机制,我们构建了一个简单的脚本语言解析器来解析函数调用语法。这为我们带来了独特的特性:
- LLM 控制的内存管理(通过将重要内容存储在变量中)
- 快速的多模态内容转发(代理可以快速地将代码片段转发到 PYTHON 函数或将图像转发到处理工具)
这种机制使得 AI代理 能够更加灵活地控制和处理各种类型的数据,从而更好地完成任务。例如,一个 AI代理 可以通过将用户上传的图片存储到变量中,然后将其转发到图像识别工具进行分析。
Markdown:AI 代理的自然语言
对于多代理协作,交换多模态内容至关重要。多模态模型自然需要丰富的文本交换,因此我们采用 Markdown 作为消息交换格式。我们扩展了 Markdown 语法,以支持视频/音频/流媒体和内部脚本中的多模态变量。
在 Kragent.ai 的设计中,用户也是代理,因此用户-代理界面(UI)也是基于 Markdown 的,支持全面的多媒体渲染和交互。这使得用户能够更加自然地与 AI代理 进行沟通和协作。
你可以想象一下,一个 AI代理 通过 Markdown 格式,向你展示一段视频,并附带详细的文字描述,让你能够更直观地了解任务的进展情况。
自我扩展能力:释放 LLM 的无限潜力
LLM 本身就具备操作外部世界的知识,只是缺少一座将这些知识释放到现实的桥梁。而 Kragent.ai 正是构建了这样一座桥梁。在 Kragent.ai 中,代理可以创建自己的工具,并在运行时加载它们。从长远来看,这将使许多 MCP 服务变得不必要:代理可以在必要时构建自己需要的工具!
例如,一个 AI代理 发现自己需要一个特定的数据分析工具,它可以自主编写代码,创建一个新的工具,并将其添加到自己的工具集中。这种自我扩展能力,使得 AI代理 能够不断适应新的任务和环境,保持其强大的竞争力。
Kragent.ai 的设计理念:通用性
Kragent.ai 从一开始的设计目标就是通用性。历史一再告诉我们,智能是无法设计的。代理开发者所能做的,就是为 LLM 提供一个舞台,以释放它们隐藏在文本中的能力。这包括:
- 有效的文本到行动机制
- 简单、灵活且容错的代理间交互机制
我们所有的工作都围绕着这两点展开。我们刻意避免使用工作流来约束 AI 行为,而是确保它在每一步都有适当的工具或指导。结果证明这种方法是正确的!
Kragent.ai 的近期和长期目标:打造更智能、更自主的 AI助手
Kragent.ai 的近期目标包括:
- 丰富且用户友好的工具集
- 可插拔的长期记忆模块
- 专门为 Kragent.ai 训练的强化学习模型!
我们目前支持 MCP 协议,但并不完美。我们将改进动态模块加载机制,以便代理能够自主查找和加载合适的工具,而不仅仅依赖于 RAG。
例如,Kragent.ai 计划支持更多的第三方 API,例如 Google Calendar、Trello 等,以便 AI代理 能够更好地与用户的日常生活和工作流程进行整合。
长期记忆模块对于特定领域的学术应用和个性化助手至关重要。例如,在为代理配备心脏病学长期记忆后,该模型可以对心脏问题产生更准确的“直觉”,并利用这种直觉生成更好的关键词来检索文献,或者直接利用长期记忆知识来解决问题。
对于个人助理应用程序,这一点就更加明显:我们需要一个通过交互而不断成长的 AI 助手,而不是一个每次都会忘记一切的阿尔茨海默症 AI。
最终,我们的最终目标是:没有提示工程可以取代模型本身学到的经验。我们需要模型通过强化学习来探索和适应 Kragent.ai 的代理框架。当他们拥有足够的自我意识时,他们自然可以利用这种基础设施来完成各种复杂的任务。
Kragent.ai 正在努力打造一个真正的 AI助手,它不仅能够理解你的意图,还能够自主学习和进化,成为你生活和工作中不可或缺的伙伴。
强化学习:让 AI 自主进化
Kragent.ai 的最终目标是利用强化学习来训练 AI代理。通过强化学习,AI 代理可以在 Kragent.ai 框架中自主探索和学习,逐渐掌握各种技能,并最终能够独立完成复杂的任务。
例如,我们可以设计一个强化学习环境,让 AI代理 学习如何使用各种工具来解决问题。通过不断尝试和错误,AI代理 会逐渐学会哪些工具在什么情况下使用效果最好,并最终能够熟练地运用这些工具来完成任务。
强化学习是 Kragent.ai 实现真正智能的关键。通过强化学习,Kragent.ai 可以摆脱人工干预的限制,让 AI代理 自主进化,最终成为一个真正意义上的 AI助手。
总结:Kragent.ai,通往AI助手未来的桥梁
Kragent.ai 不仅仅是一个项目,更是一个梦想,一个关于人人都能拥有 AI助手 的梦想。通过 AIlice、交互式代理调用树(IACT)、灵活的文本到行动机制、自我扩展能力 和 强化学习 等核心技术,Kragent.ai 正在一步一个脚印地将这个梦想变成现实。
Kragent.ai 提供了一个免费的演示版本,你可以访问 kragent.ai 来体验它的初始功能。我们强烈建议你使用自己的 API 密钥来体验 Claude 3.5/3.7 或商业 LLM + 开源 LLM 混合配置——性能与免费版本完全不在一个水平上!
加入我们,一起构建未来,一次构建一个代理✨🤖。Kragent.ai,正在成为通往 AI助手 未来的桥梁。