LLM TREND

大模型智能体在数学推理领域的突破：UC Berkeley Spring 2025 进展解读

llmtrend 2025年5月31日没有评论

近年来，大模型（LLM）智能体在各个领域展现出惊人的潜力，尤其是在数学推理方面。UC Berkeley 在2024年秋季和2025年春季开设了一系列关于生成式AI智能体的课程，其中2025年春季的重点在于数学推理能力的提升。本次课程的重点在于探索如何利用大模型解决复杂的数学问题，并验证其推理的准确性。本文将深入探讨该课程中关于数学推理的关键讨论，并着重分析其在形式化数学、自形式化和强化学习等方面的

Agent

Agentic AI：大模型驱动的业务工作流自动化，UI测试迎来革命性变革

llmtrend 2025年5月31日没有评论

在当今快节奏、软件驱动的商业环境中，手动测试正逐渐成为瓶颈。诸如登录、数据录入和审批等关键业务工作流需要持续验证。然而，传统的测试自动化工具（如Selenium和Cypress）仍然依赖于人工编写的脚本和脆弱的选择器，这些选择器很容易因前端的微小改动而失效。现在，一种名为 Agentic AI 的全新范式正在崛起，它利用大模型（LLMs）充当智能代理，能够理解业务指令、解读Web环境并在浏览器中执

LLM

探索前沿：2025春季高级大型语言模型智能体（LLM Agents）MOOC学习心得

llmtrend 2025年5月31日没有评论

2025年春季，我参加了高级大型语言模型智能体（LLM Agents）MOOC课程，这是一次令人振奋的学习之旅。课程内容涵盖了推理、规划、定理证明以及AI安全等多个关键领域，深入浅出地展现了当前agentic AI的最新进展以及未来的发展方向。通过学习，我不仅掌握了各种inference-time和post-training技术，还对如何构建能够推理、规划和验证代码或证明的端到端智能体有了更深刻的

LLM

解锁Gen AI中MCP的潜力：释放自主性与战略视野

llmtrend 2025年5月31日没有评论

在大模型时代，Gen AI（生成式人工智能）正以前所未有的速度重塑各行各业。要真正释放Gen AI的潜力，关键在于构建一个强大且灵活的框架，确保AI能够理解、适应并服务于现实世界的复杂需求。MCP（模型上下文协议）应运而生，它为Gen AI提供了一个清晰的上下文环境，赋予其更强的自主性与战略视野。本文将深入探讨MCP在Gen AI领域的关键作用、优势以及未来发展方向，帮助企业更好地利用这一技术驱动

AI News

AI的“魔镜”与BuzzFeed的“芭比”：解析表征偏差与AI的局限性

llmtrend 2025年5月31日没有评论

BuzzFeed近期因发布（后删除）由AI生成的各国芭比形象而引发争议，这些图像迅速走红，同时也因其反映出的表征偏差而备受批评。这一事件引出了关于AI偏差的重要问题，以及这些模型如何解读和呈现现实。本文将深入探讨AI中的偏差问题，并结合BuzzFeed芭比案例，分析其背后深层原因与潜在影响。 AI：一面反映训练数据的“魔镜” AI模型并非天生“邪恶”，其本质是学习训练数据的产物。如果训练数据本身就

LLM

自我奖励训练 (SRT): 大语言模型 (LLM) 通过多数投票实现自我改进，及其潜在风险

llmtrend 2025年5月31日没有评论

大语言模型 (LLM) 正在不断突破人工智能的边界，尤其是在数学等复杂的推理任务中。然而，要实现这一突破，需要海量的训练数据。随着计算资源的持续扩展，高质量、人工生成的数据的可用性正日益成为一个重要的瓶颈。本文将深入探讨自我奖励训练 (SRT) 的概念，这是一种新型的训练方法，允许 LLM 在无需过多人工干预的情况下，通过多数投票机制进行自我改进，但同时也要警惕其潜在的风险。数据瓶颈与传统 LL

AI News

JEPA、生成式AI与Agentic AI的炉边夜话：AI未来的终极辩论

llmtrend 2025年5月31日没有评论

人工智能（AI）领域正经历一场深刻的变革，各种新兴技术和理念层出不穷。其中，JEPA (Joint-Embedding Predictive Architecture)、生成式AI (Generative AI) 和 Agentic AI 三种范式，正以各自独特的优势和视角，角逐着AI的未来。本文将以一场虚拟的炉边夜话为载体，深入探讨这三种AI哲学的核心理念、优缺点以及潜在的发展方向。 1. JE

AI Tools

构建AI应用？ Vertex AI、Google AI Studio及顶级替代方案终极指南

llmtrend 2025年5月31日没有评论

随着大模型（LLM）技术的日渐成熟，构建人工智能（AI）应用，如聊天机器人、智能搜索工具和虚拟助手，变得越来越普及。然而，LLM的世界既令人兴奋，也充满挑战。幸运的是，像 Vertex AI Agent Builder、Google AI Studio、LangChain、LangGraph、LlamaIndex、CrewAI 和 Vellum 这样的框架正在简化开发流程，使得构建AI应用变得更加

LLM

自我进化：大型语言模型（LLM）如何超越人类推理

llmtrend 2025年5月31日没有评论

引言：大型语言模型 (LLM) 的发展日新月异，不再是被动接受人类信息的工具，而是开始主动挑战自身，验证答案，提炼知识，并通过自我训练不断进化。本文将探讨LLM如何通过诸如思维链 (Chain of Thought, CoT)、自我奖励 (Self-rewarding) 和元判断 (Meta-judging) 等尖端技术，实现前所未有的精确度和推理深度，最终超越人类推理能力。一、从“系统1”

LLM

Qwen 3 深度揭秘：超越基准测试，隐藏的“中国策略”与AI审查内幕

llmtrend 2025年5月31日没有评论

近年来，大模型技术飞速发展，各类AI模型层出不穷。然而，在光鲜的营销宣传和优异的基准测试成绩背后，隐藏着许多不为人知的秘密。本文将深度剖析最近备受关注的 Qwen 3 大模型，揭示其内部的“中国策略”以及潜在的 AI审查问题，呼吁人们在享受AI便利的同时，保持警惕，理性看待 AI风险。 Qwen 3：营销面纱下的真实面貌 Qwen 3 的发布无疑吸引了大量关注。各种宣传铺天盖地，声称其在多项基准

LLM TREND

大模型智能体在数学推理领域的突破：UC Berkeley Spring 2025 进展解读

大模型智能体在数学推理领域的突破：UC Berkeley Spring 2025 进展解读

Agentic AI：大模型驱动的业务工作流自动化，UI测试迎来革命性变革

Agentic AI：大模型驱动的业务工作流自动化，UI测试迎来革命性变革

探索前沿：2025春季高级大型语言模型智能体（LLM Agents）MOOC学习心得

探索前沿：2025春季高级大型语言模型智能体（LLM Agents）MOOC学习心得

解锁Gen AI中MCP的潜力：释放自主性与战略视野

解锁Gen AI中MCP的潜力：释放自主性与战略视野

AI的“魔镜”与BuzzFeed的“芭比”：解析表征偏差与AI的局限性

AI的“魔镜”与BuzzFeed的“芭比”：解析表征偏差与AI的局限性

自我奖励训练 (SRT): 大语言模型 (LLM) 通过多数投票实现自我改进，及其潜在风险

自我奖励训练 (SRT): 大语言模型 (LLM) 通过多数投票实现自我改进，及其潜在风险

JEPA、生成式AI与Agentic AI的炉边夜话：AI未来的终极辩论

JEPA、生成式AI与Agentic AI的炉边夜话：AI未来的终极辩论

构建AI应用？ Vertex AI、Google AI Studio及顶级替代方案终极指南

构建AI应用？ Vertex AI、Google AI Studio及顶级替代方案终极指南

自我进化：大型语言模型（LLM）如何超越人类推理

自我进化：大型语言模型（LLM）如何超越人类推理

Qwen 3 深度揭秘：超越基准测试，隐藏的“中国策略”与AI审查内幕

Qwen 3 深度揭秘：超越基准测试，隐藏的“中国策略”与AI审查内幕

掌握生成式AI：从基础到实践的必备技能图谱

STDIO在模型上下文协议（MCP）通信中的重要性：大模型交互的基石

自回归模型 vs. 扩散模型：生成式AI的两大引擎

打造实时流式AI聊天机器人：FastAPI与WebSocket的完美结合

剖析 Transformer：驱动大模型的架构基石

You Missed

掌握生成式AI：从基础到实践的必备技能图谱

掌握生成式AI：从基础到实践的必备技能图谱

STDIO在模型上下文协议（MCP）通信中的重要性：大模型交互的基石

STDIO在模型上下文协议（MCP）通信中的重要性：大模型交互的基石

自回归模型 vs. 扩散模型：生成式AI的两大引擎

自回归模型 vs. 扩散模型：生成式AI的两大引擎

打造实时流式AI聊天机器人：FastAPI与WebSocket的完美结合

打造实时流式AI聊天机器人：FastAPI与WebSocket的完美结合