5 月 2025

从零构建大型语言模型(LLM):原理、历史与实践指南

大型语言模型(LLM)是人工智能领域一项引人瞩目的突破,它能够生成与人类写作水平相近的文本,这激发了专业人士和公众的想象力。 本文将深入探讨大型语言模型(LLM)的基本概念、起源和核心思想,并概述从零构建大型语言模型(LLM)的关键步骤,为读者提供一个全面而实用的学习路径。 什么是大型语言模型(LLM)? 大型语言模型(LLM)是一种专门用于处理和生成人类语言的深度神经网络。我们可能已经在各种流行

Prompt Engineering:驾驭大模型自由度的隐形之手

Prompt Engineering(提示工程),作为有效驾驭生成式AI背后的关键学科,正日益被认为是成功将大型语言模型(LLMs)集成到生产环境中的关键。它不仅仅是简单的命令或查询,而是一种精细的平衡艺术,需要在约束、清晰和创造力之间找到微妙的平衡。开发者、数据科学家和产品经理们必须掌握这只“隐形的手”,巧妙地设计Prompt,既能优雅地限制生成模型的自由度,又能确保输出内容有意义且在上下文中精

从零到一:用Databricks构建并部署你的AI Agent

最近,各种关于AI Agent的帖子、演示和视频铺天盖地,展示了它们在自动化电子邮件回复、数据库查询甚至整个工作流程方面的强大能力。看着这些炫酷的功能,你是否也渴望亲手打造一个,将其从“看起来很棒”的演示转变为“真正运行在公司生产环境”的实用工具?如果你是一位数据工程师、机器学习从业者或者开发者,那么本文将为你提供一个清晰的学习路径,教你如何使用 Databricks 从零开始构建并部署属于你自己

从零开始:利用 GitHub API 训练代码生成大模型

随着领域特定语言模型的兴起,数据的重要性日益凸显。对于代码生成模型而言,预训练阶段所使用的源代码质量、多样性和纯净度,直接影响其下游任务的性能表现。本文将探讨如何从零开始,构建一个高质量的代码数据集,并以此训练出一个强大的代码生成大模型。 本文主要参考了一篇英文文章,该文章详细描述了作者 Wasi Ullah 如何利用 GitHub API,构建一个可扩展、去重且定制化的源代码数据集,并基于此预训

将工具作为状态:扩展大语言模型能力的新范式

关键词:工具即状态 (Tool-as-State), 大语言模型 (LLM), 状态管理, 工具接口, 用户体验, 能力增长, 上下文 (Context), 协议 (Protocol) 传统软件开发中,状态通常隐藏在内存中,对用户不可见,更重要的是,大语言模型 (LLM) 也无法直接访问和推理这些状态。 这篇文章探讨了一种名为“工具即状态 (Tool-as-State, TaS)”的新模式,旨在通

利用AI赋能威胁情报分析:TI Mindmap最新进展解读

在当今网络安全形势日益严峻的背景下,快速、准确地分析海量的威胁情报数据至关重要。传统的分析方法往往耗时费力,难以满足日益增长的需求。而AI技术的引入,为威胁情报分析带来了革命性的变革。本文将深入解读开源项目 TI Mindmap 的最新进展,探讨其如何利用 AI 大模型技术,简化威胁情报分析流程,提升效率,并最终帮助安全人员更好地应对网络威胁。 TI Mindmap:威胁情报分析的瑞士军刀 TI

RAG之外的选择:利用LLMs.txt构建更精准的知识检索系统

在构建基于人工智能的知识问答系统时,我们通常会想到RAG(Retrieval-Augmented Generation,检索增强生成)架构。RAG以其快速部署和初步效果显著的优势,成为许多AI应用的首选方案。然而,随着数据量的增长和数据质量的演变,传统的RAG方法逐渐显露出局限性,例如信息过时、数据冗余以及难以维护等问题,导致检索精度下降。本文将探讨一种替代方案,即利用llms.txt和Web s

MCP vs API:大模型时代AI Agent集成外部数据的革命性选择

在人工智能(AI)领域,特别是大模型(LLM)蓬勃发展的今天,如何高效、便捷地将AI Agent与外部数据集成,成为了制约其应用落地的关键瓶颈。传统API(应用程序编程接口)集成方式虽然应用广泛,但在动态发现、工具执行和无缝数据检索方面存在诸多限制。而新兴的模型上下文协议(MCP,Model Context Protocol),则有望革新AI Agent与外部数据的集成方式,带来更加灵活、高效的解

大模型上下文窗口深度解析:AI 记忆的关键与未来趋势

在人工智能领域,特别是大型语言模型(LLMs)如 ChatGPT、Claude、Gemini 等蓬勃发展的今天,理解 上下文窗口 的概念至关重要。你是否曾疑惑 AI 聊天机器人为何有时会“忘记”你之前说过的话?答案就隐藏在 上下文窗口 中。本文将深入探讨 上下文窗口 的含义、重要性及其对 AI 能力的影响,帮助开发者、商业领袖、学生以及 AI 爱好者更好地理解和应用这项关键技术。 什么是上下文窗口

大模型 Function Calling 那些坑:如何用 Few-Shot 示例“玩崩”又“救回” LLM Agent

前言: 在大模型(LLM) Agent 席卷各行各业的当下,Function Calling 作为 Agent 与外部世界交互的关键桥梁,其稳定性和可靠性至关重要。本文将以一个有趣的个人项目经历为例,深入探讨如何在 LLM Agent 的 System Prompt 中使用 Few-Shot 示例时可能出现的 Function Calling 问题,以及如何解决这些问题,避免 Agent “幻觉”