6 月 2025

大模型并非千篇一律:一份关于不同类型LLM的指南

随着大模型技术的爆炸式发展,各种标榜着“推理引擎”、“编码专家”的新模型层出不穷,它们都声称在数学、写作或其他特定任务上表现出色。面对如此多的选择,区分真正的差异和巧妙的营销变得越来越困难。但是,炒作之下确实存在着本质的区别。有些模型在特定任务上确实更胜一筹,这归功于它们的构建方式或学习的数据。关键在于辨别哪些是真材实料,哪些是纯粹的销售技巧,尤其是在试图为工作选择合适的工具时。本文将深入探讨不同

偶然的开源贡献:我的 DeepWiki 初体验与 LLM 工具之旅

我从未想过,一次与 CEO 的闲聊,会开启我的开源贡献之旅,更没想到它与时下火热的LLM工具紧密相连。本文将分享我参与开源项目 DeepWiki-Open 的经历,并希望借此鼓励更多人加入开源社区,共同构建更强大的 LLM 工具生态。 DeepWiki:LLM 加持的代码库搜索利器 故事的开端是我的 CEO 向我介绍了一款名为 DeepWiki 的 LLM工具,它能利用 LLM 的强大能力,帮助开

Jony Ive的灵魂设计:从Stripe访谈看大模型时代的用户关怀本质简化

乔纳森·艾维(Jony Ive),苹果公司前首席设计官,他的设计理念影响了无数产品,也塑造了人们对设计的认知。近期,他在Stripe的访谈引发了广泛关注。这篇访谈深入探讨了设计的灵魂、本质简化(Simplicity)以及团队协作的重要性,也为我们思考大模型时代的产品设计,尤其是如何注入用户关怀提供了宝贵的启示。 灵魂设计:用户关怀的最高境界 艾维强调,优秀的设计不仅仅是外形的漂亮,更重要的是要传递

从2.5万卢比到零成本:AI如何助力我重塑网站,仅需数小时

作为一个创业者,我做过很多大胆的决定,有些带来了回报,有些则不然。但没有哪件事像花费2.5万卢比构建公司网站那样,让我受益匪浅。网站看起来很棒,运行良好,但耗时数月,反复修改。而且,我始终感觉与它存在距离感。直到一个周末,我决定自己重建它。仅仅几个小时,几乎零成本,而且我认为新网站毫不逊色,甚至更好。这个经历让我深刻体会到了 AI 在 网站建设 领域的颠覆性力量,以及如何利用 Prompt 工程

LLM 的类型全景图:掌握大语言模型的战略性分类

大语言模型 (LLM) 领域正在经历爆炸式增长,各种术语和分类层出不穷,让人应接不暇。本文旨在拨开迷雾,对 LLM 的主要类型和类别进行全面梳理,帮助读者理解“开源”模型、“指令微调”模型以及 “SLM” 在 LLM 家族中的地位。 理解LLM模型类型对我们掌握AI技术,将其应用到实际场景至关重要。 一、基于可用性的分类:开源、部分开源与闭源 LLM 的可用性是区分不同类型 LLM 的一个重要维度

“机对机”:AI驱动的评估真实现状保卫战,解析生成式AI时代下的高教评估新范式

生成式AI的迅猛发展,尤其是GPT-4、Claude、Llama等大型语言模型(LLM)的出现,如同潘多拉魔盒被打开,在带来便利的同时,也对高教评估的评估真实现状构成了前所未有的挑战。据调查显示,高达74%-92%的学生已经尝试使用这些工具完成学业任务,学术诚信岌岌可危。如何应对这一危机?本文将深入探讨一种全新的“机对机”(Machine vs Machine)方法,即利用AI来对抗AI威胁,并详

大模型“冰山之下”的知识:KnowSum如何揭示LLM的潜在能力?

大型语言模型(LLM)的评估一直面临着“评估危机”,现有方法难以全面衡量其真正的能力。这篇论文介绍的KnowSum框架,通过统计学方法估算“未见知识”(Unseen Knowledge),为我们重新审视LLM的“知识量”、“信息检索能力”和“输出多样性”提供了新的视角,也指明了“主动知识发现”这一未来研究方向。 LLM评估的“未见知识”挑战 目前,对大型语言模型(LLM)的评估主要集中在模型已经展

大模型技术入门:从传统编程到神经网络的演进之路

随着人工智能技术的飞速发展,大模型(LLM)如ChatGPT、Claude、Sora、Midjourney等正深刻地改变着各行各业,尤其是在电影和创意领域。本文旨在为非技术背景的读者,特别是影视从业者和对AI感兴趣的人士,深入浅出地解析大模型的工作原理,帮助大家理解这些AI“故事讲述者”背后的机制,以及为何仅仅预测下一个单词就能产生如此惊艳、类人的结果。本文将从传统编程与机器学习的对比、向量与矩阵

GPT:剖析生成式预训练Transformer,通往大模型世界的钥匙

本文将深入剖析GPT(Generative Pre-trained Transformer)——这一推动大模型技术爆发式发展的核心架构。我们将解构其名称的每一部分,阐明其工作原理,并探讨其在文本生成乃至更广泛AI领域的应用。理解GPT,就如同掌握了通往大模型世界的钥匙,能帮助我们更好地理解和应用这些强大的技术。 1. 生成性 (Generative):创造文本的引擎 生成性是GPT模型最显著的特征

理解大语言模型(LLM)的核心:从“注意力机制”到“多头注意力”

近年来,大语言模型(LLM)以其强大的自然语言处理能力,引发了人工智能领域的巨大变革。要真正理解 LLM 的工作原理,就必须深入了解其核心机制——注意力机制(Attention Mechanism)。本文将以“注意力机制”为核心,结合实例,逐步剖析 LLM 如何通过“注意力机制”实现对上下文的理解,以及“多头注意力(Multi-Head Attention)”如何进一步提升 LLM 的性能。 什么