Deepseek Archives - LLM TREND

DeepSeek R1：炒作与现实——深入探究AI最新变革

llmtrend 2025年3月13日没有评论

DeepSeek R1基于专家混合（MoE）模型构建，这是一种根据不同输入选择性激活不同“专家”子网络的技术。这使得模型在处理不同类型的任务时能够高效，不必一次性使用所有参数.DeepSeek R1是首批公开可用且在高性能水平上整合MoE的模型之一。

LLM

DeepSeek的3FS：为饥渴的AI模型而生的文件系统

llmtrend 2025年3月11日没有评论

DeepSeek的3FS根据访问模式将数据分为不同的“层级”：热数据（近期文件或频繁访问的训练批次）存储在靠近GPU的快速NVMe缓存中。温数据存储在SSD阵列中，适合偶尔访问的文件。冷数据（旧日志、未使用的检查点）存储在成本较低的HDD上。

LLM

AI模型对比（2025年3月）

llmtrend 2025年3月7日没有评论

ChatGPT-4.5以其多功能性和用户友好性而受到青睐，Claude 3.7在处理复杂任务和编码方面表现出色，DeepSeek R1专注于深度推理任务，Grok 3以其逻辑推理能力而闻名，而Gemini 2.0则以其多模态能力和代理特性在多个领域中展现出广泛的应用潜力。

LLM

在Mac上运行DeepSeek并使用远程Web界面

llmtrend 2025年3月6日没有评论

Mac是一个流行的操作系统，以其稳定性和易用性而闻名。在Mac上运行DeepSeek可以让用户利用其强大的硬件和软件资源，同时保持系统的整洁和高效。此外，Mac用户通常对技术和隐私有较高的要求，DeepSeek提供了一个安全的方式来管理和搜索他们的文件，而无需依赖外部服务。

LLM

DeepSeek-R1：强化推理与风险评估

llmtrend 2025年3月5日没有评论

DeepSeek-R1通过强化学习在提升LLMs推理能力方面展现了巨大的潜力，但同时也面临着一系列挑战和风险。从GRPO的创新应用到模型蒸馏的巧妙策略，DeepSeek-R1在技术层面上不断突破。然而，如何处理冷启动问题等问题，都是DeepSeek-R1需要进一步探索和解决的问题。

LLM

DeepSeek AI：如何以千分之一的成本打造强大的大型语言模型

llmtrend 2025年3月5日没有评论

DeepSeek AI通过减少模型参数的数量，同时保持模型的性能，从而降低了模型的复杂性和成本。实施专家混合（MoE）：这是一种技术，只有当需要时才激活AI的部分，减少了计算浪费。利用高效的Transformers：这些技术优化了速度和成本，使得模型在保持性能的同时，成本更低。

LLM

DeepSeek开源周第四天：优化并行策略的革命

llmtrend 2025年3月3日没有评论

DeepSeek开源周第四天有DualPipe，一个双向管道并行的魔法师，以及EPLB，一个为专家混合（MoE）模型构建的专家并行负载均衡器。它们一起形成了一个强大的组合，正在改变我们对大规模训练的看法。准备好看看它们是如何工作的吗？

LLM

DeepSeek-V3 ：人工智能中专家混合（MoE）的最智能应用

llmtrend 2025年3月3日没有评论

DeepSeek-V3 MoE通过自适应偏置校正消除了对辅助损失的需求。它不是手动强制专家平衡，而是让模型学习一个偏置项，每个训练步骤后动态调整。如果一个专家在一个批次中接收了太多的标记，它的偏置就会减少，使其在下一步中被选择的可能性降低

LLM

DeepSeek开源DeepGEMM：V3/R1训练与推理的关键提示

llmtrend 2025年3月1日没有评论

DeepGEMM是一个高性能的深度学习模型训练和推理框架，它利用了现代硬件架构的优势，如GPU和TPU，来加速计算过程。DeepGEMM的核心是一个优化的矩阵乘法库，它能够显著提高深度学习模型的训练和推理速度。DeepGEMM还提供了一系列的工具和接口,使得开发者可以轻松地集成

LLM

DeepSeek：AI领域的新星

llmtrend 2025年2月28日没有评论

DeepSeek之所以能够取得非凡的成就，是因为它致力于开源AI。通过自由分享核心技术，DeepSeek鼓励全球开发者社区进行实验、改进和构建其模型。这种开放程度是其迅速崛起的驱动力。它证明了大型语言模型可以高效、有效地开发，为社区驱动的AI解决方案开启了一个新时代。

Deepseek

DeepSeek R1：炒作与现实——深入探究AI最新变革

DeepSeek的3FS：为饥渴的AI模型而生的文件系统

AI模型对比（2025年3月）

在Mac上运行DeepSeek并使用远程Web界面

DeepSeek-R1：强化推理与风险评估

DeepSeek AI：如何以千分之一的成本打造强大的大型语言模型

DeepSeek开源周第四天：优化并行策略的革命

DeepSeek-V3 ：人工智能中专家混合（MoE）的最智能应用

DeepSeek开源DeepGEMM：V3/R1训练与推理的关键提示

DeepSeek：AI领域的新星

从预训练到策略优化：大型语言模型 (LLM) 如何实现与人类意图对齐

Spring AI赋能：利用工具调用（Tool Calling）构建更强大的大语言模型应用

2025年值得关注的五大 Agentic AI框架：迎接自主智能新时代

本地部署 DeepSeek-R1：使用 Ollama 轻松驾驭大模型

You Missed

从预训练到策略优化：大型语言模型 (LLM) 如何实现与人类意图对齐

从预训练到策略优化：大型语言模型 (LLM) 如何实现与人类意图对齐

Spring AI赋能：利用工具调用（Tool Calling）构建更强大的大语言模型应用

Spring AI赋能：利用工具调用（Tool Calling）构建更强大的大语言模型应用

AI 内容捷径：为什么过度依赖 AI 写作会损害你的 WordPress 网站 SEO？

2025年值得关注的五大 Agentic AI框架：迎接自主智能新时代

2025年值得关注的五大 Agentic AI框架：迎接自主智能新时代