LLM Archives - Page 83 of 84

deepseek解析：技术革新与未来展望

llmtrend 2025年2月13日没有评论

deepseek解析：DeepSeek是一款集高效推理、多模态融合及对垂直领域深度优化于一体的大规模预训练语言模型。该模型旨在打破“规模决定一切”的传统桎梏，追求“轻量级参数，卓越性能”的完美平衡，同时摆脱对大算力的过度依赖，为复杂任务提供一站式解决方案。

LLM

DeepSeek-R1模型与Claude 3.5 Sonnet 对决：AI 领域的巅峰较量

llmtrend 2025年2月12日没有评论

DeepSeek-R1模型是由 DeepSeek AI 研发的聚焦推理的模型，其核心技术之一是强化学习（RL）。通过大规模的强化学习，它无需依赖监督微调就能提升推理能力。这种独特的方式让模型能够探索思维链（CoT）来解决复杂问题，

LLM

DeepSeek多模态大模型Janus-Pro：开启AI多模态新纪元

llmtrend 2025年2月11日没有评论

DeepSeek多模态大模型旨在统一处理涉及文本、图像、视频等多种模态的任务。它采用了一种新颖的架构，将视觉编码分解为独立的路径，同时利用统一的Transformer框架进行处理。这种设计不仅提高了模型在处理复杂任务时的灵活性和效率，还使其在多模态理解和生成方面展现出了卓越的能力。

LLM

大模型蒸馏：解锁大语言模型潜能的密钥

llmtrend 2025年2月10日没有评论

大模型蒸馏是一种技术，旨在通过训练一个更小、更高效的模型来模仿一个更大、已训练好的模型的输出。这一技术的核心在于，它能够在减少计算需求和模型大小的同时，捕捉到原模型的知识。这意味着，尽管仅针对特定的训练任务，开发者仍然能够获得与大型模型相当的结果，但成本更低，处理速度更快。

LLM

什么是知识蒸馏？你想知道都在这里

llmtrend 2025年2月9日没有评论

知识蒸馏是什么？知识蒸馏，简单来说，就是将大型模型（教师模型）所蕴含的知识转移到小型模型（学生模型）的过程。大型模型虽然拥有强大的知识容量，但在实际应用中，其庞大的规模使得计算成本居高不下，即使仅使用其一小部分知识，评估过程也可能耗费大量资源。

LLM

DeepSeek vs ChatGPT 对比深度剖析：AI 领域的激烈角逐

llmtrend 2025年2月9日没有评论

DeepSeek vs ChatGPT 对比：ChatGPT 由 OpenAI 开发，几乎成为了 “AI 助手” 的代名词。它能够生成高度拟人化的文本，广泛应用于各种场景。DeepSeek 则是 AI 领域的新兴力量。它致力于以自然、对话式的方式提供答案，并且在功能设计上有诸多亮点。

LLM

DeepSeek-R1：开源大模型的创新先锋

llmtrend 2025年2月7日没有评论

DeepSeek-R1 的成功展示了开源大语言模型的潜力。它证明了通过合理的训练方法和优质的数据集，可以在降低训练成本和时间的同时，实现与行业领先模型相媲美的性能。基础模型的选择、训练算法的优化以及数据处理的精细程度，都是影响模型性能的关键因素。

LLM

深度剖析 DeepSeek v3：大语言模型的新突破

llmtrend 2025年2月7日没有评论

DeepSeek V3的成功不仅是对现有技术的突破，更是对未来大型语言模型（LLM）发展方向的一次深刻洞察。通过引入多头潜在注意力、无辅助损失的负载均衡策略、多令牌预测、低精度训练与细粒度8位量化以及双管并行化机制等创新技术，DeepSeek V3在多个方面实现了超越。

LLM

探索前沿：DeepSeek-R1 与 DeepSeek-V3 大模型的突破之路

llmtrend 2025年2月6日没有评论

DeepSeek不仅打破了传统AI模型开发的高成本壁垒，还推动了AI技术的普及和应用。DeepSeek-R1和DeepSeek-V3作为DeepSeek的代表性模型，在数学、代码编写、逻辑推理以及自然语言处理等领域展现出了卓越的性能和广泛的应用潜力。

LLM

DeepSeek：新一代LLM的探索与革新

llmtrend 2025年2月6日没有评论

基准测试是衡量AI模型性能的重要指标。DeepSeek的模型在多个基准测试中均取得了优异的成绩。例如，DeepSeek LLM在多个LLM基准测试中超越了其他开源模型；DeepSeek Coder在代码生成和理解任务中表现出色等

LLM

deepseek解析：技术革新与未来展望

DeepSeek-R1模型与Claude 3.5 Sonnet 对决：AI 领域的巅峰较量

DeepSeek多模态大模型Janus-Pro：开启AI多模态新纪元

大模型蒸馏：解锁大语言模型潜能的密钥

什么是知识蒸馏？你想知道都在这里

DeepSeek vs ChatGPT 对比深度剖析：AI 领域的激烈角逐

DeepSeek-R1：开源大模型的创新先锋

深度剖析 DeepSeek v3：大语言模型的新突破

探索前沿：DeepSeek-R1 与 DeepSeek-V3 大模型的突破之路

DeepSeek：新一代LLM的探索与革新

大模型 Prompt 工程的本质：从 “成为 (Be)” 到 “行动 (Do)” 的飞跃

构建 MCP 服务器：通往智能 AI 集成的指南

使用 Foundry Local 构建 Blazor 本地 AI 聊天应用：从 Ollama 到完全本地化

LangChain实战指南：基于Groq的极速LLM应用开发

AI Agent的记忆力：构建智能体的核心基石

You Missed

大模型 Prompt 工程的本质：从 “成为 (Be)” 到 “行动 (Do)” 的飞跃

大模型 Prompt 工程的本质：从 “成为 (Be)” 到 “行动 (Do)” 的飞跃

构建 MCP 服务器：通往智能 AI 集成的指南

构建 MCP 服务器：通往智能 AI 集成的指南

使用 Foundry Local 构建 Blazor 本地 AI 聊天应用：从 Ollama 到完全本地化

使用 Foundry Local 构建 Blazor 本地 AI 聊天应用：从 Ollama 到完全本地化

LangChain实战指南：基于Groq的极速LLM应用开发

LangChain实战指南：基于Groq的极速LLM应用开发