LLM Archives - Page 121 of 125

LLM

DeepSeek-V3 ：人工智能中专家混合（MoE）的最智能应用

llmtrend 2025年3月3日没有评论

DeepSeek-V3 MoE通过自适应偏置校正消除了对辅助损失的需求。它不是手动强制专家平衡，而是让模型学习一个偏置项，每个训练步骤后动态调整。如果一个专家在一个批次中接收了太多的标记，它的偏置就会减少，使其在下一步中被选择的可能性降低

LLM

Anthropic的Claude 3.7：AI混合推理的飞跃

llmtrend 2025年3月3日没有评论

在人工智能领域，Anthropic公司推出的Claude 3.7 Sonnet模型标志着一个重要的发展里程碑。这款最新的AI模型以其混合推理能力而著称，为用户提供了在快速响应和深入、逐步推理之间切换的独特能力。这种灵活性增强了其在各种应用中的实用.

LLM RAG

LLM Chunks：高效分解上下文

llmtrend 2025年3月1日没有评论

在LLMs的背景下，LLM Chunks是指在将大型文本文档输入模型之前，将其划分为更小、更易于管理的段落的过程。由于LLMs有一个固定的上下文窗口，它们不能直接处理无限长度的文档。当文档超出这个限制时，就必须将其分割成更小的部分。

LLM

训练LLM以更智能地思考

llmtrend 2025年3月1日没有评论

人工通用智能（AGI）是指能够执行任何智能任务的AI系统，它能够像人类一样进行推理和决策。随着技术的进步，我们正在逐步接近这个目标。特别是大型语言模型的发展，如OpenAI的O1模型，它们在推理应用中展现出了前所未有的推理能力。

LLM

行业精准调优：如何让大型语言模型（LLMs）成为行业利器

llmtrend 2025年3月1日没有评论

大型语言模型（LLMs）因其在通用对话中的卓越表现而备受瞩目。然而，当这些模型被应用于特定行业——如法律、医学、制造业等时，它们的表现往往不尽如人意。这是因为在这些领域中，泛泛而谈的答案远远不够，上下文的精确性至关重要。因此，对LLMs进行行业精准调优变得尤为重要。

LLM

DeepSeek开源DeepGEMM：V3/R1训练与推理的关键提示

llmtrend 2025年3月1日没有评论

DeepGEMM是一个高性能的深度学习模型训练和推理框架，它利用了现代硬件架构的优势，如GPU和TPU，来加速计算过程。DeepGEMM的核心是一个优化的矩阵乘法库，它能够显著提高深度学习模型的训练和推理速度。DeepGEMM还提供了一系列的工具和接口,使得开发者可以轻松地集成

AI Tools LLM RAG

Deep Research：使用 GPT-4o 和 Tavily 的深度研究工具

llmtrend 2025年3月1日没有评论

Deep Research 是 OpenAI 为其 Pro 用户推出的一个强大的新工具，旨在彻底改变复杂、多步骤研究任务的执行方式。这个工具的设计理念是，用户只需提供一个提示，Deep Research 就能独立完成工作，创建出一份达到研究分析师水平的综合报告。

LLM

CoCoMix：打破大型语言模型的“词汇牢笼”

llmtrend 2025年3月1日没有评论

CoCoMix，即“连续概念混合”，是Meta提出的一种新方法，它允许直接在大型语言模型的架构中引入“连续概念”。与传统模型不同，使用CoCoMix训练的模型不仅预测下一个词汇，还生成一个中间的语义表示，捕捉潜在的思想。这些概念随后被注入模型的后续层中，影响整体的推理过程。

LLM

Claude 3.7 Sonnet：LLM领域的黑马

llmtrend 2025年3月1日没有评论

Claude 3.7 Sonnet来自Anthropic公司，它定位为一个能够理解微妙指令、承认错误，并从复杂信息中提取深刻见解的语言模型。这些都是我们希望从任何人类员工那里得到的功能，更不用说AI了。在代码生成、解释视觉数据和创造不同形式的写作等领表现出色。

LLM

ChatGPT成为Safari默认搜索引擎的新扩展

llmtrend 2025年3月1日没有评论

ChatGPT Search Extension的推出，标志着搜索引擎领域的一次重要创新。它不仅为用户提供了一个新的搜索选择，还展示了人工智能技术在搜索服务中的潜力。随着技术的不断进步，ChatGPT搜索将在未来发挥更大的作用，为用户提供更加智能、个性化和安全的搜索体验。

LLM

DeepSeek-V3 ：人工智能中专家混合（MoE）的最智能应用

Anthropic的Claude 3.7：AI混合推理的飞跃

LLM Chunks：高效分解上下文

训练LLM以更智能地思考

行业精准调优：如何让大型语言模型（LLMs）成为行业利器

DeepSeek开源DeepGEMM：V3/R1训练与推理的关键提示

Deep Research：使用 GPT-4o 和 Tavily 的深度研究工具

CoCoMix：打破大型语言模型的“词汇牢笼”

Claude 3.7 Sonnet：LLM领域的黑马

ChatGPT成为Safari默认搜索引擎的新扩展

大模型幻觉：当AI听起来很对，实际上大错特错

大模型Token成本控制：精打细算，玩转AI的省钱之道

NVIDIA 押注：小型语言模型（SLM）引领 Agentic AI 的未来

用爱发电，一人构建隐私至上的搜索引擎：Seek Ninja 与 Searcha Page 的崛起

大模型学习之旅：第二天——深入探索提示工程与AI伙伴的构建

You Missed

大模型幻觉：当AI听起来很对，实际上大错特错

大模型幻觉：当AI听起来很对，实际上大错特错

大模型Token成本控制：精打细算，玩转AI的省钱之道

大模型Token成本控制：精打细算，玩转AI的省钱之道

NVIDIA 押注：小型语言模型（SLM）引领 Agentic AI 的未来

NVIDIA 押注：小型语言模型（SLM）引领 Agentic AI 的未来

用爱发电，一人构建隐私至上的搜索引擎：Seek Ninja 与 Searcha Page 的崛起

用爱发电，一人构建隐私至上的搜索引擎：Seek Ninja 与 Searcha Page 的崛起