大模型 Archives - Page 14 of 14

DeepSeek：AI领域的新星

llmtrend 2025年2月28日没有评论

DeepSeek之所以能够取得非凡的成就，是因为它致力于开源AI。通过自由分享核心技术，DeepSeek鼓励全球开发者社区进行实验、改进和构建其模型。这种开放程度是其迅速崛起的驱动力。它证明了大型语言模型可以高效、有效地开发，为社区驱动的AI解决方案开启了一个新时代。

LLM

领先大模型（LLM）的比较分析：Mistral、Anthropic与OpenAI

llmtrend 2025年2月27日没有评论

大型语言模型（LLM）和生成性人工智能（Generative AI）技术不仅推动了软件工程的进步，也为IT工程师提供了强大的工具。本文将进行LLM的比较分析——Mistral、Anthropic和OpenAI进，探讨它们在特定应用场景下的优势与不足。

LLM

大模型技术(LLM)面临的停滞：投资者为何应保持谨慎

llmtrend 2025年2月27日没有评论

多年来，LLMs领域经历了快速扩张和巨额投资。像ChatGPT、Claude和Gemini这样的系统展示了AI能力的飞跃。但最近的发展表明，进一步的扩展可能不会带来相应的性能提升。大模型技术现在面临一些基本问题：我们是否接近了基于变换器（transformer）架构的极限？

LLM

深入剖析大模型技术综述

llmtrend 2025年2月22日没有评论

大语言模型（LLMs）能够理解人类语言并生成高度拟人的文本内容，广泛应用于诸多领域。从智能客服到智能写作，从语言翻译到知识问答，大语言模型的身影无处不在。因此，深入了解大模型技术的原理、应用、实践方法、面临的伦理问题及局限，对把握这一前沿技术的发展脉络和正确应用至关重要。

LLM

大模型量化：提升效率的关键技术

llmtrend 2025年2月16日没有评论

大模型量化是指将模型中的高精度参数（如32位浮点数）转换为低精度参数（如8位或4位整数）的过程，旨在减少模型的存储空间和计算复杂度，同时尽可能保持模型的性能。量化技术可以分为两类：静态量化和动态量化。静态量化在模型训练完成后进行，而动态量化则在模型推理过程中动态调整参数精度。

LLM

DeepSeek-R1模型与Claude 3.5 Sonnet 对决：AI 领域的巅峰较量

llmtrend 2025年2月12日没有评论

DeepSeek-R1模型是由 DeepSeek AI 研发的聚焦推理的模型，其核心技术之一是强化学习（RL）。通过大规模的强化学习，它无需依赖监督微调就能提升推理能力。这种独特的方式让模型能够探索思维链（CoT）来解决复杂问题，

LLM

DeepSeek多模态大模型Janus-Pro：开启AI多模态新纪元

llmtrend 2025年2月11日没有评论

DeepSeek多模态大模型旨在统一处理涉及文本、图像、视频等多种模态的任务。它采用了一种新颖的架构，将视觉编码分解为独立的路径，同时利用统一的Transformer框架进行处理。这种设计不仅提高了模型在处理复杂任务时的灵活性和效率，还使其在多模态理解和生成方面展现出了卓越的能力。

LLM

大模型蒸馏：解锁大语言模型潜能的密钥

llmtrend 2025年2月10日没有评论

大模型蒸馏是一种技术，旨在通过训练一个更小、更高效的模型来模仿一个更大、已训练好的模型的输出。这一技术的核心在于，它能够在减少计算需求和模型大小的同时，捕捉到原模型的知识。这意味着，尽管仅针对特定的训练任务，开发者仍然能够获得与大型模型相当的结果，但成本更低，处理速度更快。

LLM

什么是知识蒸馏？你想知道都在这里

llmtrend 2025年2月9日没有评论

知识蒸馏是什么？知识蒸馏，简单来说，就是将大型模型（教师模型）所蕴含的知识转移到小型模型（学生模型）的过程。大型模型虽然拥有强大的知识容量，但在实际应用中，其庞大的规模使得计算成本居高不下，即使仅使用其一小部分知识，评估过程也可能耗费大量资源。

LLM

DeepSeek：新一代LLM的探索与革新

llmtrend 2025年2月6日没有评论

基准测试是衡量AI模型性能的重要指标。DeepSeek的模型在多个基准测试中均取得了优异的成绩。例如，DeepSeek LLM在多个LLM基准测试中超越了其他开源模型；DeepSeek Coder在代码生成和理解任务中表现出色等

大模型

DeepSeek：AI领域的新星

领先大模型（LLM）的比较分析：Mistral、Anthropic与OpenAI

大模型技术(LLM)面临的停滞：投资者为何应保持谨慎

深入剖析大模型技术综述

大模型量化：提升效率的关键技术

DeepSeek-R1模型与Claude 3.5 Sonnet 对决：AI 领域的巅峰较量

DeepSeek多模态大模型Janus-Pro：开启AI多模态新纪元

大模型蒸馏：解锁大语言模型潜能的密钥

什么是知识蒸馏？你想知道都在这里

DeepSeek：新一代LLM的探索与革新

大型语言模型 (LLM)：原理、应用与实践指南

2025年大模型前沿架构：量化创新深度解析

基于FastAPI与RAG的电商智能聊天机器人：从入门到实践

LLM赋能：一个Spring Boot应用如何替代五个微服务API？

大模型推理的幻觉：Apple揭示AI“思考”的局限性

You Missed

大型语言模型 (LLM)：原理、应用与实践指南

大型语言模型 (LLM)：原理、应用与实践指南

2025年大模型前沿架构：量化创新深度解析

2025年大模型前沿架构：量化创新深度解析

基于FastAPI与RAG的电商智能聊天机器人：从入门到实践

基于FastAPI与RAG的电商智能聊天机器人：从入门到实践

LLM赋能：一个Spring Boot应用如何替代五个微服务API？

LLM赋能：一个Spring Boot应用如何替代五个微服务API？