天津大学:2025深度解读DeepSeek:原理与效应
发布日期:2025-03-06 15:45 点击次数:167
今天分享的是:天津大学:2025深度解读DeepSeek:原理与效应
报告共计:44页
本文围绕大语言模型展开,重点解读了DeepSeek的技术原理、创新点、产生的效应以及对未来的展望。
1. 大语言模型发展脉络:介绍生成式AI自2014 - 2024年的发展,涉及Attention、Transformer、Scaling Laws、RLHF等关键技术的演进,这些技术推动了大语言模型从基础架构搭建到与人类价值对齐等方面的发展。同时梳理了大语言模型的技术栈、生命周期与范式,涵盖数据处理、预训练、后训练及应用部署等环节。
2. DeepSeek技术创新:在模型架构上,V2版本采用DeepSeekMoE和MLA技术,实现稀疏激活,减少计算量,降低KV cache占用;V3版本引入MTP技术,减少流水线气泡,支持FP8训练,提升训练效率 。推理模型R1方面,通过大规模RL训练发现Scaling Laws,采用4步法训练框架,结合GRPO强化学习框架降低成本,并实现推理能力蒸馏。
3. DeepSeek效应:在商业合作上,获得微软、英伟达、亚马逊等企业支持。在行业竞争中,其开源模式冲击了闭源大模型格局,打破技术护城河。此外,还改变了外界对中国AI水平和大模型研发成本的认知,凸显了底层技术创新人才的重要性。
4. 未来展望:实现AGI/ASI预计还需3 - 5个重大突破,当前处于技术路线逐渐明确阶段,未来在自动化科学研究、AI自组织管理等方面有发展空间,但在模型可解释性与安全方面仍面临挑战。DeepSeek R2有望推动智能驱动科学发展,不过现阶段R1在安全方面表现有待提升,推理与安全的创新解决方案还需进一步探索。
以下为报告节选内容