Attention 机制
基础理论

Attention Is All You Need 深度解析

详解 Transformer 架构的核心——自注意力机制,理解其如何革新序列建模任务。

阅读全文 →
BERT 模型
预训练模型

BERT: 双向编码器表示详解

深入分析 BERT 的预训练目标和微调方法,掌握其在 NLP 任务中的强大表现。

阅读全文 →
GPT 系列
生成模型

GPT 系列模型演进之路

从 GPT 到 GPT-4,梳理生成式预训练模型的发展脉络与技术突破。

阅读全文 →
扩散模型
图像生成

Diffusion Models 原理与实践

解析扩散模型的数学原理与实现细节,理解其在图像生成领域的突破性应用。

阅读全文 →
RLHF
对齐技术

RLHF: 人类反馈强化学习详解

深入探讨如何通过人类反馈训练出更符合人类价值观的大语言模型。

阅读全文 →
MoE 架构
高效架构

Mixture of Experts 架构解析

详解 MoE 架构如何实现模型容量与计算效率的平衡,支撑超大规模模型训练。

阅读全文 →
论文分析方法论

论文核心观点解析方法论

我们采用系统化的论文解读方法,帮助学习者快速把握论文精髓:

  • 背景动机:理解论文要解决的核心问题
  • 方法创新:提炼论文的核心贡献与技术突破
  • 实验验证:分析实验设计与结果的可信度
  • 实际应用:探讨技术的落地场景与局限性
  • 延伸思考:启发进一步研究与探索方向
学习论文阅读方法

开源模型论文对应

每篇论文配套开源代码与模型实现

Llama
Meta

Llama 系列开源模型

Meta 开源的大语言模型系列,包含多个参数规模版本,支持商业使用。

查看模型 →
ChatGLM
清华

ChatGLM 对话模型

清华大学开源的中英双语对话模型,在中文场景下表现出色。

查看模型 →
Qwen
阿里

通义千问 Qwen 系列

阿里巴巴开源的多语言大模型,具备强大的代码与数学能力。

查看模型 →