新书推荐 | 从零构建大模型:算法、训练与微调
创始人
2025-05-10 09:39:22
0

《从零构建大模型:算法、训练与微调》

本书内容

《从零构建大模型:算法、训练与微调》是一本系统且实用的大模型构建指南,旨在引领读者从基础知识起步,逐步深入探索大模型的算法原理、训练方法及微调技术。《从零构建大模型:算法、训练与微调》共12章,涵盖了Transformer模型的基础理论,如Seq2Seq模型、分词、嵌入层和自注意力机制等关键概念;并深入剖析了GPT模型的核心实现与文本生成过程,以及BERT模型的预训练和微调技术。同时,也对ViT(视觉Transformer)模型的架构、训练方法,以及高阶微调策略如Adapter Tuning和P-Tuning进行了详尽讲解。此外,还系统地介绍了数据处理、数据增强、模型性能优化(包括混合精度训练和分布式训练)、对比学习、对抗训练、自适应优化器、动态学习率调度,以及模型蒸馏与剪枝技术等多个方面。最后,通过应用案例,展示了模型训练和微调的完整流程,助力读者将理论知识转化为实践技能。

本书作者

本书读者

全书注重理论与实践的结合,适合希望系统掌握大模型构建、训练和优化的研发人员、高校学生,也适合对自然语言处理、计算机视觉等领域的大模型开发有兴趣的读者。还可作为培训机构和高校相关课程的教学用书

本书目录

一、大模型技术的发展历史1

1. 基于规则和统计学习的早期阶段1

2. 神经网络与深度学习的崛起2

3. Transformer的诞生与自注意力机制的崛起2

4. 预训练模型的兴起:BERT、GPT和T52

5. 超大规模模型与多模态应用3

二、开发环境配置基础3

1. 硬件配置要求3

2. 软件依赖与环境搭建4

3. 常见问题与解决方案5

第 1 章 Transformer模型基础6

1.1 Seq2Seq模型6

1.1.1 编码器-解码器工作原理7

1.1.2 Seq2Seq结构实现7

1.2 分词与嵌入层11

1.2.1 分词器:将文本转换为嵌入向量11

1.2.2 PyTorch实现嵌入层(将分词后的结果输入模型)11

1.3 自注意力与多头注意力机制15

1.3.1 自注意力机制计算过程(QKV矩阵生成和点积运算)15

1.3.2 多头注意力机制与Transformer18

1.4 残差连接与层归一化22

1.4.1 残差连接层的实现22

1.4.2 层归一化与训练稳定性25

1.5 位置编码器28

1.5.1 位置编码的计算与实现28

1.5.2 位置编码在无序文本数据中的作用30

1.6 本章小结35

1.7 思考题35

第 2 章 GPT模型文本生成核心原理与实现37

2.1 GPT-2核心模块37

2.1.1 层堆叠37

2.1.2 GPT-2中的注意力机制41

2.2 GPT模型的文本生成过程44

2.2.1 详解GPT-2文本生成过程44

2.2.2 Greedy Search和Beam Search算法的实现与对比47

2.3 模型效果评估与调优51

2.3.1 模型常见评估方法51

2.3.2 基于困惑度的评估过程56

2.4 本章小结60

2.5 思考题60

第 3 章 BERT模型核心实现与预训练62

3.1 BERT模型的核心实现62

3.1.1 编码器堆叠62

3.1.2 BERT的自注意力机制与掩码任务67

3.2 预训练任务:掩码语言模型(MLM)71

3.2.1 MLM任务实现过程71

3.2.2 如何对输入数据进行随机遮掩并预测72

3.3 BERT模型的微调与分类任务应用77

3.4 本章小结81

3.5 思考题81

第 4 章 ViT模型83

4.1 图像分块与嵌入83

4.2 ViT模型的核心架构实现89

4.2.1 ViT模型的基础结构89

4.2.2 自注意力和多头注意力在图像处理中的应用91

4.3 训练与评估ViT模型96

4.4 ViT模型与注意力严格量化分析100

4.5 本章小结105

4.6 思考题105

第 5 章 高阶微调策略:Adapter Tuning与P-Tuning107

5.1 Adapter Tuning的实现107

5.2 LoRA Tuning实现111

5.3 Prompt Tuning与P-Tuning的应用114

5.3.1 Prompt Tuning114

5.3.2 P-Tuning117

5.3.3 Prompt Tuning和P-Tuning组合微调120

5.3.4 长文本情感分类模型的微调与验证122

5.4 本章小结125

5.5 思考题125

第 6 章 数据处理与数据增强127

6.1 数据预处理与清洗127

6.1.1 文本数据预处理127

6.1.2 文本数据清洗130

6.2 文本数据增强133

6.2.1 同义词替换133

6.2.2 随机插入135

6.2.3 其他类型的文本数据增强方法137

6.3 分词与嵌入层的应用139

6.3.1 深度理解分词技术140

6.3.2 嵌入向量的生成与优化142

6.3.3 文本预处理与数据增强综合案例144

6.4 本章小结146

6.5 思考题147

第 7 章 模型性能优化:混合精度训练与分布式训练148

7.1 混合精度训练的实现148

7.2 多GPU并行与分布式训练的实现150

7.2.1 分布式训练流程与常规配置方案150

7.2.2 Data Parallel方案152

7.2.3 Model Parallel方案154

7.3 梯度累积的实现157

7.3.1 梯度累积初步实现157

7.3.2 小批量训练中的梯度累积159

7.3.3 梯度累积处理文本分类任务161

7.4 本章小结164

7.5 思考题165

第 8 章 对比学习与对抗训练166

8.1 对比学习166

8.1.1 构建正负样本对及损失函数166

8.1.2 SimCLR的实现与初步应用171

8.2 基于对比学习的预训练与微调174

8.2.1 通过对比学习进行自监督预训练175

8.2.2 对比学习在分类、聚类等任务中的表现180

8.3 生成式对抗网络的实现与优化183

8.4 对抗训练在大模型中的应用188

8.5 本章小结192

8.6 思考题192

第 9 章 自适应优化器与动态学习率调度194

9.1 AdamW优化器与LAMB优化器的实现194

9.1.1 AdamW优化器194

9.1.2 LAMB优化器197

9.2 基于梯度累积的优化技巧200

9.2.1 大批量内存受限环境200

9.2.2 梯度累积的应用场景和参数调整对训练效果的影响203

9.3 动态学习率调度205

9.3.1 线性衰减205

9.3.2 余弦退火207

9.4 Warmup与循环学习率调度209

9.4.1 Warmup策略实现209

9.4.2 循环学习率调度211

9.4.3 其他几种常见的动态学习调度器214

9.5 本章小结217

9.6 思考题218

第 10 章 模型蒸馏与剪枝219

10.1 知识蒸馏:教师-学生模型219

10.1.1 知识蒸馏核心过程219

10.1.2 教师-学生模型221

10.1.3 蒸馏损失224

10.2 知识蒸馏在文本模型中的应用226

10.2.1 知识蒸馏在文本分类模型中的应用226

10.2.2 模型蒸馏效率分析229

10.2.3 文本情感分析任务中的知识蒸馏效率对比231

10.3 模型剪枝技术234

10.3.1 权重剪枝234

10.3.2 结构化剪枝237

10.3.4 BERT模型的多头注意力剪枝243

10.4 本章小结247

10.5 思考题248

第 11 章 模型训练实战249

11.1 数据预处理与Tokenization细节249

11.1.1 大规模文本数据清洗249

11.1.2 常用分词器的使用252

11.2 大规模预训练模型的设置与启动255

11.3 预训练过程中的监控与中间结果保存258

11.4 训练中断与恢复机制262

11.5 综合案例:IMDB文本分类训练全流程265

11.5.1 数据预处理与Tokenization265

11.5.2 多GPU与分布式训练设置266

11.5.3 训练过程中的监控与中间结果保存266

11.5.4 训练中断与恢复267

11.5.5 测试模型性能268

11.6 本章小结269

11.7 思考题270

第 12 章 模型微调实战271

12.1 微调数据集的选择与准备271

12.1.1 数据集准备与清洗271

12.1.2 数据集分割272

12.1.3 数据增强272

12.2 层级冻结与部分解冻策略274

12.3 模型参数调整与优化技巧276

12.4 微调后的模型评估与推理优化278

12.5 综合微调应用案例280

12.6 本章小结283

12.7 思考题283

本书特色

本文摘自《从零构建大模型:算法、训练与微调》,获出版社和作者授权发布。

相关内容

热门资讯

宁夏电通申请图书自动检索搬运机... 金融界2025年8月18日消息,国家知识产权局信息显示,宁夏电通信息技术有限公司申请一项名为“一种高...
青岛市博物馆青岛市博物馆馆藏瓷... 青岛市博物馆青岛市博物馆馆藏瓷器文物保护修复项目中标公告 一、项目名称: ...
广东空调电扇在欧洲卖爆了:有企... 今年6月以来,欧洲多国持续出现高温天气,多地气温突破40℃,市场对空调电扇的需求呈现爆发式增长。广东...
原创 刘... 这回问题嘛 论魅力吧!是刘备吧,刘邦只要你有贡献有本事就算你是个人渣他都会厚待你。但是你不能无情无义...
原创 晚... 今天向大家介绍:清代洋务派代表人物、“晚清中兴四大名臣”之一张之洞。他政治上主张“中学为体,西学为用...
北京路一带发现汉至清代遗迹57... 27日,记者从小马站-流水井古城遗址考古现场媒体通报会获悉:北京路一带考古新发现汉至清代遗迹572处...
泽连斯基挑衅普京:打了12年还... 在全球政局瞬息万变的今天,泽连斯基无疑成为了国际舞台上备受关注的人物。最近几周,他不断在外交前线展现...
原创 同... 昨天是7月1日建党日,也是中国香港回归的第25周年。 庆祝香港回归25周年的晚会上,众星云集,陆港两...
以色列可能兵变?总参谋长拒绝接... 最近,随着以色列国会批准总理内塔尼亚胡提出的“军事接管加沙城”计划,以色列政坛上演了一场权力斗争的闹...
原创 太... 太平天国前前后后封了两千多个王爷,除了开国六王之外,后面封的王爷精英层面的确实不多,但是太平天国能在...