更新时间:2025-04-17 18:47:23
封面
版权信息
版权
内容提要
前言
写作背景
写作目的
本书结构
读者对象
资源与支持
配套资源
提交勘误
与我们联系
关于异步社区和异步图书
第1章 大模型简介
1.1 大模型初探
1.1.1 OpenAI大模型ChatGPT
1.1.2 国内大模型——360智脑
1.2 大模型的概念
1.3 百花齐放——大模型发展现状
1.4 压缩即智能——为什么ChatGPT拥有智能
1.4.1 直观理解通用人工智能
1.4.2 如何实现无损压缩
1.4.3 GPT是对数据的无损压缩
1.5 小结
1.6 参考文献
第2章 大模型理论基础
2.1 什么是语言模型
2.2 传统语言模型
2.2.1 循环神经网络(RNN)
2.2.2 长短期记忆(LSTM)网络
2.2.3 门控循环单元(GRU)
2.3 大模型基础结构——Transformer
2.3.1 Transformer的模型结构
2.3.2 Transformer输入表示
2.3.3 多头注意力
2.3.4 编码器结构
2.3.5 解码器结构
2.3.6 Softmax输出
2.4 Transformer应用实践——机器翻译
2.4.1 葡萄牙文翻译为英文
2.4.2 英文翻译为中文
2.5 小结
2.6 参考文献
第3章 OpenAI GPT系列大模型
3.1 GPT发展历史——从GPT-1到GPT-4
3.2 GPT-1技术原理
3.2.1 GPT-1的模型结构
3.2.2 GPT-1应用实践——中文文本分类
3.3 GPT-2技术原理
3.3.1 GPT-2的模型结构
3.3.2 GPT-2应用实践——文本分类和文本生成
3.4 GPT-3技术原理
3.4.1 GPT-3的模型结构
3.4.2 GPT-3多项任务评估
3.5 横空出世——ChatGPT
3.5.1 真正的通用人工智能——ChatGPT
3.5.2 有监督微调
3.5.3 训练奖励模型
3.5.4 使用强化学习微调预训练模型
3.5.5 ChatGPT应用
3.6 GPT-4
3.6.1 GPT-4的涌现能力
3.6.2 大模型预测扩展
3.6.3 GPT-4性能分析
3.6.4 GPT-4应用
3.7 小结
3.8 参考文献
第4章 清华大学通用预训练模型——GLM
4.1 GLM简介
4.2 GLM技术原理
4.2.1 预训练目标
4.2.2 GLM的模型结构
4.2.3 微调GLM
4.2.4 效果评估
4.3 ChatGLM-6B全参数微调实践
4.3.1 环境搭建
4.3.2 全参数微调
4.3.3 效果评估
4.4 GLM-10B全参数微调实践
4.4.1 代码结构
4.4.2 全参数微调
4.4.3 效果评估
4.5 小结
4.6 参考文献
第5章 Meta开源大模型——Llama
5.1 Llama简介
5.2 Llama技术原理
5.2.1 Llama预训练数据
5.2.2 Llama的模型结构
5.2.3 Llama优化器
5.3 Llama改进版——Llama 2
5.3.1 Llama 2简介
5.3.2 Llama 2预训练
5.3.3 Llama 2有监督微调
5.3.4 基于人类反馈的强化学习
5.4 Llama 2应用实践
5.4.1 Hugging Face玩转Llama 2
5.4.2 微调Llama 2
5.5 小结