更新时间:2020-10-13 18:12:24
封面
版权信息
内容提要
引言
第1章 人工智能云平台简介
1.1 人工智能发展
1.2 人工智能云平台
1.3 云计算与人工智能云平台
1.4 智能框架与人工智能云平台
1.5 人工智能云平台的主要环节与基本组成
1.6 小结
参考文献
第2章 人工智能云平台案例概览
2.1 谷歌AI云平台
2.2 微软Azure机器学习平台
2.3 亚马逊 SageMaker平台
2.4 企业自有智能平台
2.5 小结
第3章 共享存储与数据管理
3.1 基本概念
3.2 古老而有活力的NFS
3.3 活跃于超算领域的Lustre
3.4 数据集管理
3.5 小结
第4章 资源管理与调度
4.1 概述
4.2 Docker简介
4.3 任务调度系统架构简介
4.4 基于YARN的调度系统实现
4.5 基于Kubernetes的调度系统实现
4.6 小结
第5章 运维监控系统
5.1 Prometheus概述
5.2 数据采集之Exporter
5.3 数据格式与编程——Prometheus查询语言
5.4 数据可视化之Grafana
5.5 告警系统之AlertManager
5.6 小结
第6章 机器学习框架
6.1 SciPy
6.2 scikit-learn
6.3 Pandas
6.4 Spark MLlib和Spark ML
6.5 XGBoost
6.6 TensorFlow
6.7 PyTorch
6.8 其他
6.9 小结
第7章 分布式并行训练
7.1 并行训练概述
7.2 并行编程工具
7.3 深度学习中的并行
7.4 小结
第8章 自动机器学习
8.1 AutoML概述
8.2 特征工程
8.3 模型选择
8.4 优化算法选择
8.5 神经架构搜索
8.6 搜索优化和评估
8.7 小结
第9章 模型构建与发布
9.1 模型构建流程
9.2 基于TensorFlow构建方案
9.3 基于Seldon Core的模型部署
9.4 小结
第10章 可视化开发环境
10.1 Jupyter Notebook
10.2 PyCharm
10.3 Visual Studio Code
10.4 code-server
10.5 TensorBoard
10.6 小结
第11章 DIGITS实践
11.1 DIGITS配置
11.2 DIGITS示例
11.3 DIGITS源码解析
11.4 小结
第12章 Kubeflow实践
12.1 什么是Kubeflow?
12.2 Kubeflow部署
12.3 JupyterHub
12.4 Kubeflow-operator
12.5 Katib
12.6 小结
第13章 OpenPAI实践
13.1 直观感受
13.2 平台架构
13.3 集群运维