大数据基础及应用 / 大数据技术与应用专业规划教材
¥39.50定价
作者: 吕云翔、钟巧灵等
出版时间:2017年3月
出版社:清华大学出版社
- 清华大学出版社
- 9787302466918
- 1-1
- 184955
- 16开
- 2017年3月
- 工学
- 计算机科学与技术
- O212
- 计算机
- 本专科、高职高专
内容简介
本书从大数据的基本概念开始,由浅入深地领会大数据的精髓。本书除了讲述必要的大数据理论之外,还通过大数据实践来讲述大数据技术的应用,包括如何运用阿里云大数据计算平台分析和解决实际问题,很好地体现了大数据理论与实践的有机结合。本书分为三大部分,分别是大数据概述及基础、大数据处理和大数据分析与应用。其中,大数据概述及基础部分重点介绍数据组织、重要数据结构、大数据协同技术以及大数据存储技术等内容; 大数据处理部分重点介绍大数据处理框架,包括大数据批处理和流处理框架等内容; 大数据分析与应用部分重点介绍数据分析技术和机器学习的相关内容,以及如何利用阿里云的数加平台进行基本的大数据开发工作。本书既可以作为高等院校计算机科学、软件工程及相关专业“大数据”课程的教材,也可以供系统分析师、系统架构师、软件开发工程师和项目经理,以及其他准备或正在学习大数据技术的读者(包括参加计算机等级考试或相关专业自学考试的人员)阅读和参考。
目录
目录
第一部分大数据概述及基础
第1章大数据概念和发展背景
1.1什么是大数据
1.2大数据的特点
1.3大数据的发展
1.4大数据的应用
1.5习题
第2章大数据系统架构概述
2.1总体架构概述
2.1.1总体架构设计原则
2.1.2总体架构参考模型
2.2运行架构概述
2.2.1物理架构
2.2.2集成架构
2.2.3安全架构
2.3阿里云飞天系统体系架构
2.3.1阿里云飞天整体架构
2.3.2阿里云飞天平台内核
2.3.3阿里云飞天开放服务
2.3.4阿里云飞天的特色
2.4主流大数据系统厂商
2.4.1阿里云数加平台
2.4.2Cloudera
2.4.3Hortonworks
2.4.4Amazon
2.4.5Google
2.4.6微软
2.5习题
第3章分布式通信与协同
3.1数据编码传输
3.1.1数据编码概述
3.1.2LZSS算法
3.1.3Snappy压缩库
3.2分布式通信系统
3.2.1远程过程调用
3.2.2消息队列
3.2.3应用层多播通信
3.2.4阿里云夸父RPC系统
3.2.5Hadoop IPC的应用
3.3分布式协同系统
3.3.1Chubby锁服务
3.3.2ZooKeeper
3.3.3阿里云女娲协同系统
3.3.4ZooKeeper在HDFS高可用方案中的使用
3.4习题
第4章大数据存储
4.1大数据存储技术的发展
4.2海量数据存储的关键技术
4.2.1数据分片与路由
4.2.2数据复制与一致性
4.3重要数据结构和算法
4.3.1Bloom Filter
4.3.2LSM Tree
4.3.3Merkle Tree
4.3.4Cuckoo Hash
4.4分布式文件系统
4.4.1文件存储格式
4.4.2GFS
4.4.3HDFS
4.4.4阿里云盘古
4.5分布式数据库NoSQL
4.5.1NoSQL数据库概述
4.5.2KV数据库
4.5.3列式数据库
4.5.4图数据库
4.5.5文档数据库
4.6阿里云数据库
4.6.1云数据库Redis
4.6.2云数据库RDS
4.6.3云数据库Memcache
4.7大数据存储技术的趋势
4.8习题
第二部分大数据处理
第5章分布式处理
5.1CPU多核和POSIX Thread
5.2MPI并行计算框架
5.3Hadoop MapReduce
5.4Spark
5.5数据处理技术的发展
5.6习题
第6章Hadoop MapReduce解析
6.1Hadoop MapReduce架构
6.2Hadoop MapReduce与高效能计算、网格计算的区别
6.3MapReduce工作机制
6.3.1Map
6.3.2Reduce
6.3.3Combine
6.3.4Shuffle
6.3.5Speculative Task
6.3.6任务容错
6.4应用案例
6.4.1WordCount
6.4.2WordMean
6.4.3Grep
6.5MapReduce的缺陷与不足
6.6习题
第7章Spark解析
7.1Spark RDD
7.2Spark与MapReduce的对比
7.3Spark的工作机制
7.3.1DAG工作图
7.3.2Partition
7.3.3Lineage容错方法
7.3.4内存管理
7.3.5数据持久化
7.4数据的读取
7.4.1HDFS
7.4.2Amazon S3
7.4.3HBase
7.5应用案例
7.5.1日志挖掘
7.5.2判别西瓜好坏
7.6Spark的发展趋势
7.7习题
第8章流计算
8.1流计算概述
8.2流计算与批处理系统的对比
8.3Storm流计算系统
8.4Samza流计算系统
8.5阿里云流计算
8.6集群日志文件的实时分析
8.7流计算的发展趋势
8.8习题
第9章图计算
9.1图计算概述
9.2图计算与流计算、批处理的对比
9.3Spark GraphX
9.4Pregel
9.5航班机场状态分析
9.6图计算的发展趋势
9.7习题
第10章阿里云大数据计算服务平台
10.1MaxCompute概述
10.2MR计算
10.3SQL计算
10.4Graph计算
10.5习题
第11章集群资源管理与调度
11.1集群资源统一管理系统
11.1.1集群资源管理概述
11.1.2Apache YARN
11.1.3Apache Mesos
11.1.4Google Omega
11.2资源管理模型
11.2.1基于slot的资源表示模型
11.2.2基于最大最小公平原则的资源分配模型
11.3资源调度策略
11.3.1调度策略概述
11.3.2Capacity Scheduler调度
11.3.3Fair Scheduler调度
11.4在YARN上运行计算框架
11.4.1MapReduce on YARN
11.4.2Spark on YARN
11.4.3YARN程序设计
11.5阿里云伏羲调度系统
11.5.1伏羲调度系统架构
11.5.25K挑战
11.5.3伏羲优化实践
11.6习题
第三部分大数据分析与应用
第12章数据分析
12.1数据操作与绘图
12.1.1数据结构
12.1.2绘图功能
12.2初级数据分析
12.2.1描述性统计分析
12.2.2回归诊断
12.3交互式数据分析
12.3.1交互式数据分析的特征
12.3.2交互式数据处理的典型应用
12.3.3典型的处理系统
12.4数据仓库与分析
12.4.1数据仓库的基本架构
12.4.2数据仓库的实现步骤
12.4.3分布式数据仓库Hive
12.4.4数据仓库之SQL分析
12.4.5阿里云MaxCompute数据仓库案例
12.5习题
第13章数据挖掘与机器学习技术
13.1相关理论基础知识
13.1.1数据挖掘与机器学习简介
13.1.2关联分析
13.1.3分类与回归
13.1.4聚类分析
13.1.5离群点检测
13.1.6复杂数据类型的挖掘
13.2应用实践
13.2.1广告点击率预测
13.2.2并行随机梯度下降
13.2.3自然语言处理: 文档相似性的计算
13.2.4阿里云PAI与ET
13.3深度学习
13.3.1深度学习简介
13.3.2DistBelief
13.3.3TensorFlow
13.4数据挖掘与机器学习的发展趋势
13.5习题
第14章大数据实践:
基于数加平台的推荐系统
14.1数据集简介
14.2数据探索
14.3方案设计
14.4训练集构造
14.4.1MapReduce环境配置
14.4.2MapReduce代码编写
14.4.3特征提取与标签提取
14.4.4训练集采样
14.4.5缺失值填充
14.5模型训练与预测
14.6模型预测的准确性评测
14.7特征重要性的评估
14.8总结
参考文献
第一部分大数据概述及基础
第1章大数据概念和发展背景
1.1什么是大数据
1.2大数据的特点
1.3大数据的发展
1.4大数据的应用
1.5习题
第2章大数据系统架构概述
2.1总体架构概述
2.1.1总体架构设计原则
2.1.2总体架构参考模型
2.2运行架构概述
2.2.1物理架构
2.2.2集成架构
2.2.3安全架构
2.3阿里云飞天系统体系架构
2.3.1阿里云飞天整体架构
2.3.2阿里云飞天平台内核
2.3.3阿里云飞天开放服务
2.3.4阿里云飞天的特色
2.4主流大数据系统厂商
2.4.1阿里云数加平台
2.4.2Cloudera
2.4.3Hortonworks
2.4.4Amazon
2.4.5Google
2.4.6微软
2.5习题
第3章分布式通信与协同
3.1数据编码传输
3.1.1数据编码概述
3.1.2LZSS算法
3.1.3Snappy压缩库
3.2分布式通信系统
3.2.1远程过程调用
3.2.2消息队列
3.2.3应用层多播通信
3.2.4阿里云夸父RPC系统
3.2.5Hadoop IPC的应用
3.3分布式协同系统
3.3.1Chubby锁服务
3.3.2ZooKeeper
3.3.3阿里云女娲协同系统
3.3.4ZooKeeper在HDFS高可用方案中的使用
3.4习题
第4章大数据存储
4.1大数据存储技术的发展
4.2海量数据存储的关键技术
4.2.1数据分片与路由
4.2.2数据复制与一致性
4.3重要数据结构和算法
4.3.1Bloom Filter
4.3.2LSM Tree
4.3.3Merkle Tree
4.3.4Cuckoo Hash
4.4分布式文件系统
4.4.1文件存储格式
4.4.2GFS
4.4.3HDFS
4.4.4阿里云盘古
4.5分布式数据库NoSQL
4.5.1NoSQL数据库概述
4.5.2KV数据库
4.5.3列式数据库
4.5.4图数据库
4.5.5文档数据库
4.6阿里云数据库
4.6.1云数据库Redis
4.6.2云数据库RDS
4.6.3云数据库Memcache
4.7大数据存储技术的趋势
4.8习题
第二部分大数据处理
第5章分布式处理
5.1CPU多核和POSIX Thread
5.2MPI并行计算框架
5.3Hadoop MapReduce
5.4Spark
5.5数据处理技术的发展
5.6习题
第6章Hadoop MapReduce解析
6.1Hadoop MapReduce架构
6.2Hadoop MapReduce与高效能计算、网格计算的区别
6.3MapReduce工作机制
6.3.1Map
6.3.2Reduce
6.3.3Combine
6.3.4Shuffle
6.3.5Speculative Task
6.3.6任务容错
6.4应用案例
6.4.1WordCount
6.4.2WordMean
6.4.3Grep
6.5MapReduce的缺陷与不足
6.6习题
第7章Spark解析
7.1Spark RDD
7.2Spark与MapReduce的对比
7.3Spark的工作机制
7.3.1DAG工作图
7.3.2Partition
7.3.3Lineage容错方法
7.3.4内存管理
7.3.5数据持久化
7.4数据的读取
7.4.1HDFS
7.4.2Amazon S3
7.4.3HBase
7.5应用案例
7.5.1日志挖掘
7.5.2判别西瓜好坏
7.6Spark的发展趋势
7.7习题
第8章流计算
8.1流计算概述
8.2流计算与批处理系统的对比
8.3Storm流计算系统
8.4Samza流计算系统
8.5阿里云流计算
8.6集群日志文件的实时分析
8.7流计算的发展趋势
8.8习题
第9章图计算
9.1图计算概述
9.2图计算与流计算、批处理的对比
9.3Spark GraphX
9.4Pregel
9.5航班机场状态分析
9.6图计算的发展趋势
9.7习题
第10章阿里云大数据计算服务平台
10.1MaxCompute概述
10.2MR计算
10.3SQL计算
10.4Graph计算
10.5习题
第11章集群资源管理与调度
11.1集群资源统一管理系统
11.1.1集群资源管理概述
11.1.2Apache YARN
11.1.3Apache Mesos
11.1.4Google Omega
11.2资源管理模型
11.2.1基于slot的资源表示模型
11.2.2基于最大最小公平原则的资源分配模型
11.3资源调度策略
11.3.1调度策略概述
11.3.2Capacity Scheduler调度
11.3.3Fair Scheduler调度
11.4在YARN上运行计算框架
11.4.1MapReduce on YARN
11.4.2Spark on YARN
11.4.3YARN程序设计
11.5阿里云伏羲调度系统
11.5.1伏羲调度系统架构
11.5.25K挑战
11.5.3伏羲优化实践
11.6习题
第三部分大数据分析与应用
第12章数据分析
12.1数据操作与绘图
12.1.1数据结构
12.1.2绘图功能
12.2初级数据分析
12.2.1描述性统计分析
12.2.2回归诊断
12.3交互式数据分析
12.3.1交互式数据分析的特征
12.3.2交互式数据处理的典型应用
12.3.3典型的处理系统
12.4数据仓库与分析
12.4.1数据仓库的基本架构
12.4.2数据仓库的实现步骤
12.4.3分布式数据仓库Hive
12.4.4数据仓库之SQL分析
12.4.5阿里云MaxCompute数据仓库案例
12.5习题
第13章数据挖掘与机器学习技术
13.1相关理论基础知识
13.1.1数据挖掘与机器学习简介
13.1.2关联分析
13.1.3分类与回归
13.1.4聚类分析
13.1.5离群点检测
13.1.6复杂数据类型的挖掘
13.2应用实践
13.2.1广告点击率预测
13.2.2并行随机梯度下降
13.2.3自然语言处理: 文档相似性的计算
13.2.4阿里云PAI与ET
13.3深度学习
13.3.1深度学习简介
13.3.2DistBelief
13.3.3TensorFlow
13.4数据挖掘与机器学习的发展趋势
13.5习题
第14章大数据实践:
基于数加平台的推荐系统
14.1数据集简介
14.2数据探索
14.3方案设计
14.4训练集构造
14.4.1MapReduce环境配置
14.4.2MapReduce代码编写
14.4.3特征提取与标签提取
14.4.4训练集采样
14.4.5缺失值填充
14.5模型训练与预测
14.6模型预测的准确性评测
14.7特征重要性的评估
14.8总结
参考文献