基于Hadoop的大数据分析和处理
¥45.00定价
作者: 魏祖宽
出版时间:2017年6月
出版社:电子工业出版社
- 电子工业出版社
- 9787121317392
- 1-1
- 98435
- 47182691-7
- 平塑
- 16开
- 2017年6月
- 510
- 268
- 工学
- 计算机科学与技术
- TP274
- 计算机科学与技术
- 研究生、本科
内容简介
本书基于云计算和大数据,介绍大数据处理和分析的技术,分为两部分。第一部分介绍Hadoop基础知识,内容包括:Hadoop的介绍和集群构建、Hadoop的分部式系统架构、MapReduce及其应用、Hadoop的版本特征及进化。第二部分以云计算为主题,详细论述利用Hadoop的大数据分析和处理工具,以及NoSQL技术,内容包括:云计算和Hadoop、Amazon服务中的MapReduce应用、Hadoop应用下的大数据分析、NoSQL、HBase。提供配套电子课件。本书不单纯地讲述理论和概念,而是基于目具体的工具和技术(Hadoop和NoSQL),利用大量实际案例,通过实际的操作和应用来组织大数据处理和分析技术,有利于读者从工程应用的角度进行实际掌握和利用。
目录
目 录第1章 Hadoop的介绍和集群构建 21.1 Hadoop介绍 21.1.1 云计算和Hadoop 21.1.2 Hadoop的历史 41.2 Hadoop构建案例 61.2.1 欧美构建案例 61.2.2 韩国构建案例 71.3 构建Hadoop集群 81.3.1 分布式文件系统 81.3.2 构建Hadoop集群的准备事项 121.3.3 构建伪分布式 171.3.4 分布式集群(Cluster)构建 291.4 Hadoop界面 361.4.1 Hadoop分布式文件系统指令界面 361.5 总结 40第2章 Hadoop分布式处理文件系统 412.1 Hadoop分布式文件系统的设计 422.2 概观Hadoop分布式文件系统的整体构造 432.3 Namenode的角色 442.3.1 元数据管理 442.3.2 元数据的安全保管——Edits和Fslmage文件及Secondary Namenode 492.3.3 Datanode管理 522.4 Datanode的角色 592.4.1 block管理 592.4.2 数据的复制和过程 612.4.3 Datanode添加 632.5 总结 65第3章 大数据和MapReduce 673.1 大数据的概要 683.1.1 大数据的概念 693.1.2 大数据的价值创造 693.2 MapReduce 713.2.1 MapReduce 示例:词频统计(Word Count) 713.2.2 MapReduce开源代码:词频统计(Word Count)——Java基础 753.2.3 MapReduce 开源代码:词频统计(Word Count)——Ruby语言基础 763.3 MapReduce的结构 783.3.1 通过案例了解MapReduce结构 793.3.2 从结构性角度进行的MapReduce最优化方案 813.4 MapReduce的容错性(Fault Tolerance) 853.5 MapReduce的编程 863.5.1 搜索 863.5.2 排序 873.5.3 倒排索引 873.5.4 查找热门词 883.5.5 合算数字 893.6 构建Hadoop:通过MapReduce的案例介绍 903.6.1 单词频率统计MapReduce的编程 913.6.2 MapReduce—用户界面 953.7 总结 99第4章 Hadoop版本特征及进化 1014.1 Hadoop 0.1x版本的API 1034.2 Hadoop附加功能(append) 1074.3 Hadoop安全相关功能 1094.4 Hadoop 2.0.0 alpha 1114.4.1 安装Hadoop 2.0.0 1124.4.2 Hadoop分布式文件系统的更改 1204.4.3 跨时代MapReduce框架:YARN 1284.5 总结 135第5章 云计算和Hadoop 1375.1 大规模Hadoop集群的构建和案例 1385.2 云基础设施服务的登场 1395.2.1 Amazon云服务 1415.3 在Amazon EC2中构建Hadoop集群 1565.3.1 Apache Whirr 1565.3.2 构建Hadoop 集群 1575.4 总结 160第6章 Amazon Elastic MapReduce的倍增利用 1616.1 Amazon EMR的活用 1626.1.1 Amazon EMR的概念 1626.1.2 Amazon EMR的构造 1626.1.3 Amazon EMR的特征 1636.1.4 Amazon EMR的 Job Flow和Step 1646.1.5 使用Amazon EMR前需要了解的事项 1656.1.6 Amazon EMR的实战运用 1706.2 总结 178第7章 Hadoop应用下的大数据分析 1797.1 Hadoop应用下的机器学习(Mahout) 1807.1.1 设置及编译 1817.1.2 K-means 聚类算法 1837.1.3 基于矢量相似度的协同过滤 1887.1.4 小结 1947.2 基于Hadoop的统计分析Rhive(R and Hive) 1957.2.1 R的设置及灵活运用 1957.2.2 Hive的设置及灵活运用 1987.2.3 RHive的设置及灵活运用 2017.2.4 小结 2077.3 利用Hadoop的图形数据处理Giraph 2077.4 总结 216第8章 数据中的DBMS,NoSQL 2178.1 NoSQL出现背景:大数据和Web 2.0 2188.1.1 基于Web 2.0的大数据的登场 2188.1.2 基于大数据的NoSQL的登场 2218.1.3 适合大数据和Web 2.0的数据库NoSQL 2228.2 NoSQL的定义和类别特征 2268.3 NoSQL数据模型概要和分类 2298.4 NoSQL数据模型化 2318.4.1 NoSQL数据模型化基本概念 2328.4.2 一般的NoSQL建模方法 2348.5 主要NoSQL的比较和选择 2398.6 总结 241第9章 Hbase:Hadoop中的NoSQL 2439.1 Hadoop生态界中的HBase 2449.2 HBase介绍 2489.3 HBase数据模型 2509.3.1 map 2509.3.2 持续性(persistent) 2509.3.3 分布性(distributed) 2509.3.4 排序性(sorted) 2509.3.5 多维性(multidimensional) 2519.3.6 稀疏性(sparse) 2549.4 HBase的数据库模式 2559.5 HBase构造 2599.6 HBase的构建及运行 2619.7 HBase的扩展——DuoBase中的HBase 2649.8 HBase的用户定义索引 2669.8.1 HBase用户定义索引—HFile格式的扩展 2679.8.2 HBase用户定义索引—Region的扩展 2679.9 总结 270