注册 登录 进入教材巡展
#

出版时间:2016年12月

出版社:武汉大学出版社

以下为《大数据时代数据仓库技术研究》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 武汉大学出版社
  • 9787307188730
  • 63125
  • 2016年12月
  • 未分类
  • 未分类
  • TP311.13
内容简介

  王会举著的《大数据时代数据仓库技术研究》以大数据为时代背景,系统分析了传统数据仓库技术当前存在的问题及面临的挑战,并全面深入对比了当前主流的面向大数据的数据仓库解决方案;在此基础上,笔者系统阐述了自己的一系列研究工作,包括两个原型系统LinearDB和Pagrol的核心技术——面向大数据的数据存储、可扩展且高效的查询处理模型、面向属性图的多维模型构建以及并行属性图多维立方体计算算法设计实现等.内容涵盖了ROLAP和MOLAP两种主要的OLAP实现方式。


  本书具有取材新颖、系统性强、内容丰富、手段方法先进等特点。反映了当前大规模数据仓库研究的最新动态和成果,具备一定的学术价值和实用价值。本书可供计算机、信息管理与信息系统、数据仓库/商务智能、大数据分析等相关专业的科研、教学及管理人员参考,也可作为大数据处理相关工程技术人员的参考用书。

目录

第1章 绪论


 1.1 研究背景


  1.1.1 大数据时代


  1.1.2 数据管理技术发展历程


 1.2 传统数据仓库技术概述


 1.3 四大推动力的发展变化


  1.3.1 管理对象的变化


  1.3.2 分析需求的变化


  1.3.3 硬件平台的变化


  1.3.4 软件技术的发展


 1.4 传统数据仓库系统在大数据时代面临的挑战


  1.4.1 架构问题


  1.4.2 扩展性问题


  1.4.3 数据组织方式问题


  1.4.4 计算的容错性问题


 1.5 MapReduce技术


 1.6 研究范围、目标、内容及假设


 1.7 研究技术路线


  1.7.1 基于关系数据的大型数据仓库系统研究技术路线


  1.7.2 基于属性图的多维数据分析研究技术路线


 1.8 贡献


 1.9 本书结构


第2章 大规模可扩展的数据仓库架构


 2.1 新型数据仓库系统期望特性


 2.2 相关工作


  2.2.1 并行数据库主导型


  2.2.2 MapReduce主导型


  2.2.3 MapReduce和并行数据库集成型


  2.2.4 最新研究


 2.3 大规模可扩展的新型数据仓库架构


  2.3.1 MapReduce技术分析


  2.3.2 大规模可扩展的数据仓库架构


 2.4 StarBacthLoad星形模型数据并行加载算法


 2.5 本章小结


第3章 可扩展的高效查询处理框架


 3.1 概述


 3.2 相关工作


  3.2.1 处理框架


  3.2.2 预连接


  3.2.3 层次编码


 3.3 TAMP执行模型


  3.3.1 关键思想


  3.3.2 TAMP执行模型


  3.3.3 TAMP在MaoReduce平台上的实现


 3.4 无连接存储模型


  3.4.1 基本概念


  3.4.2 无连接存储模型


  3.4.3 维表优化存储策略


  3.4.4 事实表优化存储策略


 3.5 查询转换


  3.5.1 等值谓词判断转换


  3.5.2 范围谓词判断转换


  3.5.3 列表谓词判断转换


  3.5.4 Group-by转换


  3.5.5 一个完整的转换例子


 3.6 聚集优化


  3.6.1 并行谓词判断


  3.6.2 批量谓词判断算法


  3.6.3 跳跃式扫描


  3.6.4 Scan-index


 3.7 多版本共存的维表更新协议


 3.8 实验


  3.8.1 扩展性分析


  3.8.2 性能分析


  3.8.3 跳跃式扫描性能分析


  3.8.4 压缩性能分析


  3.8.5 数据加载时间分析


  3.8.6 存储空间分析


  3.8.7 批量谓词判断分析


  3.8.8 多版本共存的维表更新协议分析


 3.9 TAMP执行模型的其他应用领域


 3.10 本章小结


第4章 高效的智能型HC存储模型


 4.1 概述


 4.2 Hadoop分布式文件系统概述


 4.3 相关工作


 4.4 智能型混合列式存储模型的设计


  4.4.1 HC存储模型


  4.4.2 纯列式存储模型在HDFS上的实现


  4.4.3 PAX存储模型


 4.5 代价模型


  4.5.1 概述


  4.5.2 全局代价估计


  4.5.3 局部代价估计


 4.6 实验


  4.6.1 数据加载和存储空间


  4.6.2 聚集任务


  4.6.3 连接任务


  4.6.4 容错


 4.7 本章小结


第5章 面向大规模属性图的超图立方体


 5.1 概述


 5.2 相关研究


 5.3 超图立方体模型


 5.4 基于MapReduce的超图立方体基本计算模型


 5.5 MRGmph-cubing:批量超图立方体计算算法


  5.5.1 自包含式连接


  5.5.2 单位立方体分批技术


  5.5.3 批处理


  5.5.4 基于代价的执行计划优化


 5.6 实验


  5.6.1 有效性


  5.6.2 自包含式连接优化


  5.6.3 单位立方体分批次优化


  5.6.4 批次执行计划优化


  5.6.5 可扩展性


 5.7 本章小结


第6章 结论与展望


 6.1 结论


 6.2 展望


  6.2.1 TAMP并发查询的扫描共享


  6.2.2 新的TAMP代价模型与查询优化


  6.2.3 异构冗余块共存的扩展


  6.2.4 HC存储备份块恢复


  6.2.5 面向高维数据的超图数据立方体计算


  6.2.6 增量式超图数据立方体计算


参考文献