注册 登录 进入教材巡展
#

出版时间:2017年7月

出版社:清华大学出版社

以下为《大数据挖掘及应用》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 清华大学出版社
  • 9787302469278
  • 1-1
  • 187666
  • 16开
  • 2017年7月
  • 工学
  • 计算机科学与技术
  • O212
  • 计算机
  • 本专科、高职高专
内容简介
本书围绕大数据背景下的数据挖掘及应用问题,从大数据挖掘的基本概念入手,由浅入深、循序渐进地介绍了大数据挖掘分析过程中的数据准备和预处理方法、数据可视化技术、数据挖掘理论和经典算法、常用大数据分析计算平台的编程模型、并行化程序设计技术、统计分析R语言基础等内容。其中数据挖掘理论和经典算法不仅覆盖了传统的关联分析、分类和聚类,还包括深度学习理论等数据挖掘研究和发展的潮流主题。每一章内容都尽量从不同角度进行深入浅出的剖析,还配以丰富的习题和参考文献,对于读者掌握大数据挖掘及应用领域的基本知识和进一步研究都具有参考价值。本书可以作为高校本科相关专业数据分析类课程教材和面向各专业的数据科学通识教材,也可供广大IT从业人员参考。
目录
 
目录
 
第1章大数据挖掘及应用概论1
1.1大数据智能分析处理的普及和应用1
1.1.1云计算1
1.1.2大数据3
1.1.3云计算与大数据的智能应用4
1.2大数据的发展及挑战10
1.2.1大数据的发展催生三元空间世界10
1.2.2大数据智能分析处理面临的挑战12
1.3数据挖掘概述14
1.3.1数据挖掘的概念14
1.3.2数据挖掘的功能15
1.3.3数据挖掘运用的技术16
1.3.4大数据挖掘与传统数据挖掘16
1.4大数据挖掘的计算框架17
1.4.1大数据挖掘计算框架17
1.4.2大数据挖掘处理基本流程21
1.5大数据时代“互联网 ”的未来: 智能互联23
1.6本书架构26
1.7小结27
1.8习题27
1.9参考文献28第2章数据认知与预处理29
2.1数据分析的定义和流程30
2.1.1如何理解和描述数据分析的问题30
2.1.2数据获取与准备31
2.1.3数据质量评估32
2.2数据类型33
2.2.1属性的定义33
2.2.2标称属性33
2.2.3二元属性34
2.2.4序值属性34
2.2.5数值属性34
2.3数据的统计描述方法35
2.3.1数据的中心趋势度量35
2.3.2数据的离散趋势度量37
2.4数据对象关系的计算方法39
2.4.1数据相似性计算方法40
2.4.2数据相关性计算方法46
2.5数据准备48
2.5.1数据清洗与集成48
2.5.2数据归约52
2.5.3数据转换58
2.6数据统计分析常用工具介绍61
2.6.1Excel统计分析工具61
2.6.2SPSS统计分析工具63
2.6.3SAS统计分析工具64
2.6.4R语言统计分析工具66
2.7SPSS案例分析68
2.7.1日志文件数据准备68
2.7.2数据录入与编辑68
2.7.3数据清洗与转换70
2.7.4数据方差分析72
2.7.5数据相关性分析74
2.7.6数据间距离分析74
2.8小结77
2.9习题78
2.10参考文献79第3章数据可视化80
3.1可视化简介80
3.2高维数据可视化81
3.2.1降维方法82
3.2.2非降维方法84
3.3网络数据可视化90
3.3.1节点链接法90
3.3.2邻接矩阵布局96
3.3.3混合布局98
3.4可视化案例分析99
3.4.1案例一: China VIS 2015竞赛题99
3.4.2案例二: VAST Challenge 2016竞赛题107
3.5小结120
3.6习题121
3.7参考文献122第4章数据关联分析123
4.1数据关联分析简介123
4.2基本概念125
4.2.1频繁项集和关联规则126
4.2.2闭项集和极大频繁项集128
4.2.3稀有模式和负模式129
4.3Apriori算法130
4.3.1Apriori算法的核心思想131
4.3.2Apriori算法描述132
4.3.3改进的Apriori算法133
4.4FPGrowth算法137
4.4.1FPGrowth算法的核心思想138
4.4.2FPGrowth算法描述139
4.5面向大数据的有效数据结构142
4.6关联规则有效性的评估方法143
4.6.1关联规则兴趣度评估144
4.6.2关联规则相关度评估144
4.6.3其他相关评估度量方法146
4.7多维关联规则挖掘148
4.8多层关联规则挖掘151
4.9基于Python平台的案例分析156
4.10小结158
4.11习题159
4.12参考文献161第5章数据分类分析163
5.1基本概念和术语163
5.1.1数据分类163
5.1.2解决分类问题的一般方法165
5.2决策树算法166
5.2.1决策树归纳166
5.2.2决策树构建167
5.2.3属性测试条件的表示方法169
5.2.4选择最佳划分的度量171
5.2.5决策树归纳算法175
5.2.6树剪枝176
5.2.7决策树归纳的特点178
5.3贝叶斯分类算法180
5.3.1贝叶斯定理181
5.3.2朴素贝叶斯分类182
5.3.3贝叶斯信念网络184
5.4支持向量机算法185
5.4.1数据线性可分的情况185
5.4.2数据非线性可分的情况189
5.5粗糙集分类算法190
5.6分类器评估方法191
5.6.1评估分类器性能的度量192
5.6.2保持方法和随机二次抽样195
5.6.3交叉验证195
5.6.4自助法195
5.6.5使用统计显著性检验选择模型196
5.7组合分类器技术197
5.7.1组合分类方法简介198
5.7.2装袋198
5.7.3提升和AdaBoost199
5.7.4随机森林200
5.7.5提高类不平衡数据的分类准确率200
5.8惰性学习法(k最近邻分类)201
5.9基于Python平台的案例分析203
5.9.1数据集准备203
5.9.2算法描述204
5.9.3算法测试206
5.10小结209
5.11习题209
5.12参考文献211第6章数据聚类分析214
6.1基本概念和术语214
6.1.1聚类分析简介215
6.1.2对聚类的基本要求215
6.1.3聚类分析方法216
6.2基于划分的方法218
6.2.1kmeans算法218
6.2.2k中心点算法221
6.3基于层次的方法224
6.3.1凝聚的与分裂的层次聚类224
6.3.2簇间距离度量225
6.4基于密度的方法229
6.4.1传统的密度: 基于中心的方法230
6.4.2DBSCAN算法231
6.5基于概率模型的聚类方法233
6.5.1模糊聚类233
6.5.2基于概率模型的聚类235
6.5.3期望最大化算法237
6.6聚类评估239
6.6.1聚类趋势的估计239
6.6.2聚类簇数的确定241
6.6.3聚类质量的测定242
6.7基于Python平台的案例分析245
6.7.1数据准备245
6.7.2聚类分析结果探讨246
6.8小结248
6.9习题249
6.10参考文献253第7章深度学习255
7.1引言255
7.1.1发展背景255
7.1.2基本概念256
7.2深信网257
7.2.1玻尔兹曼机258
7.2.2受限玻尔兹曼机258
7.2.3深信网260
7.3深玻尔兹曼机264
7.4栈式自动编码器266
7.4.1自动编码器266
7.4.2栈式自动编码器267
7.5卷积神经网络269
7.5.1卷积269
7.5.2池化270
7.5.3CNN训练过程272
7.5.4CNN网络构造的案例分析276
7.6深度学习开源框架278
7.6.1开源框架简介278
7.6.2开源案例分析278
7.7深度学习应用技巧284
7.8小结285
7.9习题286
7.10参考文献286第8章R语言288
8.1下载和安装R语言288
8.1.1下载R语言288
8.1.2安装R语言288
8.2使用R语言292
8.2.1运行R语言292
8.2.2R语言常用操作294
8.2.3包的使用298
8.3R语言的数据结构300
8.3.1向量300
8.3.2矩阵301
8.3.3数组302
8.3.4因子303
8.3.5列表304
8.3.6数据框305
8.4R语言的编程结构306
8.4.1条件语句306
8.4.2循环语句308
8.5R语言的数据挖掘和图形绘制包310
8.6实际案例312
8.7小结314
8.8习题314
8.9参考文献315第9章Hadoop大数据分布式处理生态系统316
9.1Hadoop集群基础316
9.1.1Hadoop安装317
9.1.2Hadoop配置319
9.2HDFS基础操作324
9.3MapReduce并行计算框架331
9.3.1MapReduce程序实例: WordCount332
9.3.2Hadoop Streaming333
9.4基于Storm的分布式实时计算334
9.4.1Storm简介334
9.4.2Storm基本概念334
9.4.3Storm编程338
9.5基于Spark Streaming的分布式实时计算346
9.5.1Spark内存计算框架346
9.5.2Spark Streaming简介347
9.5.3Spark Streaming编程349
9.6小结352
9.7参考文献353第10章大数据分析算法的并行化355
10.1并行算法设计基础355
10.1.1并行算法概念355
10.1.2并行计算模型356
10.1.3并行算法设计的策略和技术360
10.2典型数据挖掘算法并行化案例362
10.2.1MR kmeans算法分析362
10.2.2Mahout聚类算法案例364
10.2.3Spark MLlib聚类算法案例369
10.3大数据分析应用案例371
10.3.1搜索引擎日志数据分析371
10.3.2出租车轨迹数据分析374
10.3.3新闻组数据分析377
10.4小结383
10.5习题383
10.6参考文献384第11章大数据挖掘及应用展望385
11.1大数据时代的发展回顾与展望385
11.1.1大数据发展回顾385
11.1.2从“小”到“大”的数据分析处理387
11.1.3大数据的智能分析与挖掘389
11.2大数据中的新数据类型391
11.3大数据挖掘的新方法394
11.3.1深度学习394
11.3.2知识计算395
11.3.3社会计算396
11.3.4特异群组挖掘397
11.4未来发展趋势398
11.5小结399
11.6参考文献399