大数据挖掘与应用 / 大数据技术与应用专业规划教材
¥49.50定价
作者: 王振武
出版时间:2017年5月
出版社:清华大学出版社
- 清华大学出版社
- 9787302460435
- 1-1
- 116701
- 16开
- 2017年5月
- 工学
- 计算机科学与技术
- O212
- 计算机
- 本专科、高职高专
内容简介
本书对大数据挖掘与应用的基本算法进行了系统的介绍,每种算法不仅包括对算法基本原理的介绍,而且配有大量的例题以及基于阿里云数加平台的演示,这种理论与实践相结合的方式极大地方便了读者对抽象的数据挖掘算法的理解和掌握。
本书共17章,内容覆盖了数据预处理、关联规则挖掘算法、分类算法和聚类算法及常见的数据挖掘应用,具体章节包括大数据简介、数据预处理技术、关联规则挖掘、逻辑回归方法、KNN算法、朴素贝叶斯分类算法、*森林分类算法、支持向量机、人工神经网络算法、决策树分类算法、Kmeans聚类算法、K中心点聚类算法、自组织神经网络聚类算法、DBSCAN聚类算法以及社交网络分析方法及应用、文本分析方法及应用和推荐系统方法及应用等内容。
本书可作为高等院校数据挖掘课程的教材,也可作为从事数据挖掘工作及其他相关工程技术工作的人员的参考书。
本书共17章,内容覆盖了数据预处理、关联规则挖掘算法、分类算法和聚类算法及常见的数据挖掘应用,具体章节包括大数据简介、数据预处理技术、关联规则挖掘、逻辑回归方法、KNN算法、朴素贝叶斯分类算法、*森林分类算法、支持向量机、人工神经网络算法、决策树分类算法、Kmeans聚类算法、K中心点聚类算法、自组织神经网络聚类算法、DBSCAN聚类算法以及社交网络分析方法及应用、文本分析方法及应用和推荐系统方法及应用等内容。
本书可作为高等院校数据挖掘课程的教材,也可作为从事数据挖掘工作及其他相关工程技术工作的人员的参考书。
目录
目录
第一篇基础篇
第1章大数据简介
1.1大数据
1.1.1大数据的定义
1.1.2大数据的特点
1.1.3大数据处理的挑战
1.2大数据挖掘
1.2.1大数据挖掘的定义
1.2.2大数据挖掘的特点
1.3大数据挖掘的相关方法
1.3.1数据预处理技术
1.3.2关联规则挖掘
1.3.3分类
1.3.4聚类
1.3.5孤立点挖掘
1.3.6演变分析
1.3.7特异群组分析
1.4大数据挖掘类型
1.4.1Web数据挖掘
1.4.2空间数据挖掘
1.4.3流数据挖掘
1.5大数据挖掘的常见应用
1.5.1社交网络分析
1.5.2文本分析
1.5.3推荐系统
1.6常用的大数据统计分析方法
1.6.1百分位
1.6.2皮尔森相关系数
1.6.3直方图
1.6.4T检验
1.6.5卡方检验
1.7常用的大数据挖掘评估方法
1.8大数据平台相关技术
1.8.1分布式存储技术
1.8.2分布式任务调度技术
1.8.3并行计算技术
1.8.4其他技术
1.9大数据平台实例——阿里云数加平台
1.9.1数加平台简介
1.9.2数加平台产品简介
1.9.3数加平台优势特色
1.9.4机器学习平台简介
1.9.5机器学习平台功能
1.9.6机器学习平台操作流程
1.10小结
思考题
第二篇技术篇
第2章数据预处理技术
2.1数据预处理的目的
2.2数据采样
2.2.1加权采样
2.2.2随机采样
2.2.3分层采样
2.3数据清理
2.3.1填充缺失值
2.3.2光滑噪声数据
2.3.3数据清理过程
2.4数据集成
2.4.1数据集成简介
2.4.2常用数据集成方法
2.5数据变换
2.5.1数据变换简介
2.5.2数据规范化
2.6数据归约
2.6.1数据立方体聚集
2.6.2维归约
2.6.3数据压缩
2.6.4数值归约
2.6.5数据离散化与概念分层
2.7特征选择
2.7.1特征选择简介
2.7.2Relief算法
2.7.3Fisher判别法
2.7.4基于GBDT的过滤式特征选择
2.8特征提取
2.8.1特征提取简介
2.8.2DKLT特征提取方法
2.8.3主成分分析法
2.9基于阿里云数加平台的数据采样与特征选择实例
2.10小结
思考题
第3章关联规则挖掘
3.1基本概念
3.2关联规则挖掘算法——Apriori算法原理
3.2.1Apriori算法原理解析
3.2.2Apriori算法应用举例
3.3Apriori算法源代码结果分析
3.4Apriori算法的特点及应用
3.4.1Apriori算法的特点
3.4.2Apriori算法的应用
3.5小结
思考题
第4章逻辑回归方法
4.1基本概念
4.1.1回归概述
4.1.2线性回归简介
4.2逻辑回归
4.2.1二分类逻辑回归
4.2.2多分类逻辑回归
4.2.3逻辑回归应用举例
4.2.4逻辑回归方法的特点
4.2.5逻辑回归方法的应用
4.3逻辑回归源代码结果分析
4.3.1线性回归
4.3.2多分类逻辑回归
4.4基于阿里云数加平台的逻辑回归实例
4.4.1二分类逻辑回归应用实例
4.4.2多分类逻辑回归应用实例
4.5小结
思考题
第5章KNN算法
5.1KNN算法简介
5.1.1KNN算法原理
5.1.2KNN算法应用举例
5.2KNN算法的特点及改进
5.2.1KNN算法的特点
5.2.2KNN算法的改进策略
5.3KNN源代码结果分析
5.4基于阿里云数加平台的KNN算法应用实例
5.5小结
思考题
第6章朴素贝叶斯分类算法
6.1基本概念
6.1.1主观概率
6.1.2贝叶斯定理
6.1.3朴素贝叶斯分类模型
6.1.4朴素贝叶斯分类器实例分析
6.2朴素贝叶斯算法的特点及应用
6.2.1朴素贝叶斯算法的特点
6.2.2朴素贝叶斯算法的应用场景
6.3朴素贝叶斯源代码结果分析
6.4基于阿里云数加平台的朴素贝叶斯实例
6.5小结
思考题
第7章随机森林分类算法
7.1随机森林算法简介
7.1.1随机森林算法原理
7.1.2随机森林算法应用举例
7.2随机森林算法的特点及应用
7.2.1随机森林算法的特点
7.2.2随机森林算法的应用
7.3随机森林算法源程序结果分析
7.4基于阿里云数加平台的随机森林分类实例
7.5小结
思考题
第8章支持向量机
8.1基本概念
8.1.1支持向量机理论基础
8.1.2统计学习核心理论
8.1.3学习过程的一致性条件
8.1.4函数集的VC维
8.1.5泛化误差界
8.1.6结构风险最小化归纳原理
8.2支持向量机原理
8.2.1支持向量机核心理论
8.2.2最大间隔分类超平面
8.2.3支持向量机
8.2.4核函数分类
8.3支持向量机的特点及应用
8.3.1支持向量机的特点
8.3.2支持向量机的应用
8.4支持向量机分类实例分析
8.5基于阿里云数加平台的支持向量机分类实例
8.6小结
思考题
第9章人工神经网络算法
9.1基本概念
9.1.1生物神经元模型
9.1.2人工神经元模型
9.1.3主要的神经网络模型
9.2BP算法的原理
9.2.1Delta学习规则的基本原理
9.2.2BP神经网络的结构
9.2.3BP神经网络的算法描述
9.2.4标准BP神经网络的工作过程
9.3BP神经网络实例分析
9.4BP神经网络的特点及应用
9.4.1BP神经网络的特点
9.4.2BP神经网络的应用
9.5BP神经网络算法源代码结果分析
9.6小结
思考题
第10章决策树分类算法
10.1基本概念
10.1.1决策树分类算法简介
10.1.2决策树基本算法概述
10.2决策树分类算法——ID3算法原理
10.2.1ID3算法原理
10.2.2熵和信息增益
10.2.3ID3算法
10.3ID3算法实例分析
10.4ID3算法的特点及应用
10.4.1ID3算法的特点
10.4.2ID3算法的应用
10.5ID3算法源程序结果分析
10.6决策树分类算法——C4.5算法原理
10.6.1C4.5算法
10.6.2C4.5算法的伪代码
10.7C4.5算法实例分析
10.8C4.5算法的特点及应用
10.8.1C4.5算法的特点
10.8.2C4.5算法的应用
10.9C4.5源程序结果分析
10.10小结
思考题
第11章Kmeans聚类算法
11.1Kmeans聚类算法原理
11.1.1Kmeans聚类算法原理解析
11.1.2Kmeans聚类算法应用举例
11.2Kmeans聚类算法的特点及应用
11.2.1Kmeans聚类算法的特点
11.2.2Kmeans聚类算法的应用
11.3K均值聚类算法源程序结果分析
11.4基于阿里云数加平台的K均值聚类算法实例
11.5基于MaxCompute Graph模型的Kmeans算法源程序分析
11.6小结
思考题
第12章K中心点聚类算法
12.1K中心点聚类算法原理
12.1.1K中心点聚类算法原理解析
12.1.2K中心点聚类算法实例分析
12.2K中心点聚类算法的特点及应用
12.2.1K中心点聚类算法的特点
12.2.2K中心点聚类算法的应用
12.3K中心点算法源程序结果分析
12.4小结
思考题
第13章自组织神经网络聚类算法
13.1SOM网络简介
13.2竞争学习算法基础
13.2.1SOM网络结构
13.2.2SOM网络概述
13.3SOM网络原理
13.3.1SOM网络的拓扑结构
13.3.2SOM权值调整域
13.3.3SOM网络运行原理
13.3.4SOM网络学习方法
13.4SOM网络应用举例
13.4.1问题描述
13.4.2网络设计及学习结果
13.4.3输出结果分析
13.5SOM网络的特点及应用
13.5.1SOM网络的特点
13.5.2SOM网络的应用
13.6SOM神经网络源程序结果分析
13.7小结
思考题
第14章DBSCAN聚类算法
14.1DBSCAN算法的原理
14.1.1DBSCAN算法原理解析
14.1.2DBSCAN算法应用举例
14.2DBSCAN算法的特点与应用
14.2.1DBSCAN算法的特点
14.2.2DBSCAN算法的应用
14.3DBSCAN源程序结果分析
14.4小结
思考题
第三篇综合应用篇
第15章社交网络分析方法及应用
15.1社交网络简介
15.2K核方法
15.2.1K核方法原理
15.2.2基于阿里云数加平台的K核方法实例
15.3单源最短路径方法
15.3.1单源最短路径方法原理
15.3.2基于阿里云数加平台的单源最短路径方法实例
15.4PageRank算法
15.4.1PageRank算法原理
15.4.2PageRank算法的特点及应用
15.4.3基于阿里云数加平台的PageRank算法实例
15.5标签传播算法
15.5.1标签传播算法原理
15.5.2基于阿里云数加平台的标签传播聚类应用实例
15.6最大联通子图算法
15.7聚类系数算法
15.7.1聚类系数算法原理
15.7.2基于阿里云数加平台的聚类系数算法应用实例
15.8基于阿里云数加平台的社交网络分析实例
15.9小结
思考题
第16章文本分析方法及应用
16.1文本分析简介
16.2TFIDF方法
16.3中文分词方法
16.3.1基于字典或词库匹配的分词方法
16.3.2基于词的频度统计的分词方法
16.3.3其他中文分词方法
16.4PLDA方法
16.4.1主题模型
16.4.2PLDA方法原理
16.5Word2Vec基本原理
16.5.1词向量的表示方式
16.5.2统计语言模型
16.5.3霍夫曼编码
16.5.4Word2Vec原理简介
16.6基于阿里云数加平台的文本分析实例
16.7小结
思考题
第17章推荐系统方法及应用
17.1推荐系统简介
17.2基于内容的推荐算法
17.2.1基于内容的推荐算法原理
17.2.2基于内容的推荐算法的特点
17.3协同过滤推荐算法
17.3.1协同过滤推荐算法简介
17.3.2协同过滤推荐算法的特点
17.4混合推荐算法
17.5基于阿里云数加平台的推荐算法实例
17.6小结
思考题
参考文献367
第一篇基础篇
第1章大数据简介
1.1大数据
1.1.1大数据的定义
1.1.2大数据的特点
1.1.3大数据处理的挑战
1.2大数据挖掘
1.2.1大数据挖掘的定义
1.2.2大数据挖掘的特点
1.3大数据挖掘的相关方法
1.3.1数据预处理技术
1.3.2关联规则挖掘
1.3.3分类
1.3.4聚类
1.3.5孤立点挖掘
1.3.6演变分析
1.3.7特异群组分析
1.4大数据挖掘类型
1.4.1Web数据挖掘
1.4.2空间数据挖掘
1.4.3流数据挖掘
1.5大数据挖掘的常见应用
1.5.1社交网络分析
1.5.2文本分析
1.5.3推荐系统
1.6常用的大数据统计分析方法
1.6.1百分位
1.6.2皮尔森相关系数
1.6.3直方图
1.6.4T检验
1.6.5卡方检验
1.7常用的大数据挖掘评估方法
1.8大数据平台相关技术
1.8.1分布式存储技术
1.8.2分布式任务调度技术
1.8.3并行计算技术
1.8.4其他技术
1.9大数据平台实例——阿里云数加平台
1.9.1数加平台简介
1.9.2数加平台产品简介
1.9.3数加平台优势特色
1.9.4机器学习平台简介
1.9.5机器学习平台功能
1.9.6机器学习平台操作流程
1.10小结
思考题
第二篇技术篇
第2章数据预处理技术
2.1数据预处理的目的
2.2数据采样
2.2.1加权采样
2.2.2随机采样
2.2.3分层采样
2.3数据清理
2.3.1填充缺失值
2.3.2光滑噪声数据
2.3.3数据清理过程
2.4数据集成
2.4.1数据集成简介
2.4.2常用数据集成方法
2.5数据变换
2.5.1数据变换简介
2.5.2数据规范化
2.6数据归约
2.6.1数据立方体聚集
2.6.2维归约
2.6.3数据压缩
2.6.4数值归约
2.6.5数据离散化与概念分层
2.7特征选择
2.7.1特征选择简介
2.7.2Relief算法
2.7.3Fisher判别法
2.7.4基于GBDT的过滤式特征选择
2.8特征提取
2.8.1特征提取简介
2.8.2DKLT特征提取方法
2.8.3主成分分析法
2.9基于阿里云数加平台的数据采样与特征选择实例
2.10小结
思考题
第3章关联规则挖掘
3.1基本概念
3.2关联规则挖掘算法——Apriori算法原理
3.2.1Apriori算法原理解析
3.2.2Apriori算法应用举例
3.3Apriori算法源代码结果分析
3.4Apriori算法的特点及应用
3.4.1Apriori算法的特点
3.4.2Apriori算法的应用
3.5小结
思考题
第4章逻辑回归方法
4.1基本概念
4.1.1回归概述
4.1.2线性回归简介
4.2逻辑回归
4.2.1二分类逻辑回归
4.2.2多分类逻辑回归
4.2.3逻辑回归应用举例
4.2.4逻辑回归方法的特点
4.2.5逻辑回归方法的应用
4.3逻辑回归源代码结果分析
4.3.1线性回归
4.3.2多分类逻辑回归
4.4基于阿里云数加平台的逻辑回归实例
4.4.1二分类逻辑回归应用实例
4.4.2多分类逻辑回归应用实例
4.5小结
思考题
第5章KNN算法
5.1KNN算法简介
5.1.1KNN算法原理
5.1.2KNN算法应用举例
5.2KNN算法的特点及改进
5.2.1KNN算法的特点
5.2.2KNN算法的改进策略
5.3KNN源代码结果分析
5.4基于阿里云数加平台的KNN算法应用实例
5.5小结
思考题
第6章朴素贝叶斯分类算法
6.1基本概念
6.1.1主观概率
6.1.2贝叶斯定理
6.1.3朴素贝叶斯分类模型
6.1.4朴素贝叶斯分类器实例分析
6.2朴素贝叶斯算法的特点及应用
6.2.1朴素贝叶斯算法的特点
6.2.2朴素贝叶斯算法的应用场景
6.3朴素贝叶斯源代码结果分析
6.4基于阿里云数加平台的朴素贝叶斯实例
6.5小结
思考题
第7章随机森林分类算法
7.1随机森林算法简介
7.1.1随机森林算法原理
7.1.2随机森林算法应用举例
7.2随机森林算法的特点及应用
7.2.1随机森林算法的特点
7.2.2随机森林算法的应用
7.3随机森林算法源程序结果分析
7.4基于阿里云数加平台的随机森林分类实例
7.5小结
思考题
第8章支持向量机
8.1基本概念
8.1.1支持向量机理论基础
8.1.2统计学习核心理论
8.1.3学习过程的一致性条件
8.1.4函数集的VC维
8.1.5泛化误差界
8.1.6结构风险最小化归纳原理
8.2支持向量机原理
8.2.1支持向量机核心理论
8.2.2最大间隔分类超平面
8.2.3支持向量机
8.2.4核函数分类
8.3支持向量机的特点及应用
8.3.1支持向量机的特点
8.3.2支持向量机的应用
8.4支持向量机分类实例分析
8.5基于阿里云数加平台的支持向量机分类实例
8.6小结
思考题
第9章人工神经网络算法
9.1基本概念
9.1.1生物神经元模型
9.1.2人工神经元模型
9.1.3主要的神经网络模型
9.2BP算法的原理
9.2.1Delta学习规则的基本原理
9.2.2BP神经网络的结构
9.2.3BP神经网络的算法描述
9.2.4标准BP神经网络的工作过程
9.3BP神经网络实例分析
9.4BP神经网络的特点及应用
9.4.1BP神经网络的特点
9.4.2BP神经网络的应用
9.5BP神经网络算法源代码结果分析
9.6小结
思考题
第10章决策树分类算法
10.1基本概念
10.1.1决策树分类算法简介
10.1.2决策树基本算法概述
10.2决策树分类算法——ID3算法原理
10.2.1ID3算法原理
10.2.2熵和信息增益
10.2.3ID3算法
10.3ID3算法实例分析
10.4ID3算法的特点及应用
10.4.1ID3算法的特点
10.4.2ID3算法的应用
10.5ID3算法源程序结果分析
10.6决策树分类算法——C4.5算法原理
10.6.1C4.5算法
10.6.2C4.5算法的伪代码
10.7C4.5算法实例分析
10.8C4.5算法的特点及应用
10.8.1C4.5算法的特点
10.8.2C4.5算法的应用
10.9C4.5源程序结果分析
10.10小结
思考题
第11章Kmeans聚类算法
11.1Kmeans聚类算法原理
11.1.1Kmeans聚类算法原理解析
11.1.2Kmeans聚类算法应用举例
11.2Kmeans聚类算法的特点及应用
11.2.1Kmeans聚类算法的特点
11.2.2Kmeans聚类算法的应用
11.3K均值聚类算法源程序结果分析
11.4基于阿里云数加平台的K均值聚类算法实例
11.5基于MaxCompute Graph模型的Kmeans算法源程序分析
11.6小结
思考题
第12章K中心点聚类算法
12.1K中心点聚类算法原理
12.1.1K中心点聚类算法原理解析
12.1.2K中心点聚类算法实例分析
12.2K中心点聚类算法的特点及应用
12.2.1K中心点聚类算法的特点
12.2.2K中心点聚类算法的应用
12.3K中心点算法源程序结果分析
12.4小结
思考题
第13章自组织神经网络聚类算法
13.1SOM网络简介
13.2竞争学习算法基础
13.2.1SOM网络结构
13.2.2SOM网络概述
13.3SOM网络原理
13.3.1SOM网络的拓扑结构
13.3.2SOM权值调整域
13.3.3SOM网络运行原理
13.3.4SOM网络学习方法
13.4SOM网络应用举例
13.4.1问题描述
13.4.2网络设计及学习结果
13.4.3输出结果分析
13.5SOM网络的特点及应用
13.5.1SOM网络的特点
13.5.2SOM网络的应用
13.6SOM神经网络源程序结果分析
13.7小结
思考题
第14章DBSCAN聚类算法
14.1DBSCAN算法的原理
14.1.1DBSCAN算法原理解析
14.1.2DBSCAN算法应用举例
14.2DBSCAN算法的特点与应用
14.2.1DBSCAN算法的特点
14.2.2DBSCAN算法的应用
14.3DBSCAN源程序结果分析
14.4小结
思考题
第三篇综合应用篇
第15章社交网络分析方法及应用
15.1社交网络简介
15.2K核方法
15.2.1K核方法原理
15.2.2基于阿里云数加平台的K核方法实例
15.3单源最短路径方法
15.3.1单源最短路径方法原理
15.3.2基于阿里云数加平台的单源最短路径方法实例
15.4PageRank算法
15.4.1PageRank算法原理
15.4.2PageRank算法的特点及应用
15.4.3基于阿里云数加平台的PageRank算法实例
15.5标签传播算法
15.5.1标签传播算法原理
15.5.2基于阿里云数加平台的标签传播聚类应用实例
15.6最大联通子图算法
15.7聚类系数算法
15.7.1聚类系数算法原理
15.7.2基于阿里云数加平台的聚类系数算法应用实例
15.8基于阿里云数加平台的社交网络分析实例
15.9小结
思考题
第16章文本分析方法及应用
16.1文本分析简介
16.2TFIDF方法
16.3中文分词方法
16.3.1基于字典或词库匹配的分词方法
16.3.2基于词的频度统计的分词方法
16.3.3其他中文分词方法
16.4PLDA方法
16.4.1主题模型
16.4.2PLDA方法原理
16.5Word2Vec基本原理
16.5.1词向量的表示方式
16.5.2统计语言模型
16.5.3霍夫曼编码
16.5.4Word2Vec原理简介
16.6基于阿里云数加平台的文本分析实例
16.7小结
思考题
第17章推荐系统方法及应用
17.1推荐系统简介
17.2基于内容的推荐算法
17.2.1基于内容的推荐算法原理
17.2.2基于内容的推荐算法的特点
17.3协同过滤推荐算法
17.3.1协同过滤推荐算法简介
17.3.2协同过滤推荐算法的特点
17.4混合推荐算法
17.5基于阿里云数加平台的推荐算法实例
17.6小结
思考题
参考文献367