图书介绍
ODPS权威指南 阿里大数据平台应用开发实践【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

- 李妹芳著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115372413
- 出版时间:2015
- 标注页数:342页
- 文件大小:48MB
- 文件页数:357页
- 主题词:数据处理系统-指南
PDF下载
下载说明
ODPS权威指南 阿里大数据平台应用开发实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 ODPS概述1
1.1 引言1
1.2 初识ODPS1
1.2.1 背景和挑战2
1.2.2 为什么做ODPS2
1.2.3 ODPS是什么3
1.2.4 ODPS做什么4
1.3 基本概念5
1.3.1 账号5
1.3.2 项目空间7
1.3.3 表7
1.3.4 分区8
1.3.5 任务、作业和作业实例8
1.3.6 资源9
1.4 应用开发模式9
1.4.1 RESTful API10
1.4.2 ODPS SDK14
1.4.3 ODPS CLT14
1.4.4 管理控制台14
1.4.5 IDE15
1.5 一些典型场景15
1.5.1 阿里金融数据仓库15
1.5.2 CNZZ数据仓库16
1.5.3 支付宝账号影响力圈16
1.5.4 阿里金融水文衍生算法16
1.5.5 阿里妈妈广告CTR预估17
1.6 现状和前景17
1.7 小结18
第2章 ODPS入门19
2.1 准备工作19
2.1.1 创建云账号19
2.1.2 开通ODPS服务21
2.2 使用管理控制台22
2.3 配置ODPS客户端23
2.3.1 下载和配置CLT23
2.3.2 准备dual表25
2.3.3 CLT运行模式27
2.3.4 下载和配置dship28
2.3.5 通过dship上传下载数据28
2.4 网站日志分析实例30
2.4.1 场景和数据说明30
2.4.2 需求分析31
2.4.3 数据准备32
2.4.4 创建表并添加分区32
2.4.5 数据解析和导入34
2.4.6 数据加工39
2.4.7 数据分析45
2.4.8 自动化运行51
2.4.9 应用数据集市54
2.4.10 结果导出56
2.4.11 结果展现57
2.4.12 删除数据58
2.4.13 解决方案:采云间59
2.5 获取帮助59
2.6 小结60
第3章 收集海量数据61
3.1 dship工具61
3.2 收集Web日志64
3.2.1 场景和需求说明64
3.2.2 问题分析和设计65
3.2.3 实现说明66
3.2.4 进一步探讨69
3.2.5 为什么这么难72
3.2.6 解决方案:SLS72
3.3 MySQL数据同步到ODPS73
3.3.1 场景和需求说明73
3.3.2 问题分析和实现73
3.3.3 进一步探讨75
3.4 下载结果表76
3.5 小结76
第4章 使用SQL处理海量数据77
4.1 ODPS SQL是什么77
4.2 入门示例78
4.2.1 场景说明78
4.2.2 简单的DDL操作78
4.2.3 生成数据83
4.2.4 单表查询84
4.2.5 多表连接JOIN87
4.2.6 高级查询96
4.2.7 多表关联UNION ALL106
4.2.8 多路输出(MULTI-INSERT)107
4.3 网站日志分析107
4.3.1 准备数据和表108
4.3.2 维度表108
4.3.3 访问路径分析117
4.3.4 TopK查询119
4.3.5 IP黑名单120
4.4 天猫品牌预测126
4.4.1 主题说明和前期准备127
4.4.2 理解数据129
4.4.3 两个简单的实践130
4.4.4 问题分析和算法设计133
4.4.5 生成特征135
4.4.6 抽取正负样本138
4.4.7 生成模型142
4.4.8 验证模型143
4.4.9 预测结果146
4.4.10 进一步探讨147
4.5 小结147
第5章 SQL进阶148
5.1 UDF是什么148
5.2 入门示例149
5.3 实际应用案例151
5.3.1 URL解码151
5.3.2 简单的LBS应用152
5.3.3 网站访问日志UserAgent解析155
5.4 SQL实现原理161
5.4.1 词法分析162
5.4.2 语法分析162
5.4.3 逻辑分析163
5.4.4 物理分析170
5.5 SQL调优171
5.5.1 数据倾斜171
5.5.2 一些优化建议176
5.5.3 一些注意事项177
5.6 小结178
第6章 通过Tunnel迁移数据179
6.1 ODPS Tunnel是什么179
6.2 入门示例180
6.2.1 下载和配置180
6.2.2 准备数据180
6.2.3 上传数据181
6.2.4 下载数据187
6.3 Tunnel原理188
6.3.1 数据如何传输189
6.3.2 客户端和服务端如何交互190
6.3.3 如何实现高并发191
6.4 从Hadoop迁移到ODPS191
6.4.1 问题分析191
6.4.2 客户端实现和分析192
6.4.3 Mapper实现和分析197
6.4.4 编译和运行199
6.4.5 进一步探讨202
6.5 一些注意点202
6.6 小结203
第7章 使用MapReduce处理数据204
7.1 MapReduce编程模型204
7.2 MapReduce应用场景207
7.3 初识ODPS MapReduce208
7.4 入门示例209
7.4.1 准备工作209
7.4.2 问题分析210
7.4.3 代码实现和分析211
7.4.4 运行和输出分析214
7.4.5 扩展:使用Combiner?217
7.5 TopK查询220
7.5.1 场景和数据说明221
7.5.2 问题分析221
7.5.3 具体实现分析223
7.5.4 运行和结果输出228
7.5.5 扩展:忽略Stop Words229
7.5.6 扩展:数据和任务统计231
7.5.7 扩展:MR2模型233
7.6 SQL和MapReduce,用哪个?235
7.7 小结235
第8章 MapReduce进阶236
8.1 再谈Shuffle&Sort236
8.2 好友推荐238
8.2.1 场景和数据说明238
8.2.2 问题定义和分析239
8.2.3 代码实现241
8.3 LBS应用探讨:周边定位244
8.3.1 场景和数据说明244
8.3.2 问题定义和分析245
8.3.3 代码实现和分析247
8.3.4 运行和测试251
8.4 MapReduce调试253
8.4.1 带bug的代码253
8.4.2 通过本地模式调试254
8.4.3 通过Counter调试254
8.4.4 通过log调试255
8.5 一些注意事项257
8.6 小结257
第9章 机器学习算法258
9.1 初识ODPS算法258
9.2 入门示例259
9.2.1 通过CLT统计分析259
9.2.2 通过XLab统计分析260
9.3 几个经典的算法263
9.3.1 逻辑回归(LogisticProgression)263
9.3.2 随机森林(RandomForest)264
9.4 天猫品牌预测265
9.4.1 逻辑回归265
9.4.2 随机森林272
9.4.3 脚本实现和自动化279
9.4.4 进一步探讨283
9.5 小结284
第10章 使用SDK访问ODPS服务285
10.1 主要的Package和接口285
10.1.1 主要的Package285
10.1.2 核心接口286
10.2 入门示例286
10.3 基于Eclipse插件开发288
10.4 小结289
第11章 ODPS权限、资源和数据管理290
11.1 权限管理290
11.1.1 账号授权290
11.1.2 角色(Role)授权294
11.1.3 ACL授权特点296
11.1.4 简单的Policy授权297
11.1.5 Role Policy299
11.1.6 ACL授权和Policy授权小结301
11.2 资源管理302
11.2.1 Project内的资源管理302
11.2.2 跨Project的资源共享303
11.3 数据管理305
11.3.1 表生命周期305
11.3.2 数据归并(Merge)307
11.3.3 跨Project数据同步308
11.3.4 跨Project数据保护(Project Protection)309
11.4 小结312
第12章 深入了解ODPS313
12.1 体系架构313
12.1.1 客户端314
12.1.2 接入层314
12.1.3 逻辑层315
12.1.4 存储/计算层316
12.2 执行流程317
12.2.1 提交作业318
12.2.2 运行作业318
12.2.3 查询作业状态318
12.2.4 执行逻辑图319
12.3 底层数据存储319
12.3.1 CFILE是什么320
12.3.2 CFILE逻辑结构320
12.4 内聚式框架320
12.4.1 元数据321
12.4.2 运维管理321
12.4.3 多控制集群和多计算集群322
12.5 跨集群复制323
12.5.1 数据迁移324
12.5.2 跨集群同步325
12.6 小结329
第13章 探索0DPS之美330
13.1 R语言数据探索330
13.1.1 安装和配置330
13.1.2 一些基本操作331
13.1.3 分析建模331
13.2 实时流计算333
13.3 图计算模型334
13.4 准实时SQL335
13.5 机器学习平台336
热门推荐
- 2787550.html
- 1912498.html
- 921666.html
- 93108.html
- 359843.html
- 563409.html
- 370405.html
- 1560932.html
- 2914352.html
- 507437.html
- http://www.ickdjs.cc/book_2977971.html
- http://www.ickdjs.cc/book_2592528.html
- http://www.ickdjs.cc/book_1933117.html
- http://www.ickdjs.cc/book_1142311.html
- http://www.ickdjs.cc/book_2066127.html
- http://www.ickdjs.cc/book_3116358.html
- http://www.ickdjs.cc/book_2478790.html
- http://www.ickdjs.cc/book_2950794.html
- http://www.ickdjs.cc/book_1384474.html
- http://www.ickdjs.cc/book_2990816.html