图书介绍

HBase企业应用开发实战【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

马延辉，孟鑫，李立松著著
出版社：北京：机械工业出版社
ISBN：9787111478324
出版时间：2014
标注页数：470页
文件大小：82MB
文件页数：484页
主题词：计算机网络－信息存贮

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：b3d4f961538da887346ab1928bdda7b7

下载说明

HBase企业应用开发实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一部分基础篇2

第1章认识HBase2

1.1 理解大数据背景2

1.1.1 什么是大数据3

1.1.2 为何大数据至关重要4

1.1.3 NoSQL在大数据中扮演的角色4

1.2 HBase是什么6

1.2.1 HBase的发展历史6

1.2.2 HBase的发行版本7

1.2.3 HBase的特性9

1.3 HBase与Hadoop的关系10

1.4 HBase的核心功能模块12

1.4.1 客户端Client12

1.4.2 协调服务组件ZooKeeper13

1.4.3 主节点HMaster13

1.4.4 Region节点HRegionServer13

1.5 HBase的使用场景和经典案例14

1.5.1 搜索引擎应用15

1.5.2 增量数据存储15

1.5.3 用户内容服务17

1.5.4 实时消息系统构建18

1.6 本章小结18

第2章 HBase安装与配置19

2.1 先决条件19

2.2 HBase运行模式23

2.2.1 单机模式23

2.2.2 分布式模式24

2.3 HBase的Web UI31

2.4 HBase Shell工具使用31

2.5 停止HBase集群33

2.6 本章小结33

第3章数据模型34

3.1 两类数据模型34

3.1.1 逻辑模型35

3.1.2 物理模型35

3.2 数据模型的重要概念36

3.2.1 表36

3.2.2 行键37

3.2.3 列族38

3.2.4 单元格38

3.3 数据模型的操作38

3.3.1 读Get39

3.3.2 写Put39

3.3.3 扫描Scan39

3.3.4 删除Delete40

3.4 数据模型的特殊属性40

3.4.1 版本40

3.4.2 排序42

3.4.3 列的元数据42

3.4.4 连接查询43

3.4.5 计数器43

3.4.6 原子操作43

3.4.7 事务特性ACID43

3.4.8 行锁45

3.4.9 自动分区45

3.5 CAP原理与最终一致性46

3.6 本章小结47

第4章 HBase表结构设计48

4.1 模式创建48

4.2 Rowkey设计49

4.3 列族定义51

4.3.1 可配置的数据块大小51

4.3.2 数据块缓存52

4.3.3 布隆过滤器52

4.3.4 数据压缩53

4.3.5 单元时间版本53

4.3.6 生存时间54

4.4 模式设计实例54

4.4.1 实例1：动物分类54

4.4.2 实例2：店铺与商品56

4.4.3 实例3：网上商城用户消费记录57

4.4.4 实例4：微博用户与粉丝58

4.5 本章小结60

第5章 HBase客户端61

5.1 精通原生Java客户端61

5.1.1 客户端配置62

5.1.2 创建表69

5.1.3 删除表70

5.1.4 插入数据70

5.1.5 查询数据72

5.1.6 删除数据76

5.1.7 过滤查询77

5.2 使用HBase Shell工具操作HBase79

5.2.1 命令分类79

5.2.2 常规命令80

5.2.3 DDL命令81

5.2.4 DML命令82

5.2.5 工具命令Tools86

5.2.6 复制命令87

5.2.7 安全命令87

5.3 使用Thrift客户端访问HBase88

5.3.1 Thrift与Thrift2区别88

5.3.2 安装与部署Thrift289

5.3.3 Python使用案例93

5.4 通过REST客户端访问HBase95

5.4.1 启动服务95

5.4.2 使用REST访问example表96

5.5 使用MapReduce批量操作HBase97

5.5.1 三种访问模式98

5.5.2 实现MapReduce API98

5.5.3 HBase作为输入源示例99

5.5.4 HBase作为输出源示例101

5.5.5 HBase作为共享源示例103

5.6 通过Web UI工具查看HBase状态106

5.6.1 Master状态界面106

5.6.2 RegionServer状态界面107

5.6.3 ZooKeeper统计信息页面109

5.7 其他客户端110

5.8 本章小结110

第二部分实战篇114

第6章整合SQL引擎层114

6.1 NoSQL背景知识114

6.1.1 什么是NoSQL114

6.1.2 将SQL整合到HBase的原因115

6.1.3 基于HBase的SQL引擎实现116

6.2 Hive整合HBase的实现119

6.2.1 认识Hive119

6.2.2 Hive整合HBase的环境准备122

6.2.3 Linux环境下重新编译Hive123

6.2.4 Hive参数配置125

6.2.5 启动Hive127

6.2.6 Hive与HBase整合后的框架如何使用127

6.2.7 HBase到Hive的字段映射133

6.2.8 多列与Hive Map类型134

6.3 查询引擎Phoenix137

6.3.1 认识Phoenix138

6.3.2 Phoenix安装环境准备141

6.3.3 Phoenix安装部署142

6.3.4 Phoenix源码编译143

6.3.5 Phoenix中SQLLine的快速使用149

6.3.6 使用JDBC访问Phoenix153

6.4 对象映射框架Kundera155

6.4.1 认识Kundera155

6.4.2 Kundera的客户端API快速使用158

6.4.3 Kundera模块介绍161

6.4.4 Kundera的REST访问方式162

6.5 分布式SQL引擎Lealone165

6.5.1 认识Lealone165

6.5.2 Lealone的安装部署166

6.5.3 通过JDBC访问Lealone168

6.5.4 通过Python访问Lealone169

6.5.5 Lealone特有的建表语法170

6.6 本章小结171

第7章构建音乐站用户属性库173

7.1 案例背景173

7.1.1 音乐站173

7.1.2 需求概述175

7.1.3 需求范围和系统边界175

7.1.4 需求详述176

7.1.5 名词解释180

7.2 概要设计181

7.2.1 设计目标181

7.2.2 数据规模假设181

7.2.3 功能指标182

7.2.4 系统流程182

7.3 表结构设计183

7.3.1 功能抽象183

7.3.2 逻辑结构184

7.3.3 Rowkey设计188

7.3.4 列族设计188

7.3.5 版本定义188

7.3.6 优化属性定义188

7.4 数据加载189

7.4.1 加载流程189

7.4.2 Mapper类190

7.4.3 Main类192

7.4.4 运行193

7.5 数据检索193

7.5.1 HBaseTable193

7.5.2 HBaseAdmin193

7.5.3 几种检索类型195

7.6 后台查询198

7.6.1 二级索引实现198

7.6.2 后台查询系统205

7.7 本章小结206

第8章构建广告实时计算系统208

8.1 理解广告数据和流处理框架208

8.1.1 网络广告的几大特性209

8.1.2 网络广告的数据类型210

8.1.3 流处理框架211

8.1.4 背景与需求描述217

8.2 概要设计218

8.2.1 设计目标219

8.2.2 主要功能219

8.2.3 系统架构219

8.3 详细设计221

8.3.1 表结构设计221

8.3.2 功能模块设计222

8.4 核心功能实现223

8.4.1 规划集群环境部署223

8.4.2 安装ZooKeeper集群225

8.4.3 安装Kafka分布式集群228

8.4.4 实现Kafka生产者231

8.4.5 安装Storm分布式集群233

8.4.6 查看集群节点部署情况240

8.4.7 基于Storm-kafka中间件实现计算逻辑240

8.4.8 如何使用HBase中统计数据251

8.5 本章小结252

第三部分高级篇254

第9章核心概念254

9.1 核心结构254

9.1.1 B＋树255

9.1.2 LSM树255

9.1.3 两种结构本质区别257

9.2 底层持久化258

9.2.1 存储基本架构258

9.2.2 HDFS文件259

9.2.3 Region切分264

9.2.4 合并265

9.2.5 HFile格式266

9.2.6 KeyValue格式269

9.3 预写日志270

9.3.1 概要流程270

9.3.2 相关Java类271

9.3.3 日志回放274

9.3.4 日志一致性275

9.4 写入流程276

9.4.1 客户端276

9.4.2 服务器端281

9.5 查询流程286

9.5.1 两种查询操作286

9.5.2 客户端286

9.5.3 服务器端287

9.6 数据备份291

9.6.1 备份机制架构292

9.6.2 故障恢复292

9.7 数据压缩294

9.7.1 支持的压缩算法295

9.7.2 使用配置295

9.8 本章小结296

第10章 HBase高级特性297

10.1 过滤器297

10.1.1 过滤器的两类参数297

10.1.2 比较器298

10.1.3 列值过滤器300

10.1.4 键值元数据过滤器300

10.1.5 行键过滤器303

10.1.6 功能过滤器303

10.1.7 Thrift使用过滤器304

10.1.8 过滤器总结309

10.2 计数器310

10.2.1 使用Shell操作计数器310

10.2.2 基于单列的计数器312

10.2.3 多列计数器313

10.3 协处理器314

10.3.1 认识协处理器315

10.3.2 观察者Observer316

10.3.3 终端EndPoint318

10.3.4 协处理器部署320

10.4 Schema设计要点323

10.4.1 行键设计323

10.4.2 列族设计325

10.5 二级索引325

10.5.1 Client-managed方式326

10.5.2 ITHBase实现326

10.5.3 IHBase实现329

10.5.4 Coprocessor方式329

10.5.5 MapReduce两种方式330

10.6 布隆过滤器330

10.6.1 基本概念331

10.6.2 配置布隆过滤器332

10.6.3 使用布隆过滤器333

10.7 负载均衡333

10.7.1 全局计划334

10.7.2 随机分配计划337

10.7.3 批量启动分配计划337

10.7 通过Shell控制负载均衡338

10.8 批量加载338

10.8.1 准备数据：importtsv338

10.8.2 加载数据：completebulkload340

10.9 本章小结340

第11章集群运维管理341

11.1 HBase常用工具341

11.1.1 文件检测修复工具hbck342

11.1.2 文件查看工具hfile346

11.1.3 WAL日志查看工具hlog348

11.1.4 压缩测试工具CompressionTest349

11.1.5 数据迁移工具CopyTable350

11.1.6 导出工具export351

11.1.7 导入工具Import351

11.1.8 日志回放工具351

11.1.9 行数统计工具352

11.2 Region和RegionServer管理353

11.2.1 大合并工具major_compact353

11.2.2 Region合并工具Merge354

11.2.3 下线节点354

11.2.4 滚动重启355

11.3 性能指标Metrics356

11.3.1 Master Metrics357

11.3.2 RegionServer Metrics357

11.3.3 RPC Metrics358

11.3.4 JVM Metrics359

11.3.5 集群属性Metrics360

11.4 监控系统Ganglia360

11.4.1 HBase监控指标360

11.4.2 安装、部署和使用Ganglia361

11.5 HBase管理扩展JMX366

11.5.1 如何使用JMX366

11.5.2 基于JMX的监控工具Ella368

11.6 报警工具Nagios371

11.7 故障处理376

11.7.1 问题咨询渠道377

11.7.2 常用日志信息377

11.7.3 常用故障调试工具379

11.7.4 客户端故障排查384

11.7.5 MapReduce故障排查386

11.7.6 网络故障排查387

11.7.7 RegionServer相关问题解决387

11.7.8 Master相关问题解决391

11.7.9 ZooKeeper相关问题解决392

11.8 集群备份392

11.8.1 冷备份393

11.8.2 热备份之Replication393

11.8.3 热备份之CopyTable393

11.8.4 热备份之Export393

11.9 本章小结393

第12章性能调优395

12.1 硬件和操作系统调优395

12.1.1 配置内存395

12.1.2 配置CPU396

12.1.3 操作系统396

12.2 网络通信调优399

12.2.1 配置交换机399

12.2.2 添加机架感知401

12.3 JVM优化402

12.3.1 Java垃圾回收算法402

12.3.2 Java垃圾收集器403

12.3.3 垃圾回收器的选择405

12.3.4 JVM参数设置406

12.4 HBase查询优化408

12.4.1 设置Scan缓存408

12.4.2 显式地指定列409

12.4.3 关闭ResultScanner410

12.4.4 禁用块缓存410

12.4.5 优化行键查询410

12.4.6 通过HTableTool访问410

12.4.7 使用批量读411

12.4.8 使用Filter降低客户端压力412

12.4.9 使用Coprocessor统计行数412

12.4.10 缓存查询结果413

12.5 HBase写入优化413

12.5.1 关闭写WAL日志413

12.5.2 设置AutoFlush414

12.5.3 预创建Region415

12.5.4 延迟日志flush419

12.5.5 通过HTableTool访问419

12.5.6 使用批量写420

12.6 HBase基本核心服务优化421

12.6.1 优化分裂操作421

12.6.2 优化合并操作423

12.7 HBase配置参数优化423

12.7.1 设置RegionServer Handler数量423

12.7.2 调整BlockCache大小425

12.7.3 设置MemStore的上下限426

12.7.4 调整影响合并的文件数427

12.7.5 调整MemStore的flush因子427

12.7.6 调整单个文件大小427

12.7.7 调整ZooKeeper Session的有效时长428

12.8 分布式协调系统ZooKeeper优化428

12.8.1 配置ZooKeeper节点数428

12.8.2 独立ZooKeeper集群429

12.9 表设计优化430

12.9.1 开启布隆过滤器430

12.9.2 调整列族块大小430

12.9.3 设置In Memory属性432

12.9.4 调整列族最大版本数434

12.9.5 设置TTL属性435

12.10 其他优化436

12.10.1 关闭MapReduce的预测执行功能436

12.10.2 修改负载均衡执行周期438

12.11 性能测试438

12.12 本章小结441

附录A HBase配置参数介绍442

附录B Phoenix SQL语法详解451

附录C YCSB编译安装468