图书介绍

数据科学与大数据技术丛书 数据科学概论【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

数据科学与大数据技术丛书 数据科学概论
  • 覃雄派,陈跃国,杜小勇编著 著
  • 出版社: 北京:中国人民大学出版社
  • ISBN:9787300252926
  • 出版时间:2018
  • 标注页数:546页
  • 文件大小:94MB
  • 文件页数:574页
  • 主题词:数据管理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

数据科学与大数据技术丛书 数据科学概论PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 数据科学概论1

1.1数据科学的定义1

1.2数据科学的定位2

1.2.1数据科学与数据库、大数据分析的关系2

1.2.2数据科学与基于数据的决策的关系3

1.3数据科学家4

数据科学家的技能5

1.4数据科学的基本原则6

1.4.1原则1:数据分析可以划分成一系列明确的阶段6

1.4.2原则2:描述性分析与预测性分析6

1.4.3原则3:实体的相似度7

1.4.4原则4:模型的泛化能力8

1.4.5原则5:分析结果的评估与特定应用场景有关8

1.4.6原则6:相关性不同于因果关系8

1.4.7原则7:通过并行处理提高数据处理(分析)速度9

1.5数据处理流程:时间维度的纵向视角10

1.6数据处理系统的架构:系统维度的计算视角11

1.6.1数据处理系统的层次架构11

1.6.2数据处理系统的Lambda架构12

1.7数据的多样性:数据类型维度的横向视角13

1.8数据价值的挖掘:价值维度的价值提升视角14

1.9思考题16

第2章OLTP与数据服务17

2.1面向OLTP应用的RDBMS数据库技术18

2.1.1关系数据库技术与SQL查询语言18

2.1.2利用索引加快数据访问22

2.1.3数据库的事务处理、恢复技术与安全保证23

2.1.4并行数据库与分布式数据库25

2.2面向数据服务的NoSQL数据库技术25

2.2.1 NoSQL数据库技术25

2.2.2 CAP理论26

2.2.3 Key-Value数据库26

2.2.4 Column Family数据库29

2.2.5 Document数据库31

2.2.6 Graph数据库32

2.3 NewSQL数据库技术33

2.3.1 VoltDB数据库33

2.3.2 Google Spanner数据库35

2.4思考题37

第3章OLAP与结构化数据分析38

3.1联机分析处理(OLAP)与结构化数据分析38

3.1.1从操作型的业务数据库向数据仓库抽取、转换和装载数据38

3.1.2数据仓库与星型模型39

3.1.3联机分析处理(OLAP)40

3.1.4三种类型的OLAP系统42

3.2高性能OLAP系统的关键技术43

3.2.1列存储技术43

3.2.2位图索引技术46

3.2.3内存数据库技术47

3.2.4 MPP并行数据库51

3.3结构化数据分析工具介绍57

3.3.1 MPP (Shared Nothing)数据库、基于列存储的关系数据库57

3.3.2 SQL on Hadoop系统63

3.3.3性能比较69

3.4思考题73

第4章 数据清洗与数据集成74

4.1数据抽取、转换与装载74

4.2数据清洗75

4.2.1数据清洗的意义75

4.2.2数据异常的不同类型76

4.2.3数据质量77

4.2.4数据清洗的任务和过程78

4.2.5数据清洗的具体方法79

4.3数据集成80

4.3.1数据集成80

4.3.2数据集成需要解决的问题——异构性81

4.3.3数据集成的模式81

4.3.4实体解析(Entity Resolution)85

4.4思考题86

第5章 数据的深度分析(数据挖掘、机器学习)88

5.1机器学习与数据挖掘简介88

5.2主流机器学习与数据挖掘方法90

5.2.1决策树90

5.2.2聚类算法K-Means92

5.2.3分类算法支持向量机(SVM)94

5.2.4关联规则分析Apriori算法98

5.2.5 EM算法102

5.2.6协同过滤推荐算法(Collabora-tive Filtering Recommendation)107

5.2.7 kNN (k近邻)算法112

5.2.8朴素贝叶斯(Naive Bayes)算法113

5.2.9 AdaBoost算法117

5.2.10线性回归、Logistic回归121

5.2.11神经网络与深度学习(Neural Network and Deep Learning)128

5.2.12特征选择148

5.3主流数据深度分析工具151

5.3.1 Mahout系统151

5.3.2 Spark MLlib系统152

5.3.3 Weka系统153

5.3.4 R系统与语言154

5.3.5 SPSS与Matlab155

5.3.6深度学习工具TensorFlow,Caffe157

5.4思考题158

第6章 流数据处理160

6.1流数据处理应用160

6.2流式处理和批处理的区别160

6.3流数据模型162

6.4流数据上的查询实例163

6.5流数据处理系统的查询处理166

6.5.1内存需求(Memory Require-ment)166

6.5.2近似查询结果(Approximate Query Answering)166

6.5.3滑动窗口(Sliding Window)166

6.5.4查询数据流的历史数据(Refer-encing Past Data)167

6.5.5多查询优化与查询计划的适应性167

6.5.6堵塞操作167

6.5.7数据流里的时间戳(Times-tamps in Stream)168

6.5.8批处理、采样、梗概169

6.6查询处理的基础算法169

6.6.1随机采样169

6.6.2梗概技术(SketchTechnique)170

6.6.3直方图170

6.6.4小波(Wavelet)分析171

6.6.5布隆过滤器(Bloom Filter)172

6.6.6计数最小梗概172

6.7流数据处理系统173

6.7.1 Storm简介173

6.7.2其他流数据处理系统176

6.8思考题177

第7章 文本分析179

7.1文本分析的意义179

7.2文本分析的任务和方法180

7.2.1句子切分、分词、词性标注、语法分析180

7.2.2文本索引和检索(Indexing and Search181

7.2.3文本分类189

7.2.4文本聚类191

7.2.5文档摘要193

7.2.6主题抽取(Topic Theme Extraction)196

7.2.7命名实体识别、概念抽取和关系抽取、事实抽取201

7.2.8情感分析(Sentiment Analysis)209

7.2.9其他文本分析任务与方法210

7.3文本分析可视化215

7.3.1标记云215

7.3.2词共现分析与可视化(Co-Word Analysis&Visualization)215

7.4文本分析软件和工具220

7.4.1 NLTK220

7.4.2 OPEN NLP220

7.4.3 Stanford NLP220

7.4.4 LingPipe220

7.4.5 GATE221

7.4.6 UIMA221

7.4.7 Netlytic222

7.4.8 WordNet和SentiWordNet222

7.5思考题222

第8章 社交网络分析224

8.1简介224

8.2社交网络分析的应用226

8.3社交网络分析方法227

8.3.1网络的一些基本属性227

8.3.2复杂网络的一些拓扑特性229

8.3.3节点的中心性(Centrality)231

8.3.4可达性、路径、最短路径、最小生成树237

8.3.5凝聚子群与社区检测243

8.3.6链路预测、信息扩散与影响力分析245

8.3.7核心-边缘分析248

8.3.8位置和角色、子图查询、网络模体249

8.4软件252

8.4.1 Gephi252

8.4.2 UCINET253

8.4.3 Pajek253

8.4.4 NodeXL253

8.5思考题254

第9章 语义网与知识图谱256

9.1语义网的基本概念256

9.2语义网体系结构257

9.3语义网的关键技术258

9.3.1 XML(Extensible Markup Language,扩展标记语言)258

9.3.2 RDF (Resource Description Framework,资源描述框架)259

9.3.3 OWL与本体Ontology261

9.4知识库与知识图谱262

9.4.1知识库与Linked Open Data262

9.4.2知识图谱264

9.4.3知识图谱的创建267

9.4.4知识图谱的挖掘269

9.5思考题269

第10章 数据可视化、可视分析与探索式数据分析271

10.1什么是可视化271

10.2可视化的强大威力271

10.3可视化的一般过程272

10.4科学可视化与信息可视化273

10.5数据可视化的原则275

10.6可视化实例277

10.6.1散点图与直方图277

10.6.2线图278

10.6.3柱状图与饼图279

10.6.4解剖图、切片、等值面279

10.6.5表现层次关系:树、圆锥树、Tree Map、信息立方体280

10.6.6地图(Map)和地球(Earth)283

10.6.7社交网络(Social network)285

10.6.8堆叠的河流(Stacked River)287

10.6.9多维数据的展示288

10.6.10特色可视化应用290

10.7可视化的挑战和趋势292

10.8可视分析技术293

10.9探索式数据分析296

10.10探索式数据分析的作用296

10.11探索式数据分析的基本方法297

10.11.1了解变量的分布情况,计算统计值298

10.11.2了解变量之间的关系298

10.11.3了解因子变量的相对重要性299

10.11.4在探索式数据分析中对高维数据进行降维300

10.11.5探索式数据分析案例306

10.12可视化工具介绍307

10.12.1 D3.js307

10.12.2 Processing.js308

10.12.3 Protovis308

10.12.4 Prefuse308

10.12.5 Matplotlib309

10.13思考题310

第11章 云计算平台312

11.1云计算的概念与特点312

11.1.1云计算的概念312

11.1.2云计算的特点312

11.1.3云计算与并行计算、分布式计算、集群计算、网格计算的区别与联系313

11.2云计算与大数据处理的关系314

11.3云计算类型与典型系统314

11.4虚拟化技术与数据中心315

11.4.1服务器虚拟化315

11.4.2存储虚拟化316

11.4.3网络虚拟化316

11.4.4数据中心316

11.5主流产品与特点317

11.5.1 VMware317

11.5.2 Hyper-V317

11.5.3 KVM319

11.5.4 Xen319

11.6 Openstack开源虚拟化平台320

11.7主流厂商的云计算产品和服务322

11.7.1 Amazon322

11.7.2微软324

11.7.3 Google325

11.7.4阿里云327

11.8思考题328

第12章Hadoop及其生态系统329

12.1 Hadoop简介329

12.2 Hadoop分布式文件系统330

12.2.1写文件330

12.2.2读文件332

12.2.3 Secondary NameNode介绍333

12.3 MapReduce工作原理334

12.3.1 MapReduce执行引擎334

12.3.2 MapReduce计算模型335

12.3.3 Hadoop 1.0的应用337

12.4 Hadoop生态系统337

Hive原理339

12.5 Hadoop 2.0版(YARN)341

12.5.1 Hadoop 1.0的优势和局限341

12.5.2业务需求推动持续创新342

12.5.3 YARN原理342

12.5.4 YARN的优势344

12.6 Hadoop 2.0上的交互式查询引擎Hive on Tez345

12.6.1 Tez原理345

12.6.2把数据处理逻辑建模成一个DAG连接起来的任务346

12.6.3 Tez (DAG Job)相对于Map-Reduce (Job)的优势347

12.7 Hadoop平台上的列存储技术348

12.7.1列存储的优势348

12.7.2 RCFile348

12.7.3 ORC存储格式349

12.7.4 Parquet文件格式350

12.8思考题356

第13章Spark及其生态系统357

13.1简介357

13.1.1 Spark软件架构357

13.1.2 Spark的主要优势358

13.2 Hadoop的局限和Spark的诞生359

13.3 Spark特性总结360

13.4 Spark生态系统360

13.5 RDD及其处理362

13.5.1 DAG、宽依赖与窄依赖362

13.5.2 DAG的调度执行363

13.5.3共享变量(Shared Variable)365

13.6 SparkSQL365

SparkSQL应用程序366

13.7 Spark应用案例369

Spark的其他应用案例371

13.8小结371

13.9思考题371

第14章Python与数据科学372

14.1 Python概述372

14.2 Python开发环境配置(Setup)374

14.3通过一系列实例学习Python376

14.3.1变量/常量/注释376

14.3.2数据类型376

14.3.3运算符及其优先级、表达式381

14.3.4顺序、分支、循环程序结构383

14.3.5函数、库函数的使用387

14.3.6类和对象、对象的构造、对象摧毁、封装和继承、重写390

14.3.7异常处理392

14.3.8正则表达式393

14.3.9文件I/O(输入输出)394

14.4第三方库和实例394

14.4.1 Pandas介绍与实例395

14.4.2 Scikit-learn介绍与实例406

14.4.3深度学习库Keras(基于Tensorflow, Theano)422

14.4.4 Matplotlib介绍与实例427

14.4.5 NetworkX介绍与实例441

14.4.6 NLTK介绍与实例446

14.5思考题458

第15章 评测基准459

15.1评测基准概述459

15.1.1评测基准的目的和作用459

15.1.2评测基准的构成459

15.1.3评测基准的分类460

15.1.4评测基准的选择460

15.2功能性评测基准Daytona 100TB Gray Sort460

15.3面向OLTP应用的评测基准461

15.3.1 TPC-C标准461

15.3.2 TPC-C的数据模型462

15.3.3 TPC-C的负载462

15.3.4 TPC-C的性能指标463

15.4面向OLAP应用的评测基准463

15.4.1 TPC-H标准463

15.4.2 TPC-H的数据模型463

15.4.3 TPC-H的负载464

15.4.4 3个测试465

15.4.5 TPC-H的性能指标465

15.4.6数据生成器和查询负载生成器466

15.4.7 TPC-DS简介466

15.5面向大数据应用的评测基准467

15.5.1面向数据服务的评测基准—— YCSB467

15.5.2面向大数据分析处理的评测基准——BigBench和Big-DataBench468

15.5.3其他评测基准469

15.6思考题470

第16章 数据科学案例471

16.1 Google流感趋势预测(Google Flu Trends)471

16.2 Target利用数据分析预测到一个高中女生的怀孕472

16.3互联网舆情监控与管理474

16.4投资与信用474

16.4.1大数据指数基金474

16.4.2基于大数据的信用评价476

16.5 IBM Watson计算机与医疗477

16.6奥巴马竞选团队利用大数据分析技术,帮助奥巴马竞选连任成功479

16.7数据科学与科学研究480

16.8奥斯卡大奖预测、总统选举预测、世界杯预测482

16.9用户画像与精准广告482

16.10自动短文评分483

16.11数据产品484

路透社和彭博社的数据产品485

16.12其他数据科学案例485

16.13思考题486

第17章 数据科学实践487

17.1概述487

17.1.1算法交易和量化交易487

17.1.2量化交易系统的四大模块488

17.1.3交易策略的研发、测试、上线过程489

17.1.4量化交易系统的评价指标490

17.2工具和平台介绍491

17.2.1 Zipline函数库介绍491

17.2.2 Quantopian介绍493

17.3基于规则的交易策略495

17.3.1移动平均交叉交易策略495

17.3.2均值回归交易策略496

17.4基于机器学习的交易策略497

17.4.1基于Random Forest分类器的交易策略(分类)497

17.4.2基于SVM回归模型的交易策略(回归)499

17.5关于若干专题的讨论502

17.5.1股票价格预测的基础数据502

17.5.2特征选择(Feature Selection)503

17.5.3模型的组合(Model Com-bination)511

17.5.4离线的模型训练(Offline Model Training)514

17.5.5使用大数据处理引擎处理大数据(Using of Big Data Engine)515

17.5.6在交易模型中集成情感分析结果(Integrating Sentiment Analysis into Trading Model)515

17.6思考题517

第18章 附录518

18.1参考文献518

第1章 数据科学概论518

第2章OLTP与数据服务518

第3章OLAP与结构化数据分析519

第4章 数据清洗与数据集成521

第5章 数据的深度分析(数据挖掘、机器学习)522

第6章 流数据处理526

第7章 文本分析527

第8章 社交网络分析530

第9章 语义网与知识图谱533

第10章 数据可视化、可视分析与探索式数据分析534

第11章 云计算平台536

第12章Hadoop及其生态系统537

第13章Spark及其生态系统539

第14章Python与数据科学539

第15章 评测基准540

第16章 数据科学案例541

第17章 数据科学实践543

18.2专有名词544

热门推荐