图书介绍
数据科学与大数据技术丛书 数据科学概论【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

- 覃雄派,陈跃国,杜小勇编著 著
- 出版社: 北京:中国人民大学出版社
- ISBN:9787300252926
- 出版时间:2018
- 标注页数:546页
- 文件大小:94MB
- 文件页数:574页
- 主题词:数据管理
PDF下载
下载说明
数据科学与大数据技术丛书 数据科学概论PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 数据科学概论1
1.1数据科学的定义1
1.2数据科学的定位2
1.2.1数据科学与数据库、大数据分析的关系2
1.2.2数据科学与基于数据的决策的关系3
1.3数据科学家4
数据科学家的技能5
1.4数据科学的基本原则6
1.4.1原则1:数据分析可以划分成一系列明确的阶段6
1.4.2原则2:描述性分析与预测性分析6
1.4.3原则3:实体的相似度7
1.4.4原则4:模型的泛化能力8
1.4.5原则5:分析结果的评估与特定应用场景有关8
1.4.6原则6:相关性不同于因果关系8
1.4.7原则7:通过并行处理提高数据处理(分析)速度9
1.5数据处理流程:时间维度的纵向视角10
1.6数据处理系统的架构:系统维度的计算视角11
1.6.1数据处理系统的层次架构11
1.6.2数据处理系统的Lambda架构12
1.7数据的多样性:数据类型维度的横向视角13
1.8数据价值的挖掘:价值维度的价值提升视角14
1.9思考题16
第2章OLTP与数据服务17
2.1面向OLTP应用的RDBMS数据库技术18
2.1.1关系数据库技术与SQL查询语言18
2.1.2利用索引加快数据访问22
2.1.3数据库的事务处理、恢复技术与安全保证23
2.1.4并行数据库与分布式数据库25
2.2面向数据服务的NoSQL数据库技术25
2.2.1 NoSQL数据库技术25
2.2.2 CAP理论26
2.2.3 Key-Value数据库26
2.2.4 Column Family数据库29
2.2.5 Document数据库31
2.2.6 Graph数据库32
2.3 NewSQL数据库技术33
2.3.1 VoltDB数据库33
2.3.2 Google Spanner数据库35
2.4思考题37
第3章OLAP与结构化数据分析38
3.1联机分析处理(OLAP)与结构化数据分析38
3.1.1从操作型的业务数据库向数据仓库抽取、转换和装载数据38
3.1.2数据仓库与星型模型39
3.1.3联机分析处理(OLAP)40
3.1.4三种类型的OLAP系统42
3.2高性能OLAP系统的关键技术43
3.2.1列存储技术43
3.2.2位图索引技术46
3.2.3内存数据库技术47
3.2.4 MPP并行数据库51
3.3结构化数据分析工具介绍57
3.3.1 MPP (Shared Nothing)数据库、基于列存储的关系数据库57
3.3.2 SQL on Hadoop系统63
3.3.3性能比较69
3.4思考题73
第4章 数据清洗与数据集成74
4.1数据抽取、转换与装载74
4.2数据清洗75
4.2.1数据清洗的意义75
4.2.2数据异常的不同类型76
4.2.3数据质量77
4.2.4数据清洗的任务和过程78
4.2.5数据清洗的具体方法79
4.3数据集成80
4.3.1数据集成80
4.3.2数据集成需要解决的问题——异构性81
4.3.3数据集成的模式81
4.3.4实体解析(Entity Resolution)85
4.4思考题86
第5章 数据的深度分析(数据挖掘、机器学习)88
5.1机器学习与数据挖掘简介88
5.2主流机器学习与数据挖掘方法90
5.2.1决策树90
5.2.2聚类算法K-Means92
5.2.3分类算法支持向量机(SVM)94
5.2.4关联规则分析Apriori算法98
5.2.5 EM算法102
5.2.6协同过滤推荐算法(Collabora-tive Filtering Recommendation)107
5.2.7 kNN (k近邻)算法112
5.2.8朴素贝叶斯(Naive Bayes)算法113
5.2.9 AdaBoost算法117
5.2.10线性回归、Logistic回归121
5.2.11神经网络与深度学习(Neural Network and Deep Learning)128
5.2.12特征选择148
5.3主流数据深度分析工具151
5.3.1 Mahout系统151
5.3.2 Spark MLlib系统152
5.3.3 Weka系统153
5.3.4 R系统与语言154
5.3.5 SPSS与Matlab155
5.3.6深度学习工具TensorFlow,Caffe157
5.4思考题158
第6章 流数据处理160
6.1流数据处理应用160
6.2流式处理和批处理的区别160
6.3流数据模型162
6.4流数据上的查询实例163
6.5流数据处理系统的查询处理166
6.5.1内存需求(Memory Require-ment)166
6.5.2近似查询结果(Approximate Query Answering)166
6.5.3滑动窗口(Sliding Window)166
6.5.4查询数据流的历史数据(Refer-encing Past Data)167
6.5.5多查询优化与查询计划的适应性167
6.5.6堵塞操作167
6.5.7数据流里的时间戳(Times-tamps in Stream)168
6.5.8批处理、采样、梗概169
6.6查询处理的基础算法169
6.6.1随机采样169
6.6.2梗概技术(SketchTechnique)170
6.6.3直方图170
6.6.4小波(Wavelet)分析171
6.6.5布隆过滤器(Bloom Filter)172
6.6.6计数最小梗概172
6.7流数据处理系统173
6.7.1 Storm简介173
6.7.2其他流数据处理系统176
6.8思考题177
第7章 文本分析179
7.1文本分析的意义179
7.2文本分析的任务和方法180
7.2.1句子切分、分词、词性标注、语法分析180
7.2.2文本索引和检索(Indexing and Search181
7.2.3文本分类189
7.2.4文本聚类191
7.2.5文档摘要193
7.2.6主题抽取(Topic Theme Extraction)196
7.2.7命名实体识别、概念抽取和关系抽取、事实抽取201
7.2.8情感分析(Sentiment Analysis)209
7.2.9其他文本分析任务与方法210
7.3文本分析可视化215
7.3.1标记云215
7.3.2词共现分析与可视化(Co-Word Analysis&Visualization)215
7.4文本分析软件和工具220
7.4.1 NLTK220
7.4.2 OPEN NLP220
7.4.3 Stanford NLP220
7.4.4 LingPipe220
7.4.5 GATE221
7.4.6 UIMA221
7.4.7 Netlytic222
7.4.8 WordNet和SentiWordNet222
7.5思考题222
第8章 社交网络分析224
8.1简介224
8.2社交网络分析的应用226
8.3社交网络分析方法227
8.3.1网络的一些基本属性227
8.3.2复杂网络的一些拓扑特性229
8.3.3节点的中心性(Centrality)231
8.3.4可达性、路径、最短路径、最小生成树237
8.3.5凝聚子群与社区检测243
8.3.6链路预测、信息扩散与影响力分析245
8.3.7核心-边缘分析248
8.3.8位置和角色、子图查询、网络模体249
8.4软件252
8.4.1 Gephi252
8.4.2 UCINET253
8.4.3 Pajek253
8.4.4 NodeXL253
8.5思考题254
第9章 语义网与知识图谱256
9.1语义网的基本概念256
9.2语义网体系结构257
9.3语义网的关键技术258
9.3.1 XML(Extensible Markup Language,扩展标记语言)258
9.3.2 RDF (Resource Description Framework,资源描述框架)259
9.3.3 OWL与本体Ontology261
9.4知识库与知识图谱262
9.4.1知识库与Linked Open Data262
9.4.2知识图谱264
9.4.3知识图谱的创建267
9.4.4知识图谱的挖掘269
9.5思考题269
第10章 数据可视化、可视分析与探索式数据分析271
10.1什么是可视化271
10.2可视化的强大威力271
10.3可视化的一般过程272
10.4科学可视化与信息可视化273
10.5数据可视化的原则275
10.6可视化实例277
10.6.1散点图与直方图277
10.6.2线图278
10.6.3柱状图与饼图279
10.6.4解剖图、切片、等值面279
10.6.5表现层次关系:树、圆锥树、Tree Map、信息立方体280
10.6.6地图(Map)和地球(Earth)283
10.6.7社交网络(Social network)285
10.6.8堆叠的河流(Stacked River)287
10.6.9多维数据的展示288
10.6.10特色可视化应用290
10.7可视化的挑战和趋势292
10.8可视分析技术293
10.9探索式数据分析296
10.10探索式数据分析的作用296
10.11探索式数据分析的基本方法297
10.11.1了解变量的分布情况,计算统计值298
10.11.2了解变量之间的关系298
10.11.3了解因子变量的相对重要性299
10.11.4在探索式数据分析中对高维数据进行降维300
10.11.5探索式数据分析案例306
10.12可视化工具介绍307
10.12.1 D3.js307
10.12.2 Processing.js308
10.12.3 Protovis308
10.12.4 Prefuse308
10.12.5 Matplotlib309
10.13思考题310
第11章 云计算平台312
11.1云计算的概念与特点312
11.1.1云计算的概念312
11.1.2云计算的特点312
11.1.3云计算与并行计算、分布式计算、集群计算、网格计算的区别与联系313
11.2云计算与大数据处理的关系314
11.3云计算类型与典型系统314
11.4虚拟化技术与数据中心315
11.4.1服务器虚拟化315
11.4.2存储虚拟化316
11.4.3网络虚拟化316
11.4.4数据中心316
11.5主流产品与特点317
11.5.1 VMware317
11.5.2 Hyper-V317
11.5.3 KVM319
11.5.4 Xen319
11.6 Openstack开源虚拟化平台320
11.7主流厂商的云计算产品和服务322
11.7.1 Amazon322
11.7.2微软324
11.7.3 Google325
11.7.4阿里云327
11.8思考题328
第12章Hadoop及其生态系统329
12.1 Hadoop简介329
12.2 Hadoop分布式文件系统330
12.2.1写文件330
12.2.2读文件332
12.2.3 Secondary NameNode介绍333
12.3 MapReduce工作原理334
12.3.1 MapReduce执行引擎334
12.3.2 MapReduce计算模型335
12.3.3 Hadoop 1.0的应用337
12.4 Hadoop生态系统337
Hive原理339
12.5 Hadoop 2.0版(YARN)341
12.5.1 Hadoop 1.0的优势和局限341
12.5.2业务需求推动持续创新342
12.5.3 YARN原理342
12.5.4 YARN的优势344
12.6 Hadoop 2.0上的交互式查询引擎Hive on Tez345
12.6.1 Tez原理345
12.6.2把数据处理逻辑建模成一个DAG连接起来的任务346
12.6.3 Tez (DAG Job)相对于Map-Reduce (Job)的优势347
12.7 Hadoop平台上的列存储技术348
12.7.1列存储的优势348
12.7.2 RCFile348
12.7.3 ORC存储格式349
12.7.4 Parquet文件格式350
12.8思考题356
第13章Spark及其生态系统357
13.1简介357
13.1.1 Spark软件架构357
13.1.2 Spark的主要优势358
13.2 Hadoop的局限和Spark的诞生359
13.3 Spark特性总结360
13.4 Spark生态系统360
13.5 RDD及其处理362
13.5.1 DAG、宽依赖与窄依赖362
13.5.2 DAG的调度执行363
13.5.3共享变量(Shared Variable)365
13.6 SparkSQL365
SparkSQL应用程序366
13.7 Spark应用案例369
Spark的其他应用案例371
13.8小结371
13.9思考题371
第14章Python与数据科学372
14.1 Python概述372
14.2 Python开发环境配置(Setup)374
14.3通过一系列实例学习Python376
14.3.1变量/常量/注释376
14.3.2数据类型376
14.3.3运算符及其优先级、表达式381
14.3.4顺序、分支、循环程序结构383
14.3.5函数、库函数的使用387
14.3.6类和对象、对象的构造、对象摧毁、封装和继承、重写390
14.3.7异常处理392
14.3.8正则表达式393
14.3.9文件I/O(输入输出)394
14.4第三方库和实例394
14.4.1 Pandas介绍与实例395
14.4.2 Scikit-learn介绍与实例406
14.4.3深度学习库Keras(基于Tensorflow, Theano)422
14.4.4 Matplotlib介绍与实例427
14.4.5 NetworkX介绍与实例441
14.4.6 NLTK介绍与实例446
14.5思考题458
第15章 评测基准459
15.1评测基准概述459
15.1.1评测基准的目的和作用459
15.1.2评测基准的构成459
15.1.3评测基准的分类460
15.1.4评测基准的选择460
15.2功能性评测基准Daytona 100TB Gray Sort460
15.3面向OLTP应用的评测基准461
15.3.1 TPC-C标准461
15.3.2 TPC-C的数据模型462
15.3.3 TPC-C的负载462
15.3.4 TPC-C的性能指标463
15.4面向OLAP应用的评测基准463
15.4.1 TPC-H标准463
15.4.2 TPC-H的数据模型463
15.4.3 TPC-H的负载464
15.4.4 3个测试465
15.4.5 TPC-H的性能指标465
15.4.6数据生成器和查询负载生成器466
15.4.7 TPC-DS简介466
15.5面向大数据应用的评测基准467
15.5.1面向数据服务的评测基准—— YCSB467
15.5.2面向大数据分析处理的评测基准——BigBench和Big-DataBench468
15.5.3其他评测基准469
15.6思考题470
第16章 数据科学案例471
16.1 Google流感趋势预测(Google Flu Trends)471
16.2 Target利用数据分析预测到一个高中女生的怀孕472
16.3互联网舆情监控与管理474
16.4投资与信用474
16.4.1大数据指数基金474
16.4.2基于大数据的信用评价476
16.5 IBM Watson计算机与医疗477
16.6奥巴马竞选团队利用大数据分析技术,帮助奥巴马竞选连任成功479
16.7数据科学与科学研究480
16.8奥斯卡大奖预测、总统选举预测、世界杯预测482
16.9用户画像与精准广告482
16.10自动短文评分483
16.11数据产品484
路透社和彭博社的数据产品485
16.12其他数据科学案例485
16.13思考题486
第17章 数据科学实践487
17.1概述487
17.1.1算法交易和量化交易487
17.1.2量化交易系统的四大模块488
17.1.3交易策略的研发、测试、上线过程489
17.1.4量化交易系统的评价指标490
17.2工具和平台介绍491
17.2.1 Zipline函数库介绍491
17.2.2 Quantopian介绍493
17.3基于规则的交易策略495
17.3.1移动平均交叉交易策略495
17.3.2均值回归交易策略496
17.4基于机器学习的交易策略497
17.4.1基于Random Forest分类器的交易策略(分类)497
17.4.2基于SVM回归模型的交易策略(回归)499
17.5关于若干专题的讨论502
17.5.1股票价格预测的基础数据502
17.5.2特征选择(Feature Selection)503
17.5.3模型的组合(Model Com-bination)511
17.5.4离线的模型训练(Offline Model Training)514
17.5.5使用大数据处理引擎处理大数据(Using of Big Data Engine)515
17.5.6在交易模型中集成情感分析结果(Integrating Sentiment Analysis into Trading Model)515
17.6思考题517
第18章 附录518
18.1参考文献518
第1章 数据科学概论518
第2章OLTP与数据服务518
第3章OLAP与结构化数据分析519
第4章 数据清洗与数据集成521
第5章 数据的深度分析(数据挖掘、机器学习)522
第6章 流数据处理526
第7章 文本分析527
第8章 社交网络分析530
第9章 语义网与知识图谱533
第10章 数据可视化、可视分析与探索式数据分析534
第11章 云计算平台536
第12章Hadoop及其生态系统537
第13章Spark及其生态系统539
第14章Python与数据科学539
第15章 评测基准540
第16章 数据科学案例541
第17章 数据科学实践543
18.2专有名词544
热门推荐
- 3163214.html
- 922213.html
- 943676.html
- 1722725.html
- 1321711.html
- 481414.html
- 2932766.html
- 1575338.html
- 3104823.html
- 2656036.html
- http://www.ickdjs.cc/book_2762367.html
- http://www.ickdjs.cc/book_3045641.html
- http://www.ickdjs.cc/book_1291895.html
- http://www.ickdjs.cc/book_3537738.html
- http://www.ickdjs.cc/book_3246282.html
- http://www.ickdjs.cc/book_3256773.html
- http://www.ickdjs.cc/book_944130.html
- http://www.ickdjs.cc/book_689537.html
- http://www.ickdjs.cc/book_3724140.html
- http://www.ickdjs.cc/book_2960818.html