數據算法 Hadoop/Spark大數據處理技巧pdf

圖書網
圖書網
圖書網
11939
文章
1920
評論
2021年1月31日21:53:26
評論
96
摘要

適讀人群 :這本書面向了解Java基礎知識并且想使用Hadoop和Spark 開發MapReduce 算法(數據挖掘、機器學習、生物信息技術、基因組和統計領域)和解決方案的軟件工程師、軟件架構師、數據科學家和應用開發人員。
市面上N0.1本關于Hadoop與Spark大數據處理技巧的教程,提供了豐富的算法和工具。

數據算法 Hadoop/Spark大數據處理技巧 作者:[美] Mahmoud Parsian(馬哈默德·帕瑞斯安)

數據算法 Hadoop/Spark大數據處理技巧 出版社:中國電力出版社

數據算法 Hadoop/Spark大數據處理技巧 內容簡介

《數據算法:Hadoop/Spark大數據處理技巧》介紹了很多基本設計模式、優化技術和數據挖掘及機器學習解決方案,以解決生物信息學、基因組學、統計和社交網絡分析等領域的很多問題。這還概要介紹了MapReduce、Hadoop和Spark。

主要內容包括:

香蕉小视频app■ 完成超大量交易的購物籃分析。

■ 數據挖掘算法(K-均值、KNN和樸素貝葉斯)。

香蕉小视频app■ 使用超大基因組數據完成DNA和RNA測序。

香蕉小视频app■ 樸素貝葉斯定理和馬爾可夫鏈實現數據和市場預測。

■ 推薦算法和成對文檔相似性。

■ 線性回歸、Cox回歸和皮爾遜(Pearson)相關分析。

■ 等位基因頻率和DNA挖掘。

■ 社交網絡分析(推薦系統、三角形計數和情感分析)。

數據算法 Hadoop/Spark大數據處理技巧 目錄

序 1

前言 3

第1章二次排序:簡介 19

二次排序問題解決方案 21

香蕉小视频appMapReduce/Hadoop的二次排序解決方案 25

香蕉小视频appSpark的二次排序解決方案 29

第2章二次排序:詳細示例 42

二次排序技術 43

二次排序的完整示例 46

運行示例——老版本Hadoop API 50

香蕉小视频app運行示例——新版本Hadoop API 52

香蕉小视频app第3章 Top 10 列表 54

香蕉小视频appTop N 設計模式的形式化描述 55

MapReduce/Hadoop實現:唯一鍵 56

Spark實現:唯一鍵 62

香蕉小视频appSpark實現:非唯一鍵 73

使用takeOrdered()的Spark Top 10 解決方案 84

香蕉小视频appMapReduce/Hadoop Top 10 解決方案:非唯一鍵 91

第4章左外連接 96

左外連接示例 96

香蕉小视频appMapReduce左外連接實現 99

香蕉小视频appSpark左外連接實現 105

使用leftOuterJoin()的Spark實現 117

第5章反轉排序 127

反轉排序模式示例 128

反轉排序模式的MapReduce/Hadoop實現 129

運行示例 134

第6章移動平均 137

香蕉小视频app示例1:時間序列數據(股票價格) 137

示例2:時間序列數據(URL訪問數) 138

形式定義 139

POJO移動平均解決方案 140

香蕉小视频appMapReduce/Hadoop移動平均解決方案 143

香蕉小视频app第7章購物籃分析 155

MBA目標 155

MBA的應用領域 157

使用MapReduce的購物籃分析 157

Spark解決方案 166

香蕉小视频app運行Spark實現的YARN 腳本 179

第8章共同好友 182

輸入 183

POJO共同好友解決方案 183

MapReduce算法 184

解決方案1: 使用文本的Hadoop實現 187

香蕉小视频app解決方案2: 使用ArrayListOfLongsWritable 的Hadoop實現 189

Spark解決方案 191

第9章使用MapReduce實現推薦引擎 201

購買過該商品的顧客還購買了哪些商品 202

香蕉小视频app經常一起購買的商品 206

推薦連接 210

第10章基于內容的電影推薦 225

輸入 226

MapReduce階段1 226

香蕉小视频appMapReduce階段2和階段3 227

香蕉小视频appSpark電影推薦實現 234

第11章使用馬爾可夫模型的智能郵件營銷 .253

馬爾可夫鏈基本原理 254

使用MapReduce的馬爾可夫模型 256

Spark解決方案 269

香蕉小视频app第12章 K-均值聚類 282

什么是K-均值聚類? 285

香蕉小视频app聚類的應用領域 285

香蕉小视频appK-均值聚類方法非形式化描述:分區方法 286

K-均值距離函數 286

K-均值聚類形式化描述 287

K-均值聚類的MapReduce解決方案 288

K-均值算法Spark實現 292

第13章 k-近鄰 296

kNN分類 297

距離函數 297

kNN示例 298

kNN算法非形式化描述 299

香蕉小视频appkNN算法形式化描述 299

kNN的類Java非MapReduce 解決方案 299

Spark的kNN算法實現 301

第14章樸素貝葉斯 315

香蕉小视频app訓練和學習示例 316

條件概率 319

香蕉小视频app深入分析樸素貝葉斯分類器 319

樸素貝葉斯分類器:符號數據的MapReduce解決方案 322

樸素貝葉斯分類器Spark實現 332

使用Spark和Mahout 347

香蕉小视频app第15章情感分析 349

情感示例 350

香蕉小视频app情感分數:正面或負面 350

香蕉小视频app一個簡單的MapReduce情感分析示例 351

真實世界的情感分析 353

第16章查找、統計和列出大圖中的所有三角形 354

基本的圖概念 355

三角形計數的重要性 356

香蕉小视频appMapReduce/Hadoop解決方案 357

Spark解決方案 364

第17章 K-mer計數 375

K-mer計數的輸入數據 376

K-mer計數應用 376

香蕉小视频appK-mer計數MapReduce/Hadoop解決方案 377

K-mer計數Spark解決方案 378

第18章 DNA測序 390

DNA測序的輸入數據 392

輸入數據驗證 393

DNA序列比對 393

DNA測試的MapReduce算法 394

香蕉小视频app第19章 Cox回歸 413

Cox模型剖析 414

使用R的Cox回歸 415

Cox回歸應用 416

香蕉小视频appCox回歸 POJO解決方案 417

MapReduce輸入 418

使用MapReduce的Cox回歸 419

香蕉小视频app第20章 Cochran-Armitage趨勢檢驗 426

香蕉小视频appCochran-Armitage算法 427

Cochran-Armitage應用 432

MapReduce解決方案 435

第21章等位基因頻率 443

基本定義 444

香蕉小视频app形式化問題描述 448

香蕉小视频app等位基因頻率分析的MapReduce解決方案 449

MapReduce解決方案, 階段1 449

香蕉小视频appMapReduce解決方案,階段2 459

香蕉小视频appMapReduce解決方案, 階段3 463

染色體X 和Y的特殊處理 466

香蕉小视频app第22章 T檢驗 468

對bioset完成T檢驗 469

香蕉小视频appMapReduce問題描述 472

輸入 472

期望輸出 473

香蕉小视频appMapReduce解決方案 473

香蕉小视频appSpark實現 476

第23章皮爾遜相關系數 488

皮爾遜相關系數公式 489

香蕉小视频app皮爾遜相關系數示例 491

皮爾遜相關系數數據集 492

皮爾遜相關系數POJO 解決方案 492

香蕉小视频app皮爾遜相關系數MapReduce解決方案 493

皮爾遜相關系數的Spark 解決方案 496

運行Spark程序的YARN 腳本 516

香蕉小视频app使用Spark計算斯皮爾曼相關系數 517

香蕉小视频app第24章 DNA堿基計數 520

香蕉小视频appFASTA 格式 521

FASTQ 格式 522

香蕉小视频appMapReduce解決方案:FASTA 格式 522

運行示例 524

MapReduce解決方案: FASTQ 格式 528

Spark 解決方案: FASTA 格式 533

Spark解決方案: FASTQ 格式 537

第25章 RNA測序 543

香蕉小视频app數據大小和格式 543

MapReduce工作流 544

RNA測序分析概述 544

香蕉小视频appRNA測序MapReduce算法 548

香蕉小视频app第26章基因聚合 553

輸入 554

輸出 554

香蕉小视频appMapReduce解決方案(按單個值過濾和按平均值過濾) 555

香蕉小视频app基因聚合的Spark解決方案 567

Spark解決方案:按單個值過濾 567

香蕉小视频appSpark解決方案:按平均值過濾 576

第27章線性回歸 586

基本定義 587

簡單示例 587

問題描述 588

輸入數據 589

期望輸出 590

使用SimpleRegression的MapReduce解決方案 590

Hadoop實現類 593

香蕉小视频app使用R線性模型的MapReduce解決方案 593

第28章 MapReduce和幺半群 600

概述 600

幺半群的定義 602

幺半群和非幺半群示例 603

MapReduce示例:非幺半群 606

MapReduce示例:幺半群 608

使用幺半群的Spark示例 612

使用幺半群的結論 618

函子和幺半群 619

第29章小文件問題 622

解決方案1:在客戶端合并小文件 623

香蕉小视频app解決方案2:用CombineFileInputFormat解決小文件問題 629

其他解決方案 634

香蕉小视频app第30章 MapReduce的大容量緩存 635

實現方案 636

緩存問題形式化描述 637

一個精巧、可伸縮的解決方案 637

香蕉小视频app實現LRUMap緩存 640

香蕉小视频app使用LRUMap的MapReduce解決方案 646

第31章 Bloom過濾器 651Bloom

過濾器性質 651

一個簡單的Bloom過濾器示例 653

圖書網:數據算法 Hadoop/Spark大數據處理技巧pdf

繼續閱讀
資源地址:用心發表評論,回復即可查看(字數限制至少10字以上)。
  • 我的微信
  • 掃一掃加好友
  • weinxin
  • 微信公眾號
  • 掃一掃關注
  • weinxin
盤口內經 告訴你一個真實的大盤pdf 證券/股票

盤口內經 告訴你一個真實的大盤pdf

盤口內經 告訴你一個真實的大盤 作者:索曉輝 盤口內經 告訴你一個真實的大盤 出版社:中國電力出版社 盤口內經 告訴你一個真實的大盤 內容簡介 學會看盤,看懂大盤,是每一個股民的必修課。為了提高股票投...
SQL Server 2005基礎教程與實驗指導pdf 數據庫

SQL Server 2005基礎教程與實驗指導pdf

《SQL Server2005基礎教程與實驗指導》共分10章,介紹了管理SQL Server 2005數據庫內容,基于表的操作、數據完整性以及表的索引和視圖,數據庫查詢和管理,T-...
架構大數據 大數據技術及算法解析pdf 數據庫

架構大數據 大數據技術及算法解析pdf

適讀人群 :本書可作為大數據技術入門和進階的專業書籍,同時也可作為高等院校大數據相關課程的教材和教學參考用書。 本書從大數據架構的角度全面解析大數據技術及算法,探討大數據的發展和趨...
匿名

發表評論

匿名網友 填寫信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: