機器學習實戰[Machine learning in action]pdf

圖書網
圖書網
圖書網
11875
文章
1880
評論
2018年12月28日09:06:082800
摘要

介紹并實現機器學習的主流算法
面向日常任務的高效實戰內容
《機器學習實戰》沒有從理論角度來揭示機器學習算法背后的數學原理,而是通過“原理簡述+問題實例+實際代碼+運行效果”來介紹每一個算法。學習計算機的人都知道,計算機是一門實踐學科,沒有真正實現運行,很難真正理解算法的精髓。這本書的好處就是邊學邊用,非常適合于急需邁進機器學習領域的人員學習。實際上,即使對于那些對機器學習有所了解的人來說,通過代碼實現也能進一步加深對機器學習算法的理解。
《機器學習實戰》的代碼采用Python語言編寫。Python代碼簡單優雅、易于上手,科學計算軟件包眾多,已經成為不少大學和研究機構進行計算機教學和科學計算的語言。相信Python編寫的機器學習代碼也能讓讀者盡快領略到這門學科的精妙之處。

機器學習實戰[Machine learning in action] 內容簡介

香蕉小视频app機器學習是人工智能研究領域中一個極其重要的研究方向,在現今的大數據時代背景下,捕獲數據并從中萃取有價值的信息或模式,成為各行業求生存、謀發展的決定性手段,這使得這一過去為分析師和數學家所專屬的研究領域越來越為人們所矚目。

《機器學習實戰》主要介紹機器學習基礎,以及如何利用算法進行分類,并逐步介紹了多種經典的監督學習算法,如k近鄰算法、樸素貝葉斯算法、Logistic回歸算法、支持向量機、AdaBoost集成方法、基于樹的回歸算法和分類回歸樹(CART)算法等。第三部分則重點介紹無監督學習及其一些主要算法:k均值聚類算法、Apriori算法、FP-Growth算法。第四部分介紹了機器學習算法的一些附屬工具。

《機器學習實戰》通過精心編排的實例,切入日常工作任務,摒棄學術化語言,利用高效的可復用Python代碼來闡釋如何處理統計數據,進行數據分析及可視化。通過各種實例,讀者可從中學會機器學習的核心算法,并能將其運用于一些策略性任務中,如分類、預測、推薦。另外,還可用它們來實現一些更高級的功能,如匯總和簡化等。

機器學習實戰[Machine learning in action] 目錄

第一部分 分類

第1章 機器學習基礎

1.1  何謂機器學習

香蕉小视频app1.1.1  傳感器和海量數據

1.1.2  機器學習非常重要

1.2  關鍵術語

1.3  機器學習的主要任務

1.4  如何選擇合適的算法

1.5  開發機器學習應用程序的步驟

香蕉小视频app1.6  Python語言的優勢

1.6.1  可執行偽代碼

1.6.2  Python比較流行

香蕉小视频app1.6.3  Python語言的特色

香蕉小视频app1.6.4  Python語言的缺點

香蕉小视频app1.7  NumPy函數庫基礎

1.8  本章小結

第2章 k-近鄰算法

香蕉小视频app2.1  k-近鄰算法概述

香蕉小视频app2.1.1  準備:使用Python導入數據

香蕉小视频app2.1.2  從文本文件中解析數據

2.1.3  如何測試分類器

香蕉小视频app2.2  示例:使用k-近鄰算法改進約會網站的配對效果

2.2.1  準備數據:從文本文件中解析數據

2.2.2  分析數據:使用Matplotlib創建散點圖

2.2.3  準備數據:歸一化數值

2.2.4  測試算法:作為完整程序驗證分類器

香蕉小视频app2.2.5  使用算法:構建完整可用系統

香蕉小视频app2.3  示例:手寫識別系統

香蕉小视频app2.3.1  準備數據:將圖像轉換為測試向量

香蕉小视频app2.3.2  測試算法:使用k-近鄰算法識別手寫數字

2.4  本章小結

第3章 決策樹

香蕉小视频app3.1  決策樹的構造

3.1.1  信息增益

3.1.2  劃分數據集

3.1.3  遞歸構建決策樹

3.2  在Python中使用Matplotlib注解繪制樹形圖

3.2.1  Matplotlib注解

3.2.2  構造注解樹

香蕉小视频app3.3  測試和存儲分類器

香蕉小视频app3.3.1  測試算法:使用決策樹執行分類

香蕉小视频app3.3.2  使用算法:決策樹的存儲

香蕉小视频app3.4  示例:使用決策樹預測隱形眼鏡類型

3.5  本章小結

第4章 基于概率論的分類方法:樸素貝葉斯

香蕉小视频app4.1  基于貝葉斯決策理論的分類方法

4.2  條件概率

4.3  使用條件概率來分類

香蕉小视频app4.4  使用樸素貝葉斯進行文檔分類

4.5  使用Python進行文本分類

香蕉小视频app4.5.1  準備數據:從文本中構建詞向量

4.5.2  訓練算法:從詞向量計算概率

4.5.3  測試算法:根據現實情況修改分類器

4.5.4  準備數據:文檔詞袋模型

香蕉小视频app4.6  示例:使用樸素貝葉斯過濾垃圾郵件

香蕉小视频app4.6.1  準備數據:切分文本

香蕉小视频app4.6.2  測試算法:使用樸素貝葉斯進行交叉驗證

4.7  示例:使用樸素貝葉斯分類器從個人廣告中獲取區域傾向

4.7.1  收集數據:導入RSS源

4.7.2  分析數據:顯示地域相關的用詞

4.8  本章小結

第5章 Logistic回歸

5.1  基于Logistic回歸和Sigmoid函數的分類

香蕉小视频app5.2  基于最優化方法的最佳回歸系數確定

香蕉小视频app5.2.1  梯度上升法

5.2.2  訓練算法:使用梯度上升找到最佳參數

香蕉小视频app5.2.3  分析數據:畫出決策邊界

5.2.4  訓練算法:隨機梯度上升

5.3  示例:從疝氣病癥預測病馬的死亡率

5.3.1  準備數據:處理數據中的缺失值

5.3.2  測試算法:用Logistic回歸進行分類

5.4  本章小結

第6章 支持向量機

6.1  基于最大間隔分隔數據

香蕉小视频app6.2  尋找最大間隔

6.2.1  分類器求解的優化問題

6.2.2  SVM應用的一般框架

香蕉小视频app6.3  SMO高效優化算法

6.3.1  Platt的SMO算法

香蕉小视频app6.3.2  應用簡化版SMO算法處理小規模數據集

香蕉小视频app6.4  利用完整Platt SMO算法加速優化

6.5  在復雜數據上應用核函數

6.5.1  利用核函數將數據映射到高維空間

香蕉小视频app6.5.2  徑向基核函數

6.5.3  在測試中使用核函數

6.6  示例:手寫識別問題回顧

6.7  本章小結

第7章 利用AdaBoost元算法提高分類性能

7.1  基于數據集多重抽樣的分類器

香蕉小视频app7.1.1  bagging:基于數據隨機重抽樣的分類器構建方法

7.1.2  boosting

香蕉小视频app7.2  訓練算法:基于錯誤提升分類器的性能

7.3  基于單層決策樹構建弱分類器

香蕉小视频app7.4  完整AdaBoost算法的實現

7.5  測試算法:基于AdaBoost的分類

7.6  示例:在一個難數據集上應用AdaBoost

香蕉小视频app7.7  非均衡分類問題

7.7.1  其他分類性能度量指標:正確率、召回率及ROC曲線

7.7.2  基于代價函數的分類器決策控制

香蕉小视频app7.7.3  處理非均衡問題的數據抽樣方法

7.8  本章小結

香蕉小视频app第二部分 利用回歸預測數值型數據

香蕉小视频app第8章 預測數值型數據:回歸

8.1  用線性回歸找到最佳擬合直線

8.2  局部加權線性回歸

香蕉小视频app8.3  示例:預測鮑魚的年齡

8.4  縮減系數來“理解”數據

8.4.1  嶺回歸

香蕉小视频app8.4.2  lasso

8.4.3  前向逐步回歸

香蕉小视频app8.5  權衡偏差與方差

8.6  示例:預測樂高玩具套裝的價格

香蕉小视频app8.6.1  收集數據:使用Google購物的API

8.6.2  訓練算法:建立模型

8.7  本章小結

第9章 樹回歸

9.1  復雜數據的局部性建模

9.2  連續和離散型特征的樹的構建

香蕉小视频app9.3  將CART算法用于回歸

9.3.1  構建樹

香蕉小视频app9.3.2  運行代碼

9.4  樹剪枝

9.4.1  預剪枝

9.4.2  后剪枝

9.5  模型樹

香蕉小视频app9.6  示例:樹回歸與標準回歸的比較

香蕉小视频app9.7  使用Python的Tkinter庫創建GUI

香蕉小视频app9.7.1  用Tkinter創建GUI

香蕉小视频app9.7.2  集成Matplotlib和Tkinter

9.8  本章小結

第三部分 無監督學習

第10章 利用K-均值聚類算法對未標注數據分組

香蕉小视频app10.1  K-均值聚類算法

10.2  使用后處理來提高聚類性能

香蕉小视频app10.3  二分K-均值算法

10.4  示例:對地圖上的點進行聚類

10.4.1  Yahoo! PlaceFinder API

10.4.2  對地理坐標進行聚類

10.5  本章小結

香蕉小视频app第11章 使用Apriori算法進行關聯分析

11.1  關聯分析

11.2  Apriori原理

11.3  使用Apriori算法來發現頻繁集

香蕉小视频app11.3.1  生成候選項集

11.3.2  組織完整的Apriori算法

11.4  從頻繁項集中挖掘關聯規則

香蕉小视频app11.5  示例:發現國會投票中的模式

11.5.1  收集數據:構建美國國會投票記錄的事務數據集

11.5.2  測試算法:基于美國國會投票記錄挖掘關聯規則

11.6  示例:發現毒蘑菇的相似特征

11.7  本章小結

香蕉小视频app第12章 使用FP-growth算法來高效發現頻繁項集

12.1  FP樹:用于編碼數據集的有效方式

12.2  構建FP樹

12.2.1  創建FP樹的數據結構

香蕉小视频app12.2.2  構建FP樹

12.3  從一棵FP樹中挖掘頻繁項集

12.3.1  抽取條件模式基

香蕉小视频app12.3.2  創建條件FP樹

12.4  示例:在Twitter源中發現一些共現詞

12.5  示例:從新聞網站點擊流中挖掘

12.6  本章小結

第四部分 其他工具

香蕉小视频app第13章 利用PCA來簡化數據

13.1  降維技術

13.2  PCA

13.2.1  移動坐標軸

13.2.2  在NumPy中實現PCA

13.3  示例:利用PCA對半導體制造數據降維

13.4  本章小結

香蕉小视频app第14章 利用SVD簡化數據

香蕉小视频app14.1  SVD的應用

14.1.1  隱性語義索引

14.1.2  推薦系統

14.2  矩陣分解

14.3  利用Python實現SVD

香蕉小视频app14.4  基于協同過濾的推薦引擎

香蕉小视频app14.4.1  相似度計算

香蕉小视频app14.4.2  基于物品的相似度還是基于用戶的相似度?

14.4.3  推薦引擎的評價

14.5  示例:餐館菜肴推薦引擎

14.5.1  推薦未嘗過的菜肴

14.5.2  利用SVD提高推薦的效果

14.5.3  構建推薦引擎面臨的挑戰

14.6  基于SVD的圖像壓縮

14.7  本章小結

第15章 大數據與MapReduce

香蕉小视频app15.1  MapReduce:分布式計算的框架

香蕉小视频app15.2  Hadoop流

15.2.1  分布式計算均值和方差的mapper

香蕉小视频app15.2.2  分布式計算均值和方差的reducer

15.3  在Amazon網絡服務上運行Hadoop程序

15.3.1  AWS上的可用服務

15.3.2  開啟Amazon網絡服務之旅

15.3.3  在EMR上運行Hadoop作業

15.4  MapReduce上的機器學習

15.5  在Python中使用mrjob來自動化MapReduce

15.5.1  mrjob與EMR的無縫集成

香蕉小视频app15.5.2  mrjob的一個MapReduce腳本剖析

15.6  示例:分布式SVM的Pegasos算法

香蕉小视频app15.6.1  Pegasos算法

15.6.2  訓練算法:用mrjob實現MapReduce版本的SVM

15.7  你真的需要MapReduce嗎?

15.8  本章小結

附錄A  Python入門

附錄B  線性代數

附錄C  概率論復習

附錄D  資源

索引

版權聲明

機器學習實戰[Machine learning in action] 精彩文摘

7.1.1 bagging:基于數據隨機重抽樣的分類器構建方法

香蕉小视频app自舉匯聚法(bootstrap aggregating),也稱為bagging方法,是在從原始數據集選擇S次后得到S個新數據集的一種技術。新數據集和原數據集的大小相等。每個數據集都是通過在原始數據集中隨機選擇一個樣本來進行替換而得到的①。這里的替換就意味著可以多次地選擇同一樣本。這一性質就允許新數據集中可以有重復的值,而原始數據集的某些值在新集合中則不再出現。

香蕉小视频app在S個數據集建好之后,將某個學習算法分別作用于每個數據集就得到了S個分類器。當我們要對新數據進行分類時,就可以應用這S個分類器進行分類。與此同時,選擇分類器投票結果中最多的類別作為最后的分類結果。

香蕉小视频app當然,還有一些更先進的bagging方法,比如隨機森林(random forest)。有關這些方法的一個很好的討論材料參見網頁接下來我們將注意力轉向一個與bagging類似的集成分類器方法boosting。

香蕉小视频app7.1.2 boosting

boosting是一種與bagging很類似的技術。不論是在boosting還是bagging當中,所使用的多個分類器的類型都是一致的。但是在前者當中,不同的分類器是通過串行訓練而獲得的,每個新分類器都根據已訓練出的分類器的性能來進行訓練。boosting是通過集中關注被已有分類器錯分的那些數據來獲得新的分類器。

由于boosting分類的結果是基于所有分類器的加權求和結果的,因此boosting與bagging不太一樣。bagging中的分類器權重是相等的,而boosting中的分類器權重并不相等,每個權重代表的是其對應分類器在上一輪迭代中的成功度。

boosting方法擁有多個版本,本章將只關注其中一個最流行的版本AdaBoost。

香蕉小视频app下面我們將要討論AdaBoost背后的一些理論,并揭示其效果不錯的原因。

7.2訓練算法:基于錯誤提升分類器的性能

能否使用弱分類器和多個實例來構建一個強分類器?這是一個非常有趣的理論問題。這里的“弱”意味著分類器的性能比隨機猜測要略好,但是也不會好太多。這就是說,在二分類情況下弱分類器的錯誤率會高于50%,而“強”分類器的錯誤率將會低很多。AdaBoost算法即脫胎于上述理論問題。

AdaBoost是adaptive boosting(自適應boosting)的縮寫,其運行過程如下:訓練數據中的每個樣本,并賦予其一個權重,這些權重構成了向量D。一開始,這些權重都初始化成相等值。首先在訓練數據上訓練出一個弱分類器并計算該分類器的錯誤率,然后在同一數據集上再次訓練弱分類器。在分類器的第二次訓練當中,將會重新調整每個樣本的權重,其中第一次分對的樣本的權重將會降低,而第一次分錯的樣本的權重將會提高。為了從所有弱分類器中得到最終的分類結果,AdaBoost為每個分類器都分配了一個權重值alpha,這些alpha值是基于每個弱分類器的錯誤率進行計算的。其中,錯誤率ε的定義為:

而alpha的計算公式如下:

AdaBoost算法的流程如圖7—1所示。

圖書網:機器學習實戰[Machine learning in action]pdf

繼續閱讀
資源地址:用心發表評論,回復即可查看(字數限制至少10字以上)。
  • 我的微信
  • 掃一掃加好友
  • weinxin
  • 微信公眾號
  • 掃一掃關注
  • weinxin
機器學習實踐應用pdf 人工智能

機器學習實踐應用pdf

機器學習實踐應用 作者:李博 機器學習實踐應用 出版社:人民郵電出版社 機器學習實踐應用 內容簡介 機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度等多門學科,專門研究計算...
TensorFlow機器學習項目實戰pdf 人工智能

TensorFlow機器學習項目實戰pdf

本書是介紹如何在產品中使用TensorFlow的實用教程。本書介紹了可以使用TensorFlow的多種情況, 并通過真實世界的項目, 向讀者展示了如何使用TensorFlow。本書...
Keras快速上手 基于Python的深度學習實戰pdf 人工智能

Keras快速上手 基于Python的深度學習實戰pdf

《Keras快速上手:基于Python的深度學習實戰》從如何準備深度學習的環境開始,手把手地教讀者如何采集數據,如何運用一些常用,也是目前被認為有效的一些深度學習算法來解決實際問題...
匿名

發表評論

匿名網友 填寫信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

評論:2   其中:訪客  2   博主  0
    • nononee nononee 9

      非常好

      • fayemo fayemo 0

        香蕉小视频app希望真的能下載,看一下看一下