機器學習

Gssol
20170620 星期二

1 機器學習概念

  • 機器學習,通常的機器指的是“計算機”,機器學習就是讓計算機自己學習。最主要的思想是“統(tǒng)計”和“分類”。

  • 通常的是給計算機一些指令,然后計算機進行處理;而機器學習主要是分析數(shù)據(jù),產(chǎn)生模型,進而進行預測。

  • “等人事件”: 例如和某人有約,但不知道對方到達時間我們可以根據(jù)對方平時的到達情況來判斷自己什么出門等待的時間最少。我們是根據(jù)之前的情況來進行分析,利用機器學習,讓計算機自己統(tǒng)計之前的數(shù)據(jù)進行分析,從而對本次情況進行預測。可以利用決策樹來處理等人問題。當然天氣、堵車情況也會對結(jié)果造成影響,暫不考慮。
    “分類事件”:對垃圾郵件進行分類,找出某種鳥(對鳥類進行分類)


2 監(jiān)督學習與無監(jiān)督學習

  • 監(jiān)督學習:必須知道預測什么,即目標變量的分類信息。需要將實例數(shù)據(jù)劃分到合適的分類中,然后進行回歸,產(chǎn)生曲線,進而預測數(shù)據(jù)。

  • 無監(jiān)督學習:數(shù)據(jù)沒有類別信息,也不會給定目標值。將數(shù)據(jù)集合分成由類似的對象組成的多個類的過程稱為聚類,將尋找描述數(shù)據(jù)統(tǒng)計值的過程稱為密度估計,還可以減少數(shù)據(jù)特征的維度,更加直觀地顯示數(shù)據(jù)信息。
    大學生就業(yè)培訓,高中生培訓,在職人員轉(zhuǎn)行培訓,企業(yè)團訓


3 k-近鄰算法

k-近鄰算法
Pros:精度高、對異常值不敏感、無數(shù)據(jù)輸入設(shè)定
Cons:計算復雜度高、空間復雜度高
Works with:數(shù)值型和標稱型

3.1 電影題材分類問題

判斷一部未知電影是愛情片還是戰(zhàn)爭片,我們可以統(tǒng)計接吻次數(shù)和打斗次數(shù)來進行判斷。
下面是六部電影的統(tǒng)計情況,?位需要判斷的電影。
大學生就業(yè)培訓,高中生培訓,在職人員轉(zhuǎn)行培訓,企業(yè)團訓

可以通過計算未知電影與已知的六部電影之間的距離,然后找出距離最小的前k位(通常k<20),再進行

網(wǎng)友評論