Anomaly Detection 異常偵測
把一些異常值從 dataset 中挑出來
Anscombe's Quartet 安斯庫姆四重奏
四張圖表表示四組基本的統計特性一致的數據,但是各自畫出來的圖表完全不同
主要是在說統計方法有其侷限和離群值對統計的影響之大
還有就是分析數據前應該要先畫圖表
ref:
https://www.wikiwand.com/zh-tw/%E5%AE%89%E6%96%AF%E5%BA%93%E5%A7%86%E5%9B%9B%E9%87%8D%E5%A5%8F
Association Rule 關聯規則
找出資料之間的隱含關係
例如知名的啤酒與尿布
Best Subset Selection
是一種 model selection 的方法
Cost Function / Loss Function 損失函數
大部分的 machine learning 模型都是在計算 cost function
想辦法求出讓 cost function 最小化或最大化的各項參數
常用的 cost function 有 Mean Squared Error (MSE), Root Mean Squared Error (RMSE) 等
ref:
https://ml.berkeley.edu/blog/2016/11/06/tutorial-1/
Cross-validation 交叉驗證
cross-validation 常常用來做 hyperparameter tuning
最主流的方式是 k-fold
假設 k 是 3
你先把整個 dataset 拆分成 training set 和 test set
通常你會有很多組想要測試的超參數
則每一組超參數都會經歷以下過程:
- 把 training set 分成三等份
- 先用 1 + 2 訓練模型,用 3 來評估
- 再用 1 + 3 訓練模型,用 2 來評估
- 再用 2 + 3 訓練模型,用 1 來評估
- 然後對三組評估結果取平均作為這組超參數的分數
等到測試過所有超參數的組合之後
用表現最好的那一組超參數對整個 training set 再訓練一次
得到最終的模型
這時候再用 test set 來做最終模型的評估
ref:
https://spark.apache.org/docs/latest/ml-tuning.html#cross-validation
不過如果你的 dataset 真的沒那麼大
也是可以對整個 dataset 對 cross-validation
就不要先拆分 training set 和 test set 了
ref:
https://stats.stackexchange.com/questions/148688/cross-validation-with-test-data-set
還有一種方式是 leave-one-out 或 leave-n-out
每次只用一個 sample 來驗證
其餘的都用來訓練模型
直到每個 sample 都被用來驗證過
Curse of Dimensionality 維度災難
當數據的維度(feature 數)超過某個程度之後
導致計算的時間過久、記憶體用量過大(因為是指數型增加)
也必然會造成數據稀疏
特徵越多也可能造成 overfitting
ref:
https://www.quora.com/What-is-the-curse-of-dimensionality
http://stats.stackexchange.com/questions/169156/explain-curse-of-dimensionality-to-a-child
Decision Boundary 決策邊界
A smoother boundary corresponds to a simpler model.
每個特徵表示為一個維度
decision boundary 就是能夠把整個特徵空間裡的 dataset 正確劃分的一條邊界
這個邊界可能是 linear 或 non-linear
Dimensionality Reduction 降維
算是 unsupervised learning 的一種(transformations of the dataset)
可以分成 feature selection 和 feature extraction
在不喪失太多資訊的前提下減少 features 的維度
換個說法是嘗試用更少的維度來表示這個 dataset
維度減少的好處是提升計算效率和更容易進行 visualization
ref:
https://www.wikiwand.com/en/Dimensionality_reduction
從一堆 features 中選擇最有用的 features
稱為 feature selection
常見的方法有 Greedy forward selection
把原本高維度的 features 轉換成較少維度的 features
稱為 feature extraction
轉換之後已經不是原本的那些 features 了
常見的方法有 Principal Component Analysis (PCA)、Non-negative Matrix Factorization (NMF)
ref:
https://www.wikiwand.com/en/Feature_engineering
https://www.wikiwand.com/en/Feature_selection
Ensemble Learning 組合式學習
就是指結合多種演算法的 machine learning
例如 Random Forest(decision trees + bagging)
常見的 ensemble methods 有:
bagging (aka bootstrap aggregating)
boosting
Error 誤差 / Bias 偏差 / Variance 方差
Error = Bias + Variance 是指整個模型的準確度
Bias 是指預測值和真實值之間的差距,表示模型的精準度(反映的是模型在樣本上的輸出與真實值之間的誤差)
偏差越大,越偏離真實數據
因為模型太簡單而帶來的預測不準確 >> high bias
Variance 是指預測值的變化範圍,表示模型的穩定性(反映的是模型每一次輸出結果與模型輸出期望之間的誤差)
方差越大,數據的分佈越分散
因為模型太複雜而帶來的更大的空間變化和不確定性 >> high variance
ref:
https://www.zhihu.com/question/20448464 有圖
https://www.zhihu.com/question/27068705
Feature Engineering 特徵工程
就是找出(或是創造出)能夠讓演算法運作得更好的 features 的過程
也可能是整合、轉換多個相關的 features 變成一個新的 feature
通常會避免使用過多的 features 餵給演算法
Forward Stepwise Selection
一次增加一個 feature 來訓練 model
每次都計算準確率
直到所有 features 都用到
Backwards Stepwise Selection 就是反過來
Generalization 泛化
If a model is able to make accurate predictions on unseen data, we say it is able to generalize from the training set to the test set.
就是指 model 預測 unseen data 的能力
例如一個 overfitting 的 model,它的泛化能力就不好
ref:
https://www.quora.com/What-is-generalization-in-machine-learning
Gradient Descent 梯度下降
是一種找出最小的 cost function 的演算法
也就是找出最好的 model parameters
Greedy Feature Selection
一次只用一個 feature 來訓練 model
In greedy feature selection we choose one feature, train a model and evaluate the performance of the model on a fixed evaluation metric. We keep adding and removing features one-by-one and record performance of the model at every step. We then select the features which have the best evaluation score.
Hyperparameter 超參數
就是在訓練 model 時輸入的參數,那些 model 沒辦法自己學到,必須人工指定的參數。通常會透過 grid search 和 cross-validation 的方式選出最合適的參數。
Kernel Methods
kernel function 會是一個距離函數
linear kernel 是最簡單的一種 kernel function
其實就是兩個 input 的 dot product
ref:
https://www.zhihu.com/question/30371867
Linear Separability 線性可分
當你有一堆 data points
你能夠畫出一條「直線」來區分這些點時
就可以說是 linearly separable
反而則是 linearly inseparable
Logistic Curve
就是一條長得像頭尾被拉長拉扁的 S 的曲線
ref:
https://www.stat.ubc.ca/~rollin/teach/643w04/lec/node46.html
Missing Value Imputation(缺失值填充)
針對那些沒有值的欄位,可能是用中位數、平均值或是最常見的值之類的資料填進去
也稱為 interpolation
Manifold Learning
是一種 non-linear dimensionality reduction 的方式
可以用在把高維度的 dataset 變成較低維度
主要用來做 visualization
常用的有 t-SNE
manifold learning 通常用在 exploratory data analysis
不像 PCA 那樣,會把結果用於 supervised learning 的輸入
ref:
http://scikit-learn.org/stable/modules/manifold.html
https://www.wikiwand.com/en/Nonlinear_dimensionality_reduction
Normalization 歸一化、Standarization 標準化
屬於 preprocessing 的一部分
統一各個特徵的數值範圍
對很多演算法來說這個步驟是必要的
例如:
特徵一是距離,單位是公尺,值的範圍是 10 ~ 3000
特徵二是樓層,值的範圍是 1 ~ 14
為了避免尺度不同造成誤導
需要 rescaling
把各種尺度的數值統一表示成 0 ~ 1 之間的數字
稱為 normalization 歸一化
還有另一種統計學常用的方法,是把數值轉換成 z-scores
使所有數據的平均值為 0、標準差為 1
稱為 standarization 標準化
ref:
https://www.quora.com/What-is-the-difference-between-normalization-standardization-and-regularization-for-data
http://sobuhu.com/ml/2012/12/29/normalization-regularization.html
Predictors
就是 features
Principal component analysis (PCA) 主成份分析
主成分分析,是一种分析、简化数据集的技术。用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。
用來 reduce dimensionality(減少 dataset 的維度數)
可以找出對 Variance 貢獻最大的特徵
Overfitting 過度擬合(過擬合)/ Underfitting 擬合不足(欠擬合)
overfitting 常常發生在 model 很複雜、有很多參數的時候
或是 dataset 裡有很多 noise 或 outlier
表現為在 training set 的準確率很高,但是在 testing set 的準確率卻很低
複雜模型 >> high variance / low bias >> overfitting
underfitting 通常發生在 model 太簡單的時候
表現為就算是在 training set 上的錯誤率就很高
簡單模型 >> high bias / low variance >> underfitting
ref:
http://www.csuldw.com/2016/02/26/2016-02-26-choosing-a-machine-learning-classifier/
Regularization 正規化、正則化
Regularization means explicitly restricting a model to avoid overfitting.
是一種防止 overfitting 的技巧
regularization 保留所有 features
但是降低或懲罰某些 features 對 model 預測值的影響
常見的方法有 L1 和 L2
L1 正則化是指權重向量 w 中各個元素的絕對值之和
L2
正則化是指權重向量 w 中各個元素的平方和然後再求平方根
ref:
https://zhuanlan.zhihu.com/p/25707761
http://blog.csdn.net/jinping_shi/article/details/52433975
http://blog.csdn.net/zouxy09/article/details/24971995
Resampling
在 classification 問題中
每一種 class 的數量差距很大
例如正樣本佔了 98%、負樣本佔了 2%
這就是所謂的不平衡的 dataset
解決的辦法之一是 resampling
主要可以分成 oversampling 和 undersampling(過採樣和欠採樣)
undersampling 是指減少多數類樣本的數量
例如隨機拿掉部分多數類樣本
直到正負樣本的數量相同
缺點是你可能也拿掉了 dataset 裡潛在的資訊
oversampling 指的是增加少數類樣本的數量
例如複製少數類樣本
讓正負樣本的數量盡可能相同
缺點顯而易見就是容易 overfitting
其他 oversampling 的方法還有 SMOTE (Synthetic Minority Over-sampling Technique)
合成新的少數類樣本
合成的策略是對每個少數類樣本 a
從它的最近鄰中隨機選一個樣本 b
然後在 a、b 之間的連線上隨機選一點作為新合成的少數類樣本
ref:
http://www.jiqizhixin.com/article/2499
http://www.algorithmdog.com/unbalance
https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis
Training set / Test set
把 dataset 分成 training set 和 test set
用 training set 來訓練模型
用 test set 來評估結果
這兩組數據必須是從原始的 dataset 裡「均勻取樣」(隨機)
常見的比例是 70/30
這種方式稱為 holdout
也可以分成 training set、validation set、test set
training set 用來訓練模型,validation set 用來選擇模型(調整超參數),testing set 用在最終模型的評估
常見的比例是 50/25/25
基本上你的 test set 只能用來評估最終模型
不能用 test set 去訓練模型或是交叉驗證
對你的 model 來說 test set 就是一組 unseen 的資料
所以 test set 的評估結果才可以視為 model 上線後對真實資料的預測能力
如果你的 model 在 validation set 表現不錯
但是在 test set 的表現很差
那就是 overfitting 了
ref:
https://stats.stackexchange.com/questions/19048/what-is-the-difference-between-test-set-and-validation-set
https://www.jiqizhixin.com/articles/a62fc871-6366-402b-b32f-f9a3f17a566b
https://mp.weixin.qq.com/s/W7wpxHoC2F5DHCUO7ES1cw