(Day 7) 回顧迴歸:從線性邏輯到學習本質
前面 5 天我們聚焦於「回歸系列」模型: 線性迴歸 (Linear Regression)、多項式迴歸 (Polynomial Regression)、正則化迴歸 (Lasso / Ridge / ElasticNet Regression) 以及邏輯迴歸 (Logistic Regression)。雖然它們名稱上都掛著「Regression」,實則涵蓋了連續值預測與分類任務兩大主題。
在正式進入其他學習範式前,我想透過這篇文章做一個小結,幫助讀者重新理解「迴歸模型的核心精神」,並進一步延伸思考「什麼是機器學習的學習」。
迴歸模型統整與對比
模型 | 任務類型 | 是否可擴展非線性 | 是否有正則化 | 適用場景 | 代表限制 |
---|---|---|---|---|---|
Linear Regression | 迴歸 | 否 | 否 | 數據關係明確線性、特徵少時 | 對離群值、共線性敏感 |
Polynomial Regression | 迴歸 | ✅ | 否 | 存在非線性曲線關係時 | 過度擬合風險高 |
Lasso / Ridge / ElasticNet | 迴歸 | ✅ | ✅ | 高維度資料、需特徵選擇時 | 模型可解釋性略減 |
Logistic Regression | 分類 | 否 | ✅ (可搭配) | 二元分類、機率預測、可解釋性要求高場景 | 不適合複雜非線性邊界 |
這四種模型本質上都假設資料可以被一個「參數化的函數」所建模,且可以透過某種「最小化損失」的方式來進行學習。而這種最小化行為,正是機器學習中最常見的學習模式: 梯度下降法 (Gradient Descent)。
為什麼梯度下降能「學習」?
這是一個我自己也還在思考的問題。梯度下降看似只是數學上的最小化技巧,但其實它蘊含了學習的邏輯核心: 錯誤導向的自我修正。
每一次模型的預測錯了,就利用這個錯誤的方向與程度,去修正模型的參數,使下一次預測更好。這種機制背後隱含的三個條件,值得特別點出:
- ✅ 存在可微分的損失函數
- ✅ 模型是參數化的 (parameters 可調整)
- ✅ 可以反覆試誤 (迭代優化)
符合上述條件,模型便可以「學習」。也正因如此,這四個回歸模型雖然類型不同 (分類 / 迴歸)、形式不同 (線性 / 非線性 / 正則化),但都共享「透過梯度下降調整參數」這一關鍵本質。
即將迎來的轉折: 非梯度型演算法
從 Day 8 開始,我們將進入另一個範疇──非梯度型演算法:
- 最近鄰演算法 (K-Nearest Neighbors) 不靠函數建模,也不進行訓練,只做記憶與距離判斷。
- 樸素貝氏 (Naive Bayes) 直接根據機率分佈進行預測。
- 支援向量機 (Support Vector Machine) 雖然有最佳化問題,但本質不使用梯度下降訓練整個模型。
- 樹模型如 Decision Tree / Random Forest 則是透過遞迴分裂與熵減少來建模。
這些模型將從不同角度重新定義「何謂學習」,也讓我們開始質疑: 模型一定要參數化、要能微分、要能疊代才能學習嗎?
結語: 學習的多樣性
迴歸模型讓我們初步理解了機器學習中最直觀的「錯誤修正型」學習模式,也讓我們有機會練習與模型溝通:如何調整參數、評估表現、選擇正則化、觀察殘差等。
而從下一篇開始,我們將脫離梯度的世界,認識一些邏輯思維為主的演算法。你會發現,機器學習不只有一種思維路徑,而「學習」這件事,也不只一種方式能實現。