(Day 7) 回顧迴歸:從線性邏輯到學習本質

(Day 7) 回顧迴歸:從線性邏輯到學習本質

前面 5 天我們聚焦於「回歸系列」模型: 線性迴歸 (Linear Regression)、多項式迴歸 (Polynomial Regression)、正則化迴歸 (Lasso / Ridge / ElasticNet Regression) 以及邏輯迴歸 (Logistic Regression)。雖然它們名稱上都掛著「Regression」,實則涵蓋了連續值預測與分類任務兩大主題。

在正式進入其他學習範式前,我想透過這篇文章做一個小結,幫助讀者重新理解「迴歸模型的核心精神」,並進一步延伸思考「什麼是機器學習的學習」。

迴歸模型統整與對比

模型 任務類型 是否可擴展非線性 是否有正則化 適用場景 代表限制
Linear Regression 迴歸 數據關係明確線性、特徵少時 對離群值、共線性敏感
Polynomial Regression 迴歸 存在非線性曲線關係時 過度擬合風險高
Lasso / Ridge / ElasticNet 迴歸 高維度資料、需特徵選擇時 模型可解釋性略減
Logistic Regression 分類 ✅ (可搭配) 二元分類、機率預測、可解釋性要求高場景 不適合複雜非線性邊界

這四種模型本質上都假設資料可以被一個「參數化的函數」所建模,且可以透過某種「最小化損失」的方式來進行學習。而這種最小化行為,正是機器學習中最常見的學習模式: 梯度下降法 (Gradient Descent)。

為什麼梯度下降能「學習」?

這是一個我自己也還在思考的問題。梯度下降看似只是數學上的最小化技巧,但其實它蘊含了學習的邏輯核心: 錯誤導向的自我修正。

每一次模型的預測錯了,就利用這個錯誤的方向與程度,去修正模型的參數,使下一次預測更好。這種機制背後隱含的三個條件,值得特別點出:

  • ✅ 存在可微分的損失函數
  • ✅ 模型是參數化的 (parameters 可調整)
  • ✅ 可以反覆試誤 (迭代優化)

符合上述條件,模型便可以「學習」。也正因如此,這四個回歸模型雖然類型不同 (分類 / 迴歸)、形式不同 (線性 / 非線性 / 正則化),但都共享「透過梯度下降調整參數」這一關鍵本質。

即將迎來的轉折: 非梯度型演算法

從 Day 8 開始,我們將進入另一個範疇──非梯度型演算法:

  • 最近鄰演算法 (K-Nearest Neighbors) 不靠函數建模,也不進行訓練,只做記憶與距離判斷。
  • 樸素貝氏 (Naive Bayes) 直接根據機率分佈進行預測。
  • 支援向量機 (Support Vector Machine) 雖然有最佳化問題,但本質不使用梯度下降訓練整個模型。
  • 樹模型如 Decision Tree / Random Forest 則是透過遞迴分裂與熵減少來建模。

這些模型將從不同角度重新定義「何謂學習」,也讓我們開始質疑: 模型一定要參數化、要能微分、要能疊代才能學習嗎?

結語: 學習的多樣性

迴歸模型讓我們初步理解了機器學習中最直觀的「錯誤修正型」學習模式,也讓我們有機會練習與模型溝通:如何調整參數、評估表現、選擇正則化、觀察殘差等。

而從下一篇開始,我們將脫離梯度的世界,認識一些邏輯思維為主的演算法。你會發現,機器學習不只有一種思維路徑,而「學習」這件事,也不只一種方式能實現。

備註