(Day 8) K-近鄰 (K-Nearest Neighbors)
K-近鄰 (K-Nearest Neighbors; KNN) 是一種很直學的機器學習演算法。它沒有模型參數、沒有訓練過程,卻可以在某些任務上有不錯的效果。它的核心理念只有一句話: 「你是 …
K-近鄰 (K-Nearest Neighbors; KNN) 是一種很直學的機器學習演算法。它沒有模型參數、沒有訓練過程,卻可以在某些任務上有不錯的效果。它的核心理念只有一句話: 「你是 …
前面 5 天我們聚焦於「回歸系列」模型: 線性迴歸 (Linear Regression)、多項式迴歸 (Polynomial Regression)、正則化迴歸 (Lasso / …
在上一篇中,我們深入介紹了邏輯迴歸的模型邏輯、損失函數與分類行為。這篇則要進一步延伸這個經典模型,回答一個關鍵問題: 邏輯迴歸能否結合多項式特徵與正規化機制,來對抗非線性與過擬合問題?
在實 …
邏輯迴歸 (Logistic Regression) 是一種常見的分類模型,主要用於預測二元分類或多元分類,有別於先前的線性迴歸是用來預測無邊界的連數據值,而邏輯迴歸間單來說就是預測有邊界的 …
延續昨日的多項式迴歸中,我們觀察到一個現象: 雖然二次特徵提升了模型的表現,但同時也引入過擬合 (Overfitting) 風險。這是因為當特徵數量暴增,模型就會變得過於「貪婪」,試圖將每個 …
昨天介紹了線性迴歸 (Linear Regression),它適合用來處理特徵與目標之間為線性關係的情境。然而,真實世界的資料往往並非純粹線性,而是呈現複雜的非線性關係,例如曲線、拋物線、甚 …
線性迴歸 (Linear Regression) 是統計學中的一種預測方法,主要分為簡單線性迴歸 (Simple Linear Regression) 與多元線性迴歸 (Multiple …
在學習機器學習 (Machine Learning) 的過程中,可能會陷入兩種極端,一種是只會調用套件 (套模),模型背後的機制一知半解,遇到問題只能「換模型試試看」,或者是過度陷入數學細 …
近年來,我觀察到無論在台灣還是中國,「學歷無用論」的聲音愈發強烈。許多人開始質疑讀書是否還有意義,認為不靠學歷反而更能致富,網紅、直播、投資客、白手起家的商人充斥版面,讀書人反倒被視為落後 …
這是一個資料視覺化專案——「Dynamic Visualization: 200 Countries, 200 Years, 4 Minutes」。它將涵蓋 1816 至 2016 …
這是一個資料科學專案,目標是透過 Kaggle 經典的 Titanic 生存預測題目,建立一套結構清晰、模組化的預測系統。我不只是想交出一份準確的預測結果,更希望藉由這個專案練習:
最近,我正在參加一門職訓課程。本來對這堂課滿懷期待,尤其是對某位老師的專業背景很感興趣。不過,隨著課程進行,我漸漸感到一股說不出的落差感:每當我主動提出深入問題, …
在資料科學領域中,對企業進行舞弊檢測 (Fraud Detection) 被視為是一種分類問題: 輸入企業相關的數據,輸出舞弊或非舞弊。然而,真正投入研究後會發現,這個問題很難解決,非常具挑 …
五年前,我踏入壽險產業,成為一名 Business Analyst (BA)。當時的工作內容相當清晰:需求文件撰寫、報表製作、簡單的數據分析與溝通協調,是我每天的日常。那時候,這些任務仍需靠 …