實戰專案 - Titanic 生存預測專案

30 Jun, 2025 • 1 min read

這是一個資料科學專案，目標是透過 Kaggle 經典的 Titanic 生存預測題目，建立一套結構清晰、模組化的預測系統。我不只是想交出一份準確的預測結果，更希望藉由這個專案練習:

專案定位：不只是「解題」，而是「設計一套解法系統」

我不滿足於單純把資料丟進模型調整參數。我希望打造的是一個「可重複使用的機器學習預測框架」，因此我做了以下幾點設計:

這些設計不只是在技術上提升效率，也讓我在做資料科學時，更接近實務工作者的思維模式

我對特徵的要求是: 不只要對模型有用，更要有邏輯、可解釋

雖然這個任務可以用很多模型解，但我選擇以 XGBoost 為主模型，理由如下:

整個流程包含以下幾步，由 main.py 控制:

我也設計了 XGBoostModel 類別，包裝內部模型與附加元件，方便儲存與部署。

目前模型準確率穩定落在約 80% 之間，在不調參與不使用 ensemble 技巧下，已具備穩定 baseline 水準。預測結果已可直接提交至 Kaggle

輸出結果包含:

這個專案讓我強化了幾個面向的能力:

我相信資料科學最終會走向「系統性與標準化」，這次練習是我往這個方向邁出的第一步。

Titanic 雖然是入門題目，但我不希望只是提交一份漂亮的預測結果，而是藉此訓練自己「如何設計一套可複用的預測系統」，這也是我在轉型資料科學的過程中，一個重要的能力里程碑。

歡迎有興趣的朋友參考原始碼，也希望與你交流更好的專案設計方式。