上篇文章「Pytorch數據分析2-Ames,iowa房價預測」,講解Kaggle競賽-Ames,iowa房價預測採用自定義模型並結合DataLoader對於數據進行批量化處理來進行模型訓練並透過Colab搭配程式碼來進行模型訓練與驗證,讓大家能夠更了解 PyTorch 在數據分析的應用 ,本篇將講解繼續講解關於數據分析上的應用於太空飛船泰坦尼克號預測分析,透過Colab上進行說明,使大家能夠更直觀的了解Pytorch於數據分析上的使用。
►數據說明
歡迎來到 2912 年,您需要數據科學技能來解決宇宙之謎。我們收到了四光年外的信號,情況看起來不太妙。太空飛船鐵達尼號是一個月前發射的星際客輪。船上有近 13,000 名乘客,這艘船開始了處女航,將太陽系的移民運送到圍繞附近恆星運行的三顆新可居住的系外行星。在繞過半人馬座阿爾法星前往它的第一個目的地——炎熱的巨蟹座 55 E 時,粗心的太空飛船鐵達尼號與隱藏在塵埃雲中的時空異常相撞。可悲的是,它遭遇了與1000 年前同名的命運相似的命運。雖然船完好無損,但幾乎有一半的乘客被運送到了異次元!
您的任務是預測在太空飛船泰坦尼克號與時空異常相撞期間是否有乘客被運送到另一個維度。為了幫助你做出這些預測,你會得到一組從船上受損的系統中恢復的個人記錄。
►資料預處理
►數據分析
可以發現train data資料欄位為乘客ID、乘客離開的星球、乘客是否選擇在航行期間進入假死狀態、客艙編號、乘客將要去的星球、年齡、VIP、豪華設施中所支付的金額、姓名與乘客是否被運送到另一個維度。其中是否傳送至異次元為所預測資料(label),乘客ID為不影響是否傳送,其他項目為預測是否傳送的特徵資料。
對於訓練資料進行觀察可以發現是有缺失值,缺失值達到 2324個,觀察年齡分布可以得知太空飛船泰坦尼克號乘客年齡大部分分布在20~40年紀,並且大部分乘客於Earth上船,於訓練資料中傳送到異次元約一半人口。
對於 訓練資料特徵進行相關係數分析,可以得知其中是否選擇在航行期間進入假死狀態為影響是否傳送到異次元重要特徵。
►數據可視化
►數據處理
►模型訓練
►模型測試
►小結
透過以上講解,能夠使用講解關於Pytorch於數據分析上的應用,並透過Kaggle競賽-太空飛船泰坦尼克號生存預測分析於Colab上進行說明,對於數據集進行分析並進行數據清洗並搭配前面章節Dataset與DataLoader進行數據加載與迭代進行模型訓練,最後將訓練模型結果進行驗證,於驗證集上進行是否傳送至異次元預測達到79%,期待下一篇博文吧!
►參考資料
https://www.kaggle.com/competitions/spaceship-titanic
評論