SIGNATE タイタニックの生存予測

2020年2月19日

日本のデータサイエンス訓練サイトSIGNATEに投稿しました。ここでは、PJの内容についてとランキングをお知らせしたいと思います。

https://signate.jp/competitions/102/leaderboard  今回投稿した概要 投稿リンク 0.87627 2/15


タイタニック号の乗客の情報から、生存したか否かを予測するモデルを作成していただきます。

タイタニックは、20世紀初頭に建造された豪華客船でした。
処女航海中に北大西洋上で氷山に接触し、その後沈没しました。犠牲者数は1,500人以上にものぼり、当時世界最悪の海難事故となりました。

このような悲劇を2度と繰り返さないために、乗客の情報から生存確率を予測するモデルを作成し、今後の海難事故防止に活かしましょう。
本コンペを活用して、SIGNATEでのデータ解析・モデル構築を体験してください。

データ概要
課題種別:分類
データ種別:多変量
学習データサンプル数:445
説明変数の数:7
欠損値:無し

データ説明


学習用データ(train.tsv)、評価用データ(test.tsv)

カラムヘッダ名称データ型説明
0idintインデックスとして使用
1survivedboolean生還結果(1=生還, 0=死亡)
2pclassint客室のクラス(1,2,3の順に高級クラス)
3sexchar性別
4ageint年齢
5sibspint乗船していた兄弟、配偶者の数
6parchint乗船していた両親、子供の数
7farefloat運賃
8embarkedchar乗船した港(S=Southampton, C=Cherbourg, Q=Queenstown)

※黄色く色付けされた変数が目的変数です(評価用データには含まれません)

応募用サンプルファイル(sample_submit.tsv)

1列目に評価用データの”id”を、2列目に予測した”生存確率”を記入したファイルを、ヘッダ無しtsv形式で投稿ください。

カラムヘッダ名称データ型説明
0無しintインデックスとして使用
1無しfloat予測した生存確率(0.0~1.0)

弊社では、データ分析依頼企業を募集しています。
お気軽にご相談ください。092-437-1110