SIGNATE 国勢調査からの収入予測

日本のデータサイエンス訓練サイトSIGNATEに投稿しました。ここでは、PJの内容についてとランキングをお知らせしたいと思います。

https://signate.jp/competitions/107/leaderboard  今回投稿した概要 投稿リンク 0.87237  6/29

形状や生息地等の特性からキノコが食用か有毒かを分類するモデルを作成していただきます

教育年数や職業等の国勢調査データから年収が$50,000ドルを超えるかどうかを予測するモデルを作成していただきます

国勢調査は、すべての人を対象として実施される、国の最も重要かつ基本的な統計調査です。調査から得られる情報は,基礎データとして幅広い用途に利用され、国民生活に役立てられています。

今回は国勢調査から年収の予測($50,000を超えるか否か)に挑戦していただきます。

本コンペを活用して、SIGNATEでのデータ解析・モデル構築を体験してください。

データ概要

課題種別:分類
データ種別:多変量
学習データサンプル数:16280
説明変数の数:14
欠損値:あり

データ説明


学習用データ(train.tsv)、評価用データ(test.tsv)

カラムヘッダ名称データ型説明
0idintインデックスとして使用
1ageint年齢
2workclassvarchar職業クラス
3fnlwgtintfnlwgt
4educationvarchar教育
5education-numint教育年数
6marital-statusvarchar配偶者の有無
7occupationvarchar職業
8relationshipvarchar関係
9racevarchar人種
10sexvarchar性別
11capital-gainintキャピタルゲイン
12capital-lossintキャピタルロス
13hours-per-weekint週あたりの時間
14native-countryvarchar母国
15Yvarchar年収カテゴリ(>50K, <=50K)

応募用サンプルファイル(sample_submit.csv)

1列目に評価用データの”id”を、2列目に予測した年収カテゴリ(>50K, <=50K)を記入したファイルを、ヘッダ無しcsv形式で投稿ください。

カラムヘッダ名称データ型説明
0無しintインデックスとして使用
1無しvarchar予測した年収カテゴリ(>50K, <=50K)

弊社では、データ分析依頼企業を募集しています。
お気軽にご相談ください。092-437-1110