SIGNATE 国勢調査からの収入予測 1位 2020/03/01

2022年9月11日

日本のデータサイエンス訓練サイトSIGNATEに投稿しました。ここでは、PJの内容についてとランキングをお知らせしたいと思います。

https://signate.jp/competitions/107/leaderboard  今回投稿した概要 
 ご確認ください → 投稿リンク 0.95535  2/15 

国政調査からの収入予測

教育年数や職業等の国勢調査データから年収が$50,000ドルを超えるかどうかを予測するモデルを作成していただきます

国勢調査は、すべての人を対象として実施される、国の最も重要かつ基本的な統計調査です。調査から得られる情報は,基礎データとして幅広い用途に利用され、国民生活に役立てられています。

今回は国勢調査から年収の予測($50,000を超えるか否か)に挑戦していただきます。

本コンペを活用して、SIGNATEでのデータ解析・モデル構築を体験してください。

データ概要

課題種別:分類
データ種別:多変量
学習データサンプル数:16280
説明変数の数:14
欠損値:あり

データ説明


学習用データ(train.tsv)、評価用データ(test.tsv)

カラムヘッダ名称データ型説明
0idintインデックスとして使用
1ageint年齢
2workclassvarchar職業クラス
3fnlwgtintfnlwgt
4educationvarchar教育
5education-numint教育年数
6marital-statusvarchar配偶者の有無
7occupationvarchar職業
8relationshipvarchar関係
9racevarchar人種
10sexvarchar性別
11capital-gainintキャピタルゲイン
12capital-lossintキャピタルロス
13hours-per-weekint週あたりの時間
14native-countryvarchar母国
15Yvarchar年収カテゴリ(>50K, <=50K)

応募用サンプルファイル(sample_submit.csv)

1列目に評価用データの”id”を、2列目に予測した年収カテゴリ(>50K, <=50K)を記入したファイルを、ヘッダ無しcsv形式で投稿ください。

カラムヘッダ名称データ型説明
0無しintインデックスとして使用
1無しvarchar予測した年収カテゴリ(>50K, <=50K)

弊社では、データ分析依頼企業を募集しています。
お気軽にご相談ください。092-437-1110