SIGNATE 国勢調査からの収入予測 1位 2020/03/01
日本のデータサイエンス訓練サイトSIGNATEに投稿しました。ここでは、PJの内容についてとランキングをお知らせしたいと思います。
https://signate.jp/competitions/107/leaderboard 今回投稿した概要
ご確認ください → 投稿リンク 0.95535 2/15
国政調査からの収入予測
教育年数や職業等の国勢調査データから年収が$50,000ドルを超えるかどうかを予測するモデルを作成していただきます
国勢調査は、すべての人を対象として実施される、国の最も重要かつ基本的な統計調査です。調査から得られる情報は,基礎データとして幅広い用途に利用され、国民生活に役立てられています。
今回は国勢調査から年収の予測($50,000を超えるか否か)に挑戦していただきます。
本コンペを活用して、SIGNATEでのデータ解析・モデル構築を体験してください。
データ概要
課題種別:分類
データ種別:多変量
学習データサンプル数:16280
説明変数の数:14
欠損値:あり
データ説明
学習用データ(train.tsv)、評価用データ(test.tsv)
カラム | ヘッダ名称 | データ型 | 説明 |
---|---|---|---|
0 | id | int | インデックスとして使用 |
1 | age | int | 年齢 |
2 | workclass | varchar | 職業クラス |
3 | fnlwgt | int | fnlwgt |
4 | education | varchar | 教育 |
5 | education-num | int | 教育年数 |
6 | marital-status | varchar | 配偶者の有無 |
7 | occupation | varchar | 職業 |
8 | relationship | varchar | 関係 |
9 | race | varchar | 人種 |
10 | sex | varchar | 性別 |
11 | capital-gain | int | キャピタルゲイン |
12 | capital-loss | int | キャピタルロス |
13 | hours-per-week | int | 週あたりの時間 |
14 | native-country | varchar | 母国 |
15 | Y | varchar | 年収カテゴリ(>50K, <=50K) |
応募用サンプルファイル(sample_submit.csv)
1列目に評価用データの”id”を、2列目に予測した年収カテゴリ(>50K, <=50K)を記入したファイルを、ヘッダ無しcsv形式で投稿ください。
カラム | ヘッダ名称 | データ型 | 説明 |
---|---|---|---|
0 | 無し | int | インデックスとして使用 |
1 | 無し | varchar | 予測した年収カテゴリ(>50K, <=50K) |
弊社では、データ分析依頼企業を募集しています。
お気軽にご相談ください。092-437-1110