SIGNATE 毒キノコの分類
日本のデータサイエンス訓練サイトSIGNATEに投稿しました。ここでは、PJの内容についてとランキングをお知らせしたいと思います。
https://signate.jp/competitions/105/leaderboard 今回投稿した概要 投稿リンク 0.99926 7/15
形状や生息地等の特性からキノコが食用か有毒かを分類するモデルを作成していただきます
秋の味覚の代表格であるキノコは、私達の食卓には欠かせない食材の一つです。
しかし、日本に生息するキノコのうち、食用は数%に過ぎません。
厚生労働省によると、2016年の毒キノコによる食中毒発生件数は42件、患者数は110人にものぼるそうです。
キノコを美味しく、そして安全に食べるため、キノコが食用か有毒かを予測しましょう。
本コンペを活用して、SIGNATEでのデータ解析・モデル構築を体験してください。
本コンペを活用して、SIGNATEでのデータ解析・モデル構築を体験してください。
活用するデータは、実際のビジネス環境で得られたもので、マーケティングキャンペーンの効率化を図るためのモデリングを行います。
過去、このデータを使用して書かれた論文によるモデリング精度を超えることを目指し、腕試しがてらコンペに参加してみてください。
データ概要
課題種別:分類
データ種別:多変量
学習データサンプル数:4062
説明変数の数:22
欠損値:あり
データ説明
学習用データ(train.tsv)、評価用データ(test.tsv)
カラム | ヘッダ名称 | データ型 | 説明 |
---|---|---|---|
0 | id | int | インデックスとして使用 |
1 | Y | char | 毒キノコか否か(毒キノコ=p, 食用キノコ=e) |
2 | cap-shape | char | 傘形状(ベル型=b, 円錐型=c, 饅頭型=x, 扁平型=f, コブ型=k, 凹んだ扁平型=s) |
3 | cap-surface | char | 傘表面(繊維=f, 溝=g, 鱗片=y, 滑らか=s) |
4 | cap-color | char | 傘の色(ブラウン=n, バフ=b, シナモン=c, グレー=g, グリーン=r, ピンク=p, パープル=u, レッド=e, ホワイト=w, イエロー=y) |
5 | bruises | char | 斑点(斑点あり=t, 斑点なし=f) |
6 | odor | char | 臭気(アーモンド=a, アニス=l, クレオソート=c, フィッシュ=y, ファウル=f, ミューズイ=m, なし=n, 辛味=p, スパイシー=s) |
7 | gill-attachment | char | ひだの付き方(直生=a, 垂生=d, 離生=f, 凹生=n) |
8 | gill-spacing | char | ひだの間隔(近い=c, 過密=w, 長い=d) |
9 | gill-size | char | ひだのサイズ(広い=b, 狭い=n) |
10 | gill-color | char | ひだの色(ブラック=k, ブラウン=n, バフ=b, チョコレート=h, グレー=g, グリーン=r, オレンジ=o, ピンク=p, パープル=u, レッド=e, ホワイト=w, イエロー=y) |
11 | stalk-shape | char | 柄の形状(広がり=e, 先細り=t) |
12 | stalk-root | char | 柄の根(球根=b, クラブ=c, カップ=u, 等しい=e 根茎形態=z, 根=r, 無し=?) |
13 | stalk-surface-above-ring | char | 柄表面-上記リング(繊維状=f, 鱗片状=y, 絹毛=k, 滑らか=s) |
14 | stalk-surface-below-ring | char | 柄-表面下のリング(繊維状=f, 鱗片状=y, 絹毛=k, 滑らか=s) |
15 | stalk-color-above-ring | char | 柄の色-上記リング(ブラウン=n, バフ=b, シナモン=c, グレー=g, オレンジ=o, ピンク=p, 赤=e, 白=w, 黄色=y) |
16 | stalk-color-below-ring | char | 柄-カラーリング下(ブラウン=n, バフ=b, シナモン=c, グレー=g, オレンジ=o, ピンク=p, 赤=e, 白=w, 黄色=y) |
17 | veil-type | char | つぼの種類(内皮膜=p, 外皮膜=u) |
18 | veil-color | char | つぼの色(ブラウン=n, オレンジ=o, ホワイト=w, イエロー=y) |
19 | ring-number | char | つばの数(none=n, one=o, two=t) |
20 | ring-type | char | つばの種類(クモの巣状=c, 消失性=e, 炎のような=f, 大きな=l, 無し=n, 垂れた=p, 鞘=s, 環帯=z) |
21 | spore-print-color | char | 胞子の色(ブラック=k, ブラウン=n, バフ=b, チョコレート=h, グリーン=r, オレンジ=o, パープル=u, ホワイト=w, イエロー=y) |
22 | population | char | 集団形成方法(大多数=a, 群れを成して=c, 多数=n, 分散=s, 数個=v, 孤立=y) |
23 | habitat | char | 生息地(牧草=g, 葉=1, 牧草地=m, 小道=p, 都市=u, 廃棄物=w, 森=d) |
※黄色く色付けされた変数が目的変数です(評価用データには含まれません)
応募用サンプルファイル(sample_submit.csv)
1列目に評価用データの”id”を、2列目に予測した”Y”を記入したファイルを、ヘッダ無しcsv形式で投稿ください。
カラム | ヘッダ名称 | データ型 | 説明 |
---|---|---|---|
0 | 無し | int | インデックスとして使用 |
1 | 無し | char | 毒キノコか否かの予測結果(毒キノコ=p, 食用キノコ=e) |
※黄色く色付けされた変数が目的変数です(評価用データには含まれません)
弊社では、データ分析依頼企業を募集しています。
お気軽にご相談ください。092-437-1110