AI 人工知能 画像認識

画像認識では、以下のようなより詳細なタスクがあります。
画像分類:画像が何の画像であるかを識別する
物体検出:画像内の対象物の場所を検出する
異常検知:画像の中から異なる状態を検出する
画像生成:新しい画像を生成する
姿勢推定(骨格検知):画像内の人間や動物などの姿勢を推定する

画像分類

例えば、はがきの郵便番号の文字認識であるとか、手書き文字の認識による入力の
効率化などがあります。

一般的に有名な文字認識はMNISTがありますので、こちらではかんたんにその一部をご紹介いたします。

MNISTとは?

MNIST(Mixed National Institute of Standards and Technology database)とは、手書き数字画像60,000枚と、テスト画像10,000枚を集めた、画像データセットです。さらに、手書きの数字「0〜9」に正解ラベルが与えられるデータセットでもあり、画像分類問題で人気の高いデータセットです。

MNISTは深層学習(ディープラーニング)の手法の1つであるニューラルネットワークを学ぶ上でも便利ですし、機械学習の入門のデータセットとしてもよく使われています。

手軽に入手できる点も含めて、人工知能(AI)の勉強を始める入り口としてMNISTは人気の高いデータセットです。

コンピュータ・ビジョンを活用して行える例として、画像分類や画像認識があります。畳み込みニューラルネットワークを使用すれば、これらの分類や認識を良好に機能させてくれます。

コンピュータ・ビジョンを活用しているものの1つに、MNISTがあります。MINSTは、コンピュータ・ビジョンを使用し、手書きの数字が書かれている画像データから正解ラベルを導き出すことができます。

MNISTは教師あり学習のデータセットなので、学習データには正解ラベル、もしくはクラスが与えられています。

MNISTのデータ仕様について

続いてMNISTのデータ仕様についてわかりやすく解説します。

MNISTのデータセットは、手書きで書かれた数字が画像になった画像データと、その画像に書かれた数字の正解となるラベルデータで構成されています。そして、画像データとラベルデータのペアは学習用に60,000個、検証用に10,000個あります。

そして、MNISTのデータは以下の4つのファイルで構成されています。

・train-images-idx3-ubyte: 学習用の画像データセット
・train-labels-idx1-ubyte: 学習用のラベルデータセット
・t10k-images-idx3-ubyte:検証用の画像データセット
・t10k-labels-idx1-ubyte:検証用のラベルデータセット

お知らせ

Posted by saito