ディープラーニング

概要

ディープラーニング（Deep Learning、深層学習）は、人間の神経回路を模したニューラルネットワークを多層に積み重ねることで、データから特徴表現を自動的に学習する機械学習の手法である。

理論的な原型は 1980〜90 年代に遡るが、実用化を阻んでいたのは計算資源とデータ量の不足だった。転機は 2012 年。トロント大学のジェフリー・ヒントンらのチームが画像認識コンペティション「ImageNet LSVRC」で従来手法を大幅に上回る精度を記録し、業界に衝撃を与えた。

以降、GPU による並列計算と大規模データセットの整備が急速に進み、ディープラーニングは音声認識・自然言語処理・医用画像診断・自動運転など、事実上すべての知覚・推論タスクで主流技術となった。

ディープラーニングの本質は「表現学習（Representation Learning）」にある。従来の機械学習では、人間がどの特徴量を使うかを手動で設計する必要があった。ディープラーニングはその工程を不要にする。

ネットワークは複数の「層（Layer）」から構成される。入力層に生データ（ピクセル値・音声波形・テキストトークン）を与えると、各層が異なる抽象度の特徴を学習する。画像認識であれば、初期層はエッジを、中間層は形状を、深層は「犬の顔」という概念を捉える。

この階層的な抽象化が、膨大な変数を持つ現実問題でも機能する理由である。パラメータ数は大規模モデルで数百億から数兆に達し、学習には数千万〜数十億件の訓練データが必要となる。