Contents
概要
ディープラーニング(Deep Learning、深層学習)は、人間の神経回路を模したニューラルネットワークを多層に積み重ねることで、データから特徴表現を自動的に学習する機械学習の手法である。
理論的な原型は 1980〜90 年代に遡るが、実用化を阻んでいたのは計算資源とデータ量の不足だった。転機は 2012 年。トロント大学のジェフリー・ヒントンらのチームが画像認識コンペティション「ImageNet LSVRC」で従来手法を大幅に上回る精度を記録し、業界に衝撃を与えた。
以降、GPU による並列計算と大規模データセットの整備が急速に進み、ディープラーニングは音声認識・自然言語処理・医用画像診断・自動運転など、事実上すべての知覚・推論タスクで主流技術となった。
仕組み——層と表現学習
ディープラーニングの本質は「表現学習(Representation Learning)」にある。従来の機械学習では、人間がどの特徴量を使うかを手動で設計する必要があった。ディープラーニングはその工程を不要にする。
ネットワークは複数の「層(Layer)」から構成される。入力層に生データ(ピクセル値・音声波形・テキストトークン)を与えると、各層が異なる抽象度の特徴を学習する。画像認識であれば、初期層はエッジを、中間層は形状を、深層は「犬の顔」という概念を捉える。
この階層的な抽象化が、膨大な変数を持つ現実問題でも機能する理由である。パラメータ数は大規模モデルで数百億から数兆に達し、学習には数千万〜数十億件の訓練データが必要となる。
主要なアーキテクチャ
CNN(畳み込みニューラルネットワーク)
空間的な局所パターンを捉えるために設計された構造。画像認識・動画解析の標準手法。フィルタを共有することでパラメータ数を抑え、平行移動に対する不変性を得る。
RNN・LSTM
時系列データを扱うための再帰的構造。音声認識・機械翻訳の初期に多用されたが、長距離依存の学習に限界があった。
Transformer
2017 年に Google が発表したアーキテクチャ。「アテンション機構」により、文章中の任意の位置間の依存関係を一括して計算する。BERT・GPT・LLaMA など現在の大規模言語モデル(LLM)の基盤であり、自然言語処理の標準を塗り替えた。
現代への示唆
1. 「特徴設計」から「データ設計」へ
ディープラーニングは専門家の知識工学を、データとラベリングの品質管理に置き換えた。AIを活用する組織にとって競争優位の源泉は「何のデータをどれだけ蓄積するか」という問いへと移行している。アルゴリズムは汎用化されたが、データは容易に複製できない。
2. 解釈可能性という経営リスク
ディープラーニングは精度が高い半面、なぜその判断に至ったかを説明しにくい「ブラックボックス」問題を抱える。金融・医療・採用など説明責任が問われる領域での導入には、精度だけでなく説明可能性(XAI)の設計が求められる。
3. 計算コストとカーボンの問題
大規模モデルの学習は数十億円規模の計算コストと膨大なエネルギーを消費する。AI戦略を立案する際は技術的性能だけでなく、インフラコスト・環境負荷を意思決定の変数に含める必要がある。
関連する概念
機械学習 / ニューラルネットワーク / Transformer / 大規模言語モデル(LLM) / 強化学習 / バックプロパゲーション / ImageNet / GPU並列計算
参考
- Goodfellow, I., Bengio, Y., Courville, A. Deep Learning. MIT Press, 2016
- LeCun, Y., Bengio, Y., Hinton, G. “Deep learning.” Nature, 521, 436–444, 2015
- Vaswani, A. et al. “Attention Is All You Need.” NeurIPS, 2017
- 岡谷貴之『深層学習 改訂第2版』(講談社、2022)