ディープラーニングの概要

単純パーセプトロン(たんじゅんぱーせぷとろん/Simple Perceptron)

概要
1つの出力を持つ単層のニューラルネットワーク。線形分離可能な問題にしか対応できないが、深層学習の基礎となる。

一言で表すと
最も基本的なニューラルモデル

関連する用語
・活性化関数
・重み
・入力層
・線形分離
・学習率

多層パーセプトロン(たそうぱーせぷとろん/Multilayer Perceptron: MLP)

概要
複数の隠れ層を持つニューラルネットワークで、非線形な問題にも対応可能。深層学習の基本構造。

一言で表すと
層が深いパーセプトロン

関連する用語
・隠れ層
・活性化関数
・誤差逆伝播法
・深層学習
・損失関数

入力層(にゅうりょくそう/Input Layer)

概要
外部からのデータ（特徴量）を最初に受け取るニューラルネットワークの層。モデルの入口部分。

一言で表すと
データの受け口

関連する用語
・特徴量
・多層パーセプトロン
・隠れ層
・出力層
・次元数

隠れ層（中間層）(かくれそう/Hidden Layer)

概要
入力と出力の間にある層で、データの非線形な特徴を抽出・変換する役割を担う。深層学習では複数持つことが多い。

一言で表すと
内部処理の頭脳

関連する用語
・多層パーセプトロン
・活性化関数
・入力層
・出力層
・重み

出力層(しゅつりょくそう/Output Layer)

概要
最終的な予測値や分類結果を出力する層。タスクに応じて活性化関数やノード数が異なる。

一言で表すと
結果を出す最終層

関連する用語
・入力層
・隠れ層
・活性化関数
・多クラス分類
・回帰問題

非線形(ひせんけい/Nonlinearity)

概要
直線では表現できない複雑な関係性のこと。ニューラルネットワークでは非線形性を活性化関数で導入する。

一言で表すと
複雑な関係の表現力

関連する用語
・活性化関数
・ReLU
・多層パーセプトロン
・線形分離
・非線形変換

活性化関数(かっせいかかんすう/Activation Function)

概要
各ノードの出力を変換して、ネットワークに非線形性をもたらす関数。ReLU、シグモイド、ソフトマックスなどがある。

一言で表すと
非線形に変換する仕組み

関連する用語
・ReLU
・シグモイド関数
・多層パーセプトロン
・出力層
・学習

損失関数(そんしつかんすう/Loss Function)

概要
モデルの出力と正解ラベルとの誤差を数値化する関数。学習の指針となる。分類ではクロスエントロピー、回帰ではMSEなど。

一言で表すと
誤差を数値化する指標

関連する用語
・正解ラベル
・クロスエントロピー
・MSE
・最適化
・勾配降下法

勾配降下法(こうばいこうかほう/Gradient Descent)

概要
損失関数を最小化するために、勾配（傾き）の方向に少しずつパラメータを更新する最適化アルゴリズム。

一言で表すと
坂を下って誤差を減らす

関連する用語
・損失関数
・学習率
・勾配
・最適化
・イテレーション

損失関数を最小化(そんしつかんすうをさいしょうか/Minimizing the Loss Function)

概要
予測と正解の誤差を小さくすることがモデル学習の目的。最適化手法により損失関数の値を減らしていく。

一言で表すと
誤差をできるだけ減らす

関連する用語
・損失関数
・勾配降下法
・最適化
・学習
・最適解

最適解(さいてきかい/Optimal Solution)

概要
損失関数が最も小さいときのパラメータの値。モデルの性能が最も高くなる状態を指す。

一言で表すと
ベストな解

関連する用語
・最適化
・損失関数
・勾配降下法
・最小値
・モデルパラメータ

順伝播(じゅんでんぱ/Forward Propagation)

概要
入力データがネットワークを通じて出力に至るまでの処理。各層での加重和と活性化関数によって予測値を計算する。

一言で表すと
入力から出力までの流れ

関連する用語
・活性化関数
・入力層
・隠れ層
・出力層
・誤差逆伝播法

誤差逆伝播(ごさぎゃくでんぱ/Error Backpropagation)

概要
出力と正解の誤差を各層に遡って伝え、重みを調整するための値（勾配）を求める処理。ニューラルネットワークの学習の要。

一言で表すと
誤差を逆に伝えて修正

関連する用語
・順伝播
・勾配降下法
・損失関数
・偏微分
・連鎖律

誤差逆伝播法(ごさぎゃくでんぱほう/Backpropagation Algorithm)

概要
誤差を各層に伝播させて、勾配を計算するアルゴリズム。重み更新の効率的な計算を可能にする。

一言で表すと
効率的な勾配計算法

関連する用語
・誤差逆伝播
・勾配降下法
・損失関数
・連鎖律
・学習

勾配消失問題(こうばいしょうしつもんだい/Vanishing Gradient Problem)

概要
深いニューラルネットワークで、逆伝播中に勾配が小さくなりすぎて学習が進まなくなる問題。特にシグモイドやTanh関数で発生しやすい。

一言で表すと
勾配が小さすぎて進まない

関連する用語
・誤差逆伝播法
・シグモイド関数
・Tanh関数
・ReLU関数
・深層学習

シグモイド関数(Sigmoid Function)

概要
出力を0〜1の範囲に変換する活性化関数。滑らかだが勾配消失の原因になりやすい。

一言で表すと
S字で確率っぽい出力

関連する用語
・活性化関数
・勾配消失問題
・ニューラルネットワーク
・ロジスティック回帰
・Tanh関数

Tanh関数(ハイパボリックタンジェント関数)

概要
-1〜1の範囲に出力を変換する活性化関数。シグモイドより中心対称だが、同様に勾配消失が起こりやすい。

一言で表すと
-1〜1のS字関数

関連する用語
・シグモイド関数
・活性化関数
・勾配消失問題
・ReLU関数
・ニューラルネットワーク

ReLU関数(ReLU Function)

概要
入力が0以下のときは0、正のときはそのまま出力する活性化関数。勾配消失問題の緩和に効果的。

一言で表すと
0以下は0、それ以外はそのまま

関連する用語
・活性化関数
・勾配消失問題
・深層学習
・Leaky ReLU
・ニューラルネットワーク

勾配降下法(こうばいこうかほう/Gradient Descent)

概要
損失関数の勾配を用いて、最小値を目指してパラメータを更新する最適化アルゴリズム。最も基本的な学習手法。

一言で表すと
傾きに従って少しずつ下る

関連する用語
・損失関数
・学習率
・最適化
・誤差逆伝播法
・イテレーション

損失関数の勾配(Gradient of Loss Function)

概要
損失関数が各パラメータにどれだけ影響を受けるかを示す量。重みを調整する際の方向と大きさを決定する。

一言で表すと
最小化のためのガイド

関連する用語
・勾配降下法
・誤差逆伝播
・偏微分
・学習率
・最適化

局所最適解(きょくしょさいてきかい/Local Optimum)

概要
ある範囲では最も良い解だが、全体で見ると最良ではない解。深層学習の学習過程で到達しうる。

一言で表すと
一部ではベストな解

関連する用語
・大域最適解
・損失関数
・最適化
・勾配降下法
・鞍点

大域最適解(たいきょくさいてきかい/Global Optimum)

概要
損失関数が取り得る最も小さい（最良の）値の解。理想的な学習結果とされる。

一言で表すと
真の最小解

関連する用語
・局所最適解
・勾配降下法
・最適化
・損失関数
・最小値

プラトー(Plateau)

概要
損失関数の勾配がほとんどゼロに近くなり、学習が一時的に停滞する領域。進行が遅くなる原因の一つ。

一言で表すと
学習が進まない平らな領域

関連する用語
・損失関数
・勾配降下法
・鞍点
・学習停滞
・最適化

鞍点(あんてん/Saddle Point)

概要
ある方向には最小でも、他の方向には最大になる点。学習が停滞しやすく、深層学習で課題となる。

一言で表すと
学習が止まる山と谷の境目

関連する用語
・損失関数
・勾配降下法
・最適化
・プラトー
・局所最適解

学習率(がくしゅうりつ/Learning Rate)

概要
勾配降下法でパラメータを更新する際の一度に動く量。大きすぎると不安定、小さすぎると収束が遅い。

一言で表すと
どれくらい動かすかの量

関連する用語
・勾配降下法
・最適化
・ハイパーパラメータ
・収束
・発散

イテレーション(Iteration)

概要
1回のパラメータ更新を行う単位。1バッチに対して1回の順伝播と逆伝播が行われる。

一言で表すと
1ステップの学習処理

関連する用語
・エポック
・勾配降下法
・バッチ学習
・学習率
・損失関数

エポック(Epoch)

概要
すべての訓練データを1回使い切って学習するサイクルの単位。複数エポックで学習が進む。

一言で表すと
1周分の学習単位

関連する用語
・イテレーション
・学習
・訓練データ
・バッチサイズ
・収束

確率的勾配降下法（SGD, Stochastic Gradient Descent）

概要
訓練データから1つのサンプルをランダムに選んで、そのサンプルに基づきパラメータを更新する学習法。計算コストが軽く、リアルタイム処理に適する。

一言で表すと
1サンプルずつ更新する勾配法

関連する用語
・オンライン学習
・ミニバッチ学習
・勾配降下法
・イテレーション
・ノイズによる探索性

ミニバッチごと

概要
訓練データを小さなグループ（ミニバッチ）に分けて、それぞれでパラメータ更新を行う学習方式。SGDとバッチ学習の中間的な手法。

一言で表すと
少量ずつまとめて学習

関連する用語
・ミニバッチ学習
・SGD
・バッチ学習
・エポック
・イテレーション

ミニバッチ学習(ミニバッチがくしゅう/Mini-batch Learning)

概要
訓練データを複数の小さなバッチに分け、それぞれで勾配計算とパラメータ更新を行う手法。高速かつ安定性がある。

一言で表すと
中くらいの量で更新

関連する用語
・SGD
・バッチ学習
・エポック
・イテレーション
・最適化

オンライン学習(Online Learning)

概要
データが到着するたびに1つずつ学習を行う方式。リアルタイム性が求められる場面に適している。

一言で表すと
都度更新の学習法

関連する用語
・SGD
・逐次学習
・リアルタイム処理
・勾配降下法
・学習の柔軟性

バッチ学習（最急降下法）(Batch Learning)

概要
全ての訓練データを使って勾配を計算し、一括でパラメータを更新する方法。精度は高いが時間と計算コストが大きい。

一言で表すと
全部まとめて更新

関連する用語
・最急降下法
・ミニバッチ学習
・SGD
・エポック
・最適化

早期終了（Early Stopping）

概要
検証データの誤差が改善しなくなった時点で学習を打ち切る方法。過学習を防止し、モデルの汎化性能を高める。

一言で表すと
無駄な学習を防ぐストップ

関連する用語
・過学習
・汎化性能
・バリデーションデータ
・エポック
・正則化

畳み込みニューラルネットワーク（CNN/Convolutional Neural Network）

概要
画像などの空間データを扱う深層学習モデル。畳み込み層とプーリング層を組み合わせ、局所特徴を抽出して分類に活かす。

一言で表すと
画像が得意な深層モデル

関連する用語
・畳み込み層
・プーリング層
・全結合層
・フィルタ
・特徴マップ

畳み込み層(たたみこみそう/Convolutional Layer)

概要
入力画像から特徴を抽出する層。フィルタを用いて畳み込み演算を行い、特徴マップを出力する。

一言で表すと
特徴を見つける層

関連する用語
・CNN
・フィルタ
・ストライド
・パディング
・特徴マップ

プーリング層(プーリングそう/Pooling Layer)

概要
特徴マップを縮小して計算量を削減しつつ、重要な情報を抽出・強調する層。最大値を取るMax Poolingが一般的。

一言で表すと
特徴を圧縮して強調

関連する用語
・畳み込み層
・特徴マップ
・Max Pooling
・ストライド
・ダウンサンプリング

全結合層(ぜんけつごうそう/Fully Connected Layer)

概要
前の層のすべてのノードと接続された層で、分類や予測の最終段階に使われる。通常は活性化関数とセットで使う。

一言で表すと
最後の判断を下す層

関連する用語
・畳み込みニューラルネットワーク
・活性化関数
・出力層
・分類
・パーセプトロン

入力画像から特徴を抽出

概要
畳み込み層が担う基本的な機能。画像中のエッジや模様などの局所特徴をフィルタで検出する。

一言で表すと
見た目の情報を取り出す

関連する用語
・畳み込み層
・CNN
・フィルタ
・特徴マップ
・画像処理

フィルタ(Filter)

概要
畳み込み層で使用される小さな行列で、画像の局所的特徴を検出する。重みとして学習される。

一言で表すと
画像をなぞる検出器

関連する用語
・畳み込み演算
・CNN
・特徴マップ
・ストライド
・カーネル

ストライド(Stride)

概要
フィルタをどれだけの間隔でスライドさせるかを決める値。大きくすると出力サイズが小さくなる。

一言で表すと
フィルタの移動距離

関連する用語
・畳み込み層
・フィルタ
・パディング
・特徴マップ
・ダウンサンプリング

畳み込み演算(Convolution Operation)

概要
フィルタを画像上に滑らせながら重み付き和を計算する処理。画像のエッジや模様の検出に使われる。

一言で表すと
画像をなぞって特徴抽出

関連する用語
・畳み込み層
・フィルタ
・特徴マップ
・ストライド
・カーネル

特徴マップ(とくちょうまっぷ/Feature Map)

概要
畳み込み演算の結果得られる出力で、フィルタが検出した特徴の存在度を表す。複数のフィルタにより多数生成される。

一言で表すと
特徴の写し出し

関連する用語
・畳み込み層
・フィルタ
・ストライド
・CNN
・活性化関数

プーリング層(プーリングそう/Pooling Layer)

概要
特徴マップのサイズを縮小し、特徴を強調・抽象化する層。代表的な手法に最大値プーリング（Max Pooling）がある。

一言で表すと
特徴を圧縮して強調

関連する用語
・畳み込み層
・CNN
・サブサンプリング
・ストライド
・特徴マップ

パディング(Padding)

概要
畳み込み演算の際に、画像の周囲にゼロを追加してサイズを維持したり、情報を保つ処理。出力サイズを調整できる。

一言で表すと
画像の周囲にゼロ追加

関連する用語
・畳み込み層
・ストライド
・特徴マップ
・フィルタ
・ゼロパディング

データ拡張(データかくちょう/Data Augmentation)

概要
画像回転、反転、ノイズ付加などにより、学習データを人工的に増やす技術。過学習防止や汎化性能向上に効果的。

一言で表すと
データを増やして学習強化

関連する用語
・過学習
・画像処理
・正則化
・学習データ
・深層学習

転移学習(てんいがくしゅう/Transfer Learning)

概要
あるタスクで学習したモデルの知識を、別のタスクに活用する手法。少量のデータでも高性能な学習が可能に。

一言で表すと
学習済みモデルを使い回し

関連する用語
・ファインチューニング
・事前学習
・少量データ学習
・深層学習
・特徴抽出

ファインチューニング(Fine-Tuning)

概要
転移学習で、事前学習済みモデルの一部や全体を新たなデータで再学習する手法。精度をさらに高める。

一言で表すと
微調整で最適化

関連する用語
・転移学習
・事前学習
・層の凍結
・微調整
・学習率

バッチ正規化(バッチせいきか/Batch Normalization)

概要
各ミニバッチ単位で出力を標準化し、学習を安定・高速化する技術。内部共変量シフトの抑制が目的。

一言で表すと
バッチ単位で出力を整える

関連する用語
・標準化
・深層学習
・内部共変量シフト
・正規化
・活性化関数

標準化(ひょうじゅんか/Standardization)

概要
データを平均0、標準偏差1にスケーリングする処理。バッチ正規化や前処理で使われる。

一言で表すと
スケールを統一

関連する用語
・バッチ正規化
・正規化
・Zスコア
・前処理
・特徴量

内部共変量シフト(ないぶきょうへんりょうしふと/Internal Covariate Shift)

概要
各層の出力分布が学習の進行により変動すること。学習の不安定さや遅さの原因とされ、バッチ正規化で軽減される。

一言で表すと
層ごとの出力分布の変動

関連する用語
・バッチ正規化
・標準化
・深層学習
・活性化関数
・学習安定化

ドロップアウト(Dropout)

概要
学習中にランダムに一部のノードを無効化する手法。過学習を防止し、汎化性能を向上させる。

一言で表すと
ノードを間引いて学習

関連する用語
・正則化
・過学習
・深層学習
・汎化性能
・確率的学習

プルーニング(Pruning)

概要
重要でない重みやノードを削除し、モデルを軽量化する技術。速度やメモリ効率の改善に役立つ。

一言で表すと
不要な部分を刈り取る

関連する用語
・モデル圧縮
・蒸留
・量子化
・スパース性
・再学習

蒸留(じょうりゅう/Knowledge Distillation)

概要
大規模モデルの知識を小型モデルに移し、精度を保ちつつ軽量化を図る手法。教師モデルと生徒モデルの関係で実施。

一言で表すと
知識を小型モデルに継承

関連する用語
・プルーニング
・量子化
・モデル圧縮
・教師モデル
・出力分布

大規模モデル(だいきぼもでる/Large-scale Model)

概要
大量のパラメータと層を持つ学習モデル。高精度だが計算資源が必要。例：GPTやResNet。

一言で表すと
高性能だが重たいモデル

関連する用語
・蒸留
・プルーニング
・転移学習
・GPU
・分散学習

小さいモデル(ちいさいもでる/Small Model)

概要
軽量で省メモリなモデル。スマートフォンなどのエッジデバイスでも動作可能。圧縮や蒸留で生成される。

一言で表すと
軽くて動作が速いモデル

関連する用語
・蒸留
・プルーニング
・量子化
・モバイルAI
・推論最適化

量子化(りょうしか/Quantization)

概要
重みや活性化値を32bitから8bitやそれ以下に変換して、モデルを軽量化・高速化する手法。精度と性能のバランスが鍵。

一言で表すと
数値の桁数を減らす圧縮

関連する用語
・モデル圧縮
・蒸留
・プルーニング
・整数化
・エッジデバイス

RNN(アールエヌエヌ/Recurrent Neural Network)

概要
時系列データや系列情報を扱うニューラルネットワーク。前の状態を保持し、時間的文脈を反映した処理が可能。

一言で表すと
時系列に強いネットワーク

関連する用語
・BPTT
・LSTM
・GRU
・シーケンス
・時系列予測

BPTT(Backpropagation Through Time)

概要
RNNの学習で使われる誤差逆伝播法を時間方向に展開して行うアルゴリズム。系列長が長いと勾配消失や爆発が起こりやすい。

一言で表すと
時間展開した誤差逆伝播

関連する用語
・RNN
・勾配消失問題
・LSTM
・時系列データ
・誤差逆伝播法

重み衝突問題(おもりしょうとつもんだい/Weight Conflict Problem)

概要
RNNの時間展開で、同一重みが異なる時間に使われるため、最適化の際に矛盾が生じやすい問題。学習の困難さに関与する。

一言で表すと
時間で重みの意見が衝突

関連する用語
・RNN
・BPTT
・勾配消失問題
・長期依存性
・LSTM

LSTM(エルエスティーエム/Long Short-Term Memory)

概要
長期依存関係を学習できるRNNの拡張モデル。ゲート機構を用いて、重要な情報を保持・忘却できる。

一言で表すと
長い記憶を保つRNN

関連する用語
・ゲート
・入力ゲート
・忘却ゲート
・出力ゲート
・CEC

ゲート(Gate)

概要
LSTMやGRUで用いられる、情報を保持・更新・忘却するかを制御する仕組み。Sigmoid関数を使う。

一言で表すと
情報を出すか閉じるか決める仕組み

関連する用語
・LSTM
・GRU
・入力ゲート
・忘却ゲート
・出力ゲート

入力ゲート(にゅうりょくげーと/Input Gate)

概要
LSTMにおいて、現在の入力をセルに加えるかどうかを決めるゲート。重要な情報のみを記憶に加える。

一言で表すと
何を覚えるか決める

関連する用語
・LSTM
・ゲート
・記憶セル
・Sigmoid関数
・CEC

出力ゲート(しゅつりょくげーと/Output Gate)

概要
LSTMで、セルの状態からどの情報を外部に出力するかを制御するゲート。次の層や時間へ情報を伝える。

一言で表すと
何を外に出すか決める

関連する用語
・LSTM
・ゲート
・記憶セル
・活性化関数
・時系列データ

忘却ゲート(ぼうきゃくげーと/Forget Gate)

概要
LSTMで、過去のセル状態をどの程度忘れるかを決めるゲート。古い情報を削除して効率よく学習する。

一言で表すと
何を忘れるか決める

関連する用語
・LSTM
・ゲート
・記憶セル
・Sigmoid関数
・長期依存性

CEC(Constant Error Carousel)

概要
LSTMのセル状態がエラーを一定に保ちながら伝播できる機構。長期依存関係を保つ要因となる。

一言で表すと
誤差を消さずに保つ機構

関連する用語
・LSTM
・誤差逆伝播
・勾配消失問題
・記憶セル
・長期記憶

CTC(Connectionist Temporal Classification)

概要
系列ラベルと系列出力の長さが一致しない問題に対応する損失関数。音声認識や手書き文字認識で活用される。

一言で表すと
系列と出力のズレ対応

関連する用語
・RNN
・音声認識
・損失関数
・系列データ
・時間的整合性

GRU(ジーアールユー/Gated Recurrent Unit)

概要
LSTMを簡略化したRNNの一種。少ないゲートで同様の性能を得られることが多く、学習が速い。

一言で表すと
軽量で速いLSTM

関連する用語
・LSTM
・ゲート
・更新ゲート
・リセットゲート
・RNN

リセットゲート(Reset Gate)

概要
GRUで使用されるゲート。過去の状態をどれだけリセット（無視）するかを制御する。

一言で表すと
過去の記憶をどれだけ消すか

関連する用語
・GRU
・ゲート
・RNN
・更新ゲート
・時系列

更新ゲート(Update Gate)

概要
GRUで、過去の情報と新しい情報をどの程度混ぜるかを制御するゲート。記憶の更新を担う。

一言で表すと
記憶をどれだけ変えるか

関連する用語
・GRU
・ゲート
・RNN
・リセットゲート
・時系列処理

エージェント(Agent)

概要
強化学習において、環境と相互作用しながら行動を選択する主体。報酬を最大化する行動戦略を学ぶ。

一言で表すと
学習して動く主体

関連する用語
・環境
・行動
・報酬
・方策
・状態

環境(かんきょう/Environment)

概要
エージェントが行動をとる対象で、状態遷移や報酬を与える外部のシステム。エージェントは環境の反応を見て学習する。

一言で表すと
行動の舞台

関連する用語
・状態
・報酬
・遷移
・エージェント
・強化学習

状態(じょうたい/State)

概要
現在の環境の状況を表す情報。エージェントはこの状態に基づいて行動を選択する。

一言で表すと
今どんな状況か

関連する用語
・行動
・観測
・遷移
・環境
・強化学習

報酬(ほうしゅう/Reward)

概要
エージェントの行動に対して環境が与える評価。学習の目的は報酬の最大化。

一言で表すと
ごほうびの値

関連する用語
・状態
・行動
・報酬関数
・強化学習
・最大の報酬

行動(こうどう/Action)

概要
エージェントが各状態で選択できる選択肢。行動により状態が変化し、報酬が得られる。

一言で表すと
次に何をするか

関連する用語
・状態
・報酬
・方策
・Q値
・行動価値関数

割引率(わりびきりつ/Discount Factor)

概要
将来の報酬の価値を現在の価値に換算する際の係数（通常は0～1）。値が小さいほど近い報酬を重視する。

一言で表すと
先の報酬の軽さを決める

関連する用語
・累積報酬
・強化学習
・Q学習
・価値関数
・TD学習

バンディットアルゴリズム(Bandit Algorithm)

概要
選択肢から最良を見つけるために、報酬を観測しながら学習するシンプルな強化学習モデル。探索と活用のバランスが鍵。

一言で表すと
報酬で選びを学ぶ

関連する用語
・探索
・活用
・ε-greedy法
・強化学習
・期待報酬

活用(かつよう/Exploitation)

概要
現在の知識で最も報酬が高いと考えられる行動を選ぶこと。即時的な利益を優先。

一言で表すと
知ってる最善を選ぶ

関連する用語
・探索
・バンディット問題
・強化学習
・方策
・Q値

探索(たんさく/Exploration)

概要
未知の行動を試し、将来より良い報酬を得るための情報を集める行動。長期的な利益を重視。

一言で表すと
未知を試して情報収集

関連する用語
・活用
・ε-greedy法
・強化学習
・バンディット
・Q学習

Q値(Q-value)

概要
ある状態で特定の行動を選んだときに得られる累積報酬の期待値。行動価値関数とも呼ばれる。

一言で表すと
状態＋行動の評価値

関連する用語
・行動価値関数
・Q学習
・方策
・累積報酬
・強化学習

行動価値関数(こうどうかちかんすう/Action-Value Function)

概要
Q値と同義。状態と行動の組に対して、どれだけの報酬が期待できるかを表す関数。

一言で表すと
行動の価値を数値化

関連する用語
・Q値
・価値関数
・Q学習
・強化学習
・累積報酬

累積報酬の期待値(るいせきほうしゅうのきたいち/Expected Cumulative Reward)

概要
将来にわたって得られる報酬の合計の期待値。強化学習ではこれを最大化する方策を学ぶ。

一言で表すと
報酬の合計の見込み

関連する用語
・Q値
・割引率
・価値関数
・方策
・強化学習

方策勾配法(ほうさくこうばいほう/Policy Gradient Method)

概要
方策を直接パラメータ化して最適化する手法。連続行動空間でも適用可能で、深層強化学習に広く使われる。

一言で表すと
方策そのものを学習

関連する用語
・方策
・強化学習
・勾配法
・Actor-Critic
・確率的方策

Q学習(Q-learning)

概要
方策を経由せずに、Q値を直接更新して最適行動を学ぶ方策オフ型の手法。代表的な強化学習アルゴリズム。

一言で表すと
行動の価値を直接学ぶ

関連する用語
・Q値
・方策オフ
・価値関数
・強化学習
・TD学習

モンテカルロ法(Monte Carlo Method)

概要
エピソード終了後に、得られた報酬の平均から価値関数を更新する手法。エピソードベースで安定。

一言で表すと
実績から平均して更新

関連する用語
・価値関数
・強化学習
・TD学習
・方策評価
・サンプリング

TD学習(Temporal Difference Learning)

概要
現時点の予測と次の予測の誤差から価値を更新する学習法。モンテカルロ法と動的計画法の中間的アプローチ。

一言で表すと
未来予測との差で学習

関連する用語
・Q学習
・SARSA
・価値関数
・強化学習
・割引報酬

SARSA(サーサ)

概要
TD学習の一種で、実際に選んだ行動に基づいてQ値を更新する方策オン型アルゴリズム。名前は5つの変数の頭文字。

一言で表すと
方策に従って更新

関連する用語
・方策オン
・Q学習
・TD学習
・行動価値関数
・強化学習

方策オン(On-policy)

概要
現在使っている方策に基づいてデータを収集し、その方策を改善する手法。SARSAなどが該当。

一言で表すと
今の方策で学習

関連する用語
・SARSA
・探索
・活用
・Q値
・強化学習

Q学習(Q-learning)

概要
方策オフ型の価値反復法。行動の選択には探索方策を用いるが、Q値更新には最良行動の値を使う。

一言で表すと
最良行動ベースで更新

関連する用語
・方策オフ
・Q値
・TD学習
・価値反復
・強化学習

方策オフ(Off-policy)

概要
行動を選んだ方策とは異なる方策を学習する手法。Q学習などで用いられる。

一言で表すと
別の方策を学習

関連する用語
・Q学習
・方策オン
・探索
・TD学習
・強化学習

greedy法(グリーディほう)

概要
最もQ値が高い行動を常に選択する方策。短期的には最良だが、探索が不十分になる可能性がある。

一言で表すと
その場で一番良いものを選ぶ

関連する用語
・ε-greedy法
・活用
・探索
・Q値
・方策

ε-greedy法(イプシロン・グリーディほう/ε-greedy Method)

概要
一定の確率εでランダムな行動（探索）を選び、残りの1−εの確率で最良の行動（活用）を選ぶ方法。探索と活用のバランスをとる。

一言で表すと
たまにランダム、普段は最良

関連する用語
・探索
・活用
・バンディットアルゴリズム
・Q学習
・方策

マルコフ性(マルコフせい/Markov Property)

概要
現在の状態が未来の状態に影響を与える唯一の情報であるという性質。強化学習の基本的な前提条件。

一言で表すと
今だけ見れば十分

関連する用語
・マルコフ決定過程
・状態
・遷移確率
・強化学習
・方策

マルコフ決定過程(マルコフけっていかてい/Markov Decision Process: MDP)

概要
状態・行動・遷移確率・報酬・割引率で構成される強化学習の数学的モデル。マルコフ性を前提とする。

一言で表すと
強化学習の設計図

関連する用語
・状態
・行動
・報酬
・マルコフ性
・方策

DQN(Deep Q-Network)

概要
Q学習にニューラルネットワークを組み合わせた深層強化学習アルゴリズム。画像入力の処理も可能。

一言で表すと
Q学習＋ディープラーニング

関連する用語
・Q学習
・深層学習
・行動価値関数
・Experience Replay
・ターゲットネットワーク

行動価値関数(こうどうかちかんすう/Action-Value Function)

概要
Q値とも呼ばれ、状態と行動の組み合わせに対する累積報酬の期待値を示す。行動選択の指針になる。

一言で表すと
行動の良さを数値で評価

関連する用語
・Q学習
・DQN
・価値関数
・方策
・TD学習

Experience Replay(経験再利用)

概要
強化学習で過去の経験（状態・行動・報酬）をメモリに保存し、ランダムに再利用する手法。学習の安定化に効果あり。

一言で表すと
経験を貯めて繰り返し使う

関連する用語
・DQN
・強化学習
・バッチ学習
・過学習防止
・学習安定化

AlphaGo(アルファゴー)

概要
DeepMind社が開発した囲碁AIで、人間のトッププロを初めて破った。強化学習とディープラーニングの融合事例。

一言で表すと
囲碁のAI革命児

関連する用語
・強化学習
・DQN
・AlphaGo Zero
・モンテカルロ木探索
・自己対局

AlphaGo Zero(アルファゴーゼロ)

概要
AlphaGoの進化版で、人間の棋譜を使わず完全自己対局のみで最強の囲碁AIを実現。ゼロから学ぶ自己強化型。

一言で表すと
自己対局だけで最強化

関連する用語
・AlphaGo
・完全自己対局
・強化学習
・モンテカルロ木探索
・ニューラルネットワーク

完全自己対局(かんぜんじこたいきょく/Self-Play)

概要
自分自身と対戦しながら学習を進める手法。AlphaGo Zeroなどが活用し、人間の知識なしに高度な戦略を習得する。

一言で表すと
自分同士で学び合う

関連する用語
・AlphaGo Zero
・強化学習
・自己強化
・方策学習
・モンテカルロ木探索