機械学習の概要

教師あり学習(きょうしありがくしゅう/Supervised Learning)

概要
正解ラベル付きのデータを使ってモデルを訓練し、新しい入力に対して正しい出力を予測する手法。分類や回帰などが含まれる。

一言で表すと
正解を見て学ぶ機械学習

関連する用語
・正解ラベル
・分類
・回帰
・特徴量
・損失関数

教師なし学習(きょうしなしがくしゅう/Unsupervised Learning)

概要
正解ラベルのないデータから、隠れた構造やパターンを学習する手法。クラスタリングや次元削減などが含まれる。

一言で表すと
構造を自力で見つける学習

関連する用語
・クラスタリング
・次元削減
・データが持つ構造
・特徴量
・主成分分析（PCA）

半教師あり学習(はんきょうしありがくしゅう/Semi-Supervised Learning)

概要
少量のラベル付きデータと大量のラベルなしデータを組み合わせて学習する手法。コスト削減や精度向上に活用される。

一言で表すと
一部だけ正解を使う学習法

関連する用語
・教師あり学習
・教師なし学習
・自己学習
・疑似ラベル
・トランスダクション

強化学習(きょうかがくしゅう/Reinforcement Learning)

概要
エージェントが環境と相互作用しながら、報酬を最大化するための最適な行動を学ぶ手法。ゲームやロボット制御などに応用される。

一言で表すと
報酬を目指して行動を学習

関連する用語
・最大の報酬
・最適な行動
・状態
・行動
・価値関数

最大の報酬(さいだいのほうしゅう/Maximum Reward)

概要
強化学習において、エージェントが累積して得る報酬の合計値の最大化を目指す目的。目標達成の指標として機能する。

一言で表すと
成功のためのごほうび最大化

関連する用語
・強化学習
・報酬
・価値関数
・最適な行動
・方策

最適な行動(さいてきなこうどう/Optimal Action)

概要
ある状態において、最大の報酬を得るために選ぶべき行動。強化学習ではこの行動を導くポリシー（方策）を学ぶ。

一言で表すと
一番得な選択肢

関連する用語
・強化学習
・最大の報酬
・価値関数
・Q学習
・方策

特徴量(とくちょうりょう/Feature)

概要
機械学習モデルの入力として使われる、データの属性や情報のこと。良い特徴量は学習精度を高める。

一言で表すと
データの意味ある要素

関連する用語
・前処理
・次元削減
・教師あり学習
・特徴量選択
・特徴抽出

正解ラベル(せいかいらべる/Label)

概要
教師あり学習で、各入力データに対応する正しい出力のこと。モデルはこのラベルを基に学習する。

一言で表すと
答えのデータ

関連する用語
・教師あり学習
・分類
・回帰
・損失関数
・評価指標

データが持つ構造(Data Structure)

概要
教師なし学習などで注目される、データ内に存在するクラスタやパターン、分布などの内在的な関係性のこと。

一言で表すと
データに潜む法則や分布

関連する用語
・教師なし学習
・クラスタリング
・次元削減
・自己組織化マップ（SOM）
・主成分分析（PCA）

ラベルエンコーディング(Label Encoding)

概要
カテゴリ変数を数値に変換する方法で、各カテゴリに一意の整数を割り当てる。順序のあるデータに有効。

一言で表すと
カテゴリを番号に変換

関連する用語
・特徴量
・前処理
・One-Hotエンコーディング
・カテゴリ変数
・スケーリング

One-Hotエンコーディング(One-Hot Encoding)

概要
カテゴリ変数を、1つの値のみ1で他を0にするベクトルに変換する方法。機械学習モデルで扱いやすくするために使う。

一言で表すと
カテゴリを0と1で表現

関連する用語
・ラベルエンコーディング
・特徴量
・前処理
・ダミー変数
・カテゴリ変数

回帰補完(かいきほかん/Regression Imputation)

概要
欠損データを、他の変数との回帰モデルを使って予測・補完する方法。単純な平均補完よりも精度が高い。

一言で表すと
予測で埋める欠損値処理

関連する用語
・欠損値処理
・線形回帰
・特徴量
・前処理
・平均補完

正規化/スケーリング(せいきか/すけーりんぐ/Normalization/Scaling)

概要
特徴量のスケール（範囲）を統一する処理。モデルの学習効率向上や偏りの回避に役立つ。主な方法にZスコア標準化やMin-Maxスケーリングがある。

一言で表すと
データの大きさを揃える

関連する用語
・特徴量
・前処理
・標準化
・Min-Maxスケーリング
・ロバストスケーリング

標準化(ひょうじゅんか/Standardization)

概要
特徴量の平均を0、標準偏差を1に変換する処理。異なるスケールのデータを比較可能にし、機械学習アルゴリズムの精度向上に貢献する。

一言で表すと
平均0・分散1に変換

関連する用語
・正規化
・スケーリング
・Zスコア
・前処理
・特徴量

過学習(かがくしゅう/Overfitting)

概要
モデルが訓練データに過剰に適合し、汎化性能が低下する現象。テストデータに対する精度が悪くなる。

一言で表すと
覚えすぎて応用できない

関連する用語
・汎化性能
・バリアンス
・正則化
・ドロップアウト
・交差検証

汎化性能(はんかせいのう/Generalization Performance)

概要
モデルが未知のデータに対してどれだけ正確に予測できるかを表す指標。学習の成功を測る重要な尺度。

一言で表すと
新しいデータへの強さ

関連する用語
・過学習
・バイアス
・バリアンス
・交差検証
・検証データ

バイアス(Bias)

概要
モデルの予測が、真の値からどれだけ系統的にずれているかを示す。高すぎるとモデルが単純すぎることを意味する。

一言で表すと
予測のズレの傾向

関連する用語
・バリアンス
・バイアス-バリアンストレードオフ
・汎化性能
・誤差分解
・モデルの複雑さ

バリアンス(Variance)

概要
学習データに対するモデルの感度の強さを示す。高すぎると過学習の原因になりやすい。

一言で表すと
予測のブレの大きさ

関連する用語
・バイアス
・過学習
・汎化性能
・交差検証
・バイアス-バリアンストレードオフ

線形回帰(せんけいかいき/Linear Regression)

概要
入力と出力の関係を直線でモデル化する回帰分析手法。説明変数と目的変数の関係をシンプルに表現する。

一言で表すと
直線で予測する回帰

関連する用語
・単回帰
・重回帰
・偏回帰係数
・最小二乗法
・回帰分析

偏回帰係数(へんかいきけいすう/Partial Regression Coefficient)

概要
重回帰分析において、他の変数の影響を固定したときの、ある説明変数の目的変数に対する影響の大きさを表す係数。

一言で表すと
他の影響を除いた効果量

関連する用語
・重回帰
・線形回帰
・説明変数
・目的変数
・多重共線性

単回帰(たんかいき/Single Regression)

概要
1つの説明変数から1つの目的変数を予測する回帰手法。最も基本的な回帰モデル。

一言で表すと
1対1の回帰分析

関連する用語
・線形回帰
・重回帰
・最小二乗法
・決定係数
・回帰直線

重回帰(じゅうかいき/Multiple Regression)

概要
複数の説明変数を用いて、1つの目的変数を予測する回帰手法。より複雑な関係性を捉えるのに有効。

一言で表すと
多変量での回帰分析

関連する用語
・線形回帰
・偏回帰係数
・説明変数
・目的変数
・多重共線性

多重共線性(たじゅうきょうせんせい/Multicollinearity)

概要
重回帰分析で、説明変数同士が強く相関している状態。モデルの安定性が損なわれ、偏回帰係数の解釈が困難になる。

一言で表すと
変数同士の被りすぎ

関連する用語
・重回帰
・偏回帰係数
・線形回帰
・分散拡大係数（VIF）
・次元削減

ロジスティック回帰分析(ロジスティックかいきぶんせき/Logistic Regression)

概要
目的変数がカテゴリ（特に2値）の場合に用いる回帰手法。シグモイド関数を使って確率を出力する。

一言で表すと
確率で分類する回帰

関連する用語
・シグモイド関数
・分類
・クロスエントロピー
・ロジット関数
・正則化

シグモイド関数(Sigmoid Function)

概要
実数値を0〜1の範囲に変換するS字型の関数。ロジスティック回帰やニューラルネットの活性化関数に使われる。

一言で表すと
S字型で確率出力

関連する用語
・ロジスティック回帰
・活性化関数
・ニューラルネットワーク
・ソフトマックス関数
・ロジット関数

ソフトマックス関数(Softmax Function)

概要
複数の値を0〜1の範囲の確率に変換し、合計を1にする関数。多クラス分類問題で使用される。

一言で表すと
確率に分配する関数

関連する用語
・シグモイド関数
・多クラス分類
・ニューラルネットワーク
・クロスエントロピー
・出力層

正則化(せいそくか/Regularization)

概要
モデルの複雑さを抑えて過学習を防ぐために、損失関数にペナルティ項を加える手法。L1・L2が代表的。

一言で表すと
モデルをシンプルに保つ工夫

関連する用語
・過学習
・L1正則化
・L2正則化
・損失関数
・正則化項

L1正則化(L1 Regularization)

概要
重みの絶対値の合計をペナルティとする正則化。不要な重みをゼロにしやすく、特徴選択効果がある。

一言で表すと
不要な重みをゼロにする

関連する用語
・正則化
・ラッソ回帰
・スパース性
・損失関数
・L2正則化

ラッソ回帰(ラッソかいき/Lasso Regression)

概要
L1正則化を用いた線形回帰。重要でない説明変数の係数をゼロにして、モデルの簡素化と過学習防止を実現。

一言で表すと
特徴を選ぶ回帰手法

関連する用語
・L1正則化
・線形回帰
・スパース性
・正則化
・過学習

L2正則化(L2 Regularization)

概要
重みの2乗和をペナルティとする正則化。すべての重みを小さく保つことで、滑らかなモデルにする。

一言で表すと
重みを均等に小さくする

関連する用語
・正則化
・リッジ回帰
・損失関数
・ラッソ回帰
・過学習

リッジ回帰(リッジかいき/Ridge Regression)

概要
L2正則化を用いた線形回帰。重みを均一に抑えることで多重共線性や過学習を防ぐ。

一言で表すと
滑らかにする回帰手法

関連する用語
・L2正則化
・正則化
・線形回帰
・多重共線性
・過学習

Elastic Net(エラスティックネット)

概要
L1正則化とL2正則化を組み合わせた回帰手法。ラッソとリッジのメリットを融合し、スパース性と安定性を両立。

一言で表すと
L1とL2のいいとこ取り

関連する用語
・L1正則化
・L2正則化
・ラッソ回帰
・リッジ回帰
・正則化

汎化性能(はんかせいのう/Generalization Performance)

概要
学習済みのモデルが未知のデータに対しても高い精度で予測できる能力。機械学習モデルの実用性を評価する上で重要。

一言で表すと
未知データへの強さ

関連する用語
・過学習
・交差検証
・テストデータ
・バイアス
・バリアンス

訓練データ(くんれんでーた/Training Data)

概要
モデルを学習させるためのデータセット。特徴量と正解ラベルが含まれ、パターンを見つけるために使用される。

一言で表すと
モデルの学習用データ

関連する用語
・教師あり学習
・テストデータ
・バリデーションデータ
・交差検証
・ホールドアウト法

テストデータ(Test Data)

概要
学習後のモデルの汎化性能を評価するために使う、学習に使わなかったデータセット。

一言で表すと
精度を確かめる検証データ

関連する用語
・訓練データ
・バリデーションデータ
・交差検証
・ホールドアウト法
・評価指標

ホールドアウト法(ホールドアウトほう/Holdout Method)

概要
データを訓練用・検証用・テスト用に分割してモデルを評価するシンプルな方法。分割の仕方により結果が変動しやすい。

一言で表すと
分割して評価する基本法

関連する用語
・訓練データ
・テストデータ
・バリデーションデータ
・交差検証
・汎化性能

交差検証法(こうさてんけんしょうほう/Cross Validation)

概要
データを複数の分割パターンで繰り返し評価し、より安定した汎化性能の測定を行う方法。K分割交差検証が一般的。

一言で表すと
繰り返して検証する方法

関連する用語
・ホールドアウト法
・汎化性能
・訓練データ
・バリデーションデータ
・テストデータ

混同行列(こんどうぎょうれつ/Confusion Matrix)

概要
分類モデルの予測結果と実際の正解を対比させた表。正解率、適合率、再現率などを算出する元になる。

一言で表すと
分類結果の全体像

関連する用語
・正解率
・適合率
・再現率
・F値
・評価指標

正解率(せいかいりつ/Accuracy)

概要
全予測のうち、正しく分類された割合。最も基本的な評価指標だが、クラスの偏りがある場合には注意が必要。

一言で表すと
全体の正解割合

関連する用語
・混同行列
・適合率
・再現率
・分類精度
・F値

適合率(てきごうりつ/Precision)

概要
あるクラスに分類された予測のうち、実際に正解だった割合。偽陽性を抑えたい場面で重要。

一言で表すと
当てた中での正解率

関連する用語
・混同行列
・再現率
・F値
・正解率
・分類問題

バリデーションデータ(Validation Data)

概要
モデルの学習中にパラメータや構造の調整（ハイパーパラメータチューニング）を行うための評価データ。訓練・テストと別に用意する。

一言で表すと
調整用の評価データ

関連する用語
・訓練データ
・テストデータ
・ホールドアウト法
・交差検証
・グリッドサーチ

グリッドサーチ(Grid Search)

概要
複数のハイパーパラメータの組み合わせをすべて試して、最適なモデル設定を見つける方法。計算コストは高い。

一言で表すと
全通り試すパラメータ探索

関連する用語
・ハイパーパラメータ
・バリデーションデータ
・交差検証
・ランダムサーチ
・チューニング

ランダムサーチ(Random Search)

概要
ハイパーパラメータの候補からランダムに選んで探索する方法。グリッドサーチより効率的に高性能な組み合わせを見つけることもある。

一言で表すと
ランダムに試す探索法

関連する用語
・グリッドサーチ
・ハイパーパラメータ
・交差検証
・バリデーションデータ
・チューニング