教師あり学習(きょうしありがくしゅう/Supervised Learning)
概要
正解ラベル付きのデータを使ってモデルを訓練し、新しい入力に対して正しい出力を予測する手法。分類や回帰などが含まれる。
一言で表すと
正解を見て学ぶ機械学習
関連する用語
・正解ラベル
・分類
・回帰
・特徴量
・損失関数
教師なし学習(きょうしなしがくしゅう/Unsupervised Learning)
概要
正解ラベルのないデータから、隠れた構造やパターンを学習する手法。クラスタリングや次元削減などが含まれる。
一言で表すと
構造を自力で見つける学習
関連する用語
・クラスタリング
・次元削減
・データが持つ構造
・特徴量
・主成分分析(PCA)
半教師あり学習(はんきょうしありがくしゅう/Semi-Supervised Learning)
概要
少量のラベル付きデータと大量のラベルなしデータを組み合わせて学習する手法。コスト削減や精度向上に活用される。
一言で表すと
一部だけ正解を使う学習法
関連する用語
・教師あり学習
・教師なし学習
・自己学習
・疑似ラベル
・トランスダクション
強化学習(きょうかがくしゅう/Reinforcement Learning)
概要
エージェントが環境と相互作用しながら、報酬を最大化するための最適な行動を学ぶ手法。ゲームやロボット制御などに応用される。
一言で表すと
報酬を目指して行動を学習
関連する用語
・最大の報酬
・最適な行動
・状態
・行動
・価値関数
最大の報酬(さいだいのほうしゅう/Maximum Reward)
概要
強化学習において、エージェントが累積して得る報酬の合計値の最大化を目指す目的。目標達成の指標として機能する。
一言で表すと
成功のためのごほうび最大化
関連する用語
・強化学習
・報酬
・価値関数
・最適な行動
・方策
最適な行動(さいてきなこうどう/Optimal Action)
概要
ある状態において、最大の報酬を得るために選ぶべき行動。強化学習ではこの行動を導くポリシー(方策)を学ぶ。
一言で表すと
一番得な選択肢
関連する用語
・強化学習
・最大の報酬
・価値関数
・Q学習
・方策
特徴量(とくちょうりょう/Feature)
概要
機械学習モデルの入力として使われる、データの属性や情報のこと。良い特徴量は学習精度を高める。
一言で表すと
データの意味ある要素
関連する用語
・前処理
・次元削減
・教師あり学習
・特徴量選択
・特徴抽出
正解ラベル(せいかいらべる/Label)
概要
教師あり学習で、各入力データに対応する正しい出力のこと。モデルはこのラベルを基に学習する。
一言で表すと
答えのデータ
関連する用語
・教師あり学習
・分類
・回帰
・損失関数
・評価指標
データが持つ構造(Data Structure)
概要
教師なし学習などで注目される、データ内に存在するクラスタやパターン、分布などの内在的な関係性のこと。
一言で表すと
データに潜む法則や分布
関連する用語
・教師なし学習
・クラスタリング
・次元削減
・自己組織化マップ(SOM)
・主成分分析(PCA)
ラベルエンコーディング(Label Encoding)
概要
カテゴリ変数を数値に変換する方法で、各カテゴリに一意の整数を割り当てる。順序のあるデータに有効。
一言で表すと
カテゴリを番号に変換
関連する用語
・特徴量
・前処理
・One-Hotエンコーディング
・カテゴリ変数
・スケーリング
One-Hotエンコーディング(One-Hot Encoding)
概要
カテゴリ変数を、1つの値のみ1で他を0にするベクトルに変換する方法。機械学習モデルで扱いやすくするために使う。
一言で表すと
カテゴリを0と1で表現
関連する用語
・ラベルエンコーディング
・特徴量
・前処理
・ダミー変数
・カテゴリ変数
回帰補完(かいきほかん/Regression Imputation)
概要
欠損データを、他の変数との回帰モデルを使って予測・補完する方法。単純な平均補完よりも精度が高い。
一言で表すと
予測で埋める欠損値処理
関連する用語
・欠損値処理
・線形回帰
・特徴量
・前処理
・平均補完
正規化/スケーリング(せいきか/すけーりんぐ/Normalization/Scaling)
概要
特徴量のスケール(範囲)を統一する処理。モデルの学習効率向上や偏りの回避に役立つ。主な方法にZスコア標準化やMin-Maxスケーリングがある。
一言で表すと
データの大きさを揃える
関連する用語
・特徴量
・前処理
・標準化
・Min-Maxスケーリング
・ロバストスケーリング
標準化(ひょうじゅんか/Standardization)
概要
特徴量の平均を0、標準偏差を1に変換する処理。異なるスケールのデータを比較可能にし、機械学習アルゴリズムの精度向上に貢献する。
一言で表すと
平均0・分散1に変換
関連する用語
・正規化
・スケーリング
・Zスコア
・前処理
・特徴量
過学習(かがくしゅう/Overfitting)
概要
モデルが訓練データに過剰に適合し、汎化性能が低下する現象。テストデータに対する精度が悪くなる。
一言で表すと
覚えすぎて応用できない
関連する用語
・汎化性能
・バリアンス
・正則化
・ドロップアウト
・交差検証
汎化性能(はんかせいのう/Generalization Performance)
概要
モデルが未知のデータに対してどれだけ正確に予測できるかを表す指標。学習の成功を測る重要な尺度。
一言で表すと
新しいデータへの強さ
関連する用語
・過学習
・バイアス
・バリアンス
・交差検証
・検証データ
バイアス(Bias)
概要
モデルの予測が、真の値からどれだけ系統的にずれているかを示す。高すぎるとモデルが単純すぎることを意味する。
一言で表すと
予測のズレの傾向
関連する用語
・バリアンス
・バイアス-バリアンストレードオフ
・汎化性能
・誤差分解
・モデルの複雑さ
バリアンス(Variance)
概要
学習データに対するモデルの感度の強さを示す。高すぎると過学習の原因になりやすい。
一言で表すと
予測のブレの大きさ
関連する用語
・バイアス
・過学習
・汎化性能
・交差検証
・バイアス-バリアンストレードオフ
線形回帰(せんけいかいき/Linear Regression)
概要
入力と出力の関係を直線でモデル化する回帰分析手法。説明変数と目的変数の関係をシンプルに表現する。
一言で表すと
直線で予測する回帰
関連する用語
・単回帰
・重回帰
・偏回帰係数
・最小二乗法
・回帰分析
偏回帰係数(へんかいきけいすう/Partial Regression Coefficient)
概要
重回帰分析において、他の変数の影響を固定したときの、ある説明変数の目的変数に対する影響の大きさを表す係数。
一言で表すと
他の影響を除いた効果量
関連する用語
・重回帰
・線形回帰
・説明変数
・目的変数
・多重共線性
単回帰(たんかいき/Single Regression)
概要
1つの説明変数から1つの目的変数を予測する回帰手法。最も基本的な回帰モデル。
一言で表すと
1対1の回帰分析
関連する用語
・線形回帰
・重回帰
・最小二乗法
・決定係数
・回帰直線
重回帰(じゅうかいき/Multiple Regression)
概要
複数の説明変数を用いて、1つの目的変数を予測する回帰手法。より複雑な関係性を捉えるのに有効。
一言で表すと
多変量での回帰分析
関連する用語
・線形回帰
・偏回帰係数
・説明変数
・目的変数
・多重共線性
多重共線性(たじゅうきょうせんせい/Multicollinearity)
概要
重回帰分析で、説明変数同士が強く相関している状態。モデルの安定性が損なわれ、偏回帰係数の解釈が困難になる。
一言で表すと
変数同士の被りすぎ
関連する用語
・重回帰
・偏回帰係数
・線形回帰
・分散拡大係数(VIF)
・次元削減
ロジスティック回帰分析(ロジスティックかいきぶんせき/Logistic Regression)
概要
目的変数がカテゴリ(特に2値)の場合に用いる回帰手法。シグモイド関数を使って確率を出力する。
一言で表すと
確率で分類する回帰
関連する用語
・シグモイド関数
・分類
・クロスエントロピー
・ロジット関数
・正則化
シグモイド関数(Sigmoid Function)
概要
実数値を0〜1の範囲に変換するS字型の関数。ロジスティック回帰やニューラルネットの活性化関数に使われる。
一言で表すと
S字型で確率出力
関連する用語
・ロジスティック回帰
・活性化関数
・ニューラルネットワーク
・ソフトマックス関数
・ロジット関数
ソフトマックス関数(Softmax Function)
概要
複数の値を0〜1の範囲の確率に変換し、合計を1にする関数。多クラス分類問題で使用される。
一言で表すと
確率に分配する関数
関連する用語
・シグモイド関数
・多クラス分類
・ニューラルネットワーク
・クロスエントロピー
・出力層
正則化(せいそくか/Regularization)
概要
モデルの複雑さを抑えて過学習を防ぐために、損失関数にペナルティ項を加える手法。L1・L2が代表的。
一言で表すと
モデルをシンプルに保つ工夫
関連する用語
・過学習
・L1正則化
・L2正則化
・損失関数
・正則化項
L1正則化(L1 Regularization)
概要
重みの絶対値の合計をペナルティとする正則化。不要な重みをゼロにしやすく、特徴選択効果がある。
一言で表すと
不要な重みをゼロにする
関連する用語
・正則化
・ラッソ回帰
・スパース性
・損失関数
・L2正則化
ラッソ回帰(ラッソかいき/Lasso Regression)
概要
L1正則化を用いた線形回帰。重要でない説明変数の係数をゼロにして、モデルの簡素化と過学習防止を実現。
一言で表すと
特徴を選ぶ回帰手法
関連する用語
・L1正則化
・線形回帰
・スパース性
・正則化
・過学習
L2正則化(L2 Regularization)
概要
重みの2乗和をペナルティとする正則化。すべての重みを小さく保つことで、滑らかなモデルにする。
一言で表すと
重みを均等に小さくする
関連する用語
・正則化
・リッジ回帰
・損失関数
・ラッソ回帰
・過学習
リッジ回帰(リッジかいき/Ridge Regression)
概要
L2正則化を用いた線形回帰。重みを均一に抑えることで多重共線性や過学習を防ぐ。
一言で表すと
滑らかにする回帰手法
関連する用語
・L2正則化
・正則化
・線形回帰
・多重共線性
・過学習
Elastic Net(エラスティックネット)
概要
L1正則化とL2正則化を組み合わせた回帰手法。ラッソとリッジのメリットを融合し、スパース性と安定性を両立。
一言で表すと
L1とL2のいいとこ取り
関連する用語
・L1正則化
・L2正則化
・ラッソ回帰
・リッジ回帰
・正則化
汎化性能(はんかせいのう/Generalization Performance)
概要
学習済みのモデルが未知のデータに対しても高い精度で予測できる能力。機械学習モデルの実用性を評価する上で重要。
一言で表すと
未知データへの強さ
関連する用語
・過学習
・交差検証
・テストデータ
・バイアス
・バリアンス
訓練データ(くんれんでーた/Training Data)
概要
モデルを学習させるためのデータセット。特徴量と正解ラベルが含まれ、パターンを見つけるために使用される。
一言で表すと
モデルの学習用データ
関連する用語
・教師あり学習
・テストデータ
・バリデーションデータ
・交差検証
・ホールドアウト法
テストデータ(Test Data)
概要
学習後のモデルの汎化性能を評価するために使う、学習に使わなかったデータセット。
一言で表すと
精度を確かめる検証データ
関連する用語
・訓練データ
・バリデーションデータ
・交差検証
・ホールドアウト法
・評価指標
ホールドアウト法(ホールドアウトほう/Holdout Method)
概要
データを訓練用・検証用・テスト用に分割してモデルを評価するシンプルな方法。分割の仕方により結果が変動しやすい。
一言で表すと
分割して評価する基本法
関連する用語
・訓練データ
・テストデータ
・バリデーションデータ
・交差検証
・汎化性能
交差検証法(こうさてんけんしょうほう/Cross Validation)
概要
データを複数の分割パターンで繰り返し評価し、より安定した汎化性能の測定を行う方法。K分割交差検証が一般的。
一言で表すと
繰り返して検証する方法
関連する用語
・ホールドアウト法
・汎化性能
・訓練データ
・バリデーションデータ
・テストデータ
混同行列(こんどうぎょうれつ/Confusion Matrix)
概要
分類モデルの予測結果と実際の正解を対比させた表。正解率、適合率、再現率などを算出する元になる。
一言で表すと
分類結果の全体像
関連する用語
・正解率
・適合率
・再現率
・F値
・評価指標
正解率(せいかいりつ/Accuracy)
概要
全予測のうち、正しく分類された割合。最も基本的な評価指標だが、クラスの偏りがある場合には注意が必要。
一言で表すと
全体の正解割合
関連する用語
・混同行列
・適合率
・再現率
・分類精度
・F値
適合率(てきごうりつ/Precision)
概要
あるクラスに分類された予測のうち、実際に正解だった割合。偽陽性を抑えたい場面で重要。
一言で表すと
当てた中での正解率
関連する用語
・混同行列
・再現率
・F値
・正解率
・分類問題
バリデーションデータ(Validation Data)
概要
モデルの学習中にパラメータや構造の調整(ハイパーパラメータチューニング)を行うための評価データ。訓練・テストと別に用意する。
一言で表すと
調整用の評価データ
関連する用語
・訓練データ
・テストデータ
・ホールドアウト法
・交差検証
・グリッドサーチ
グリッドサーチ(Grid Search)
概要
複数のハイパーパラメータの組み合わせをすべて試して、最適なモデル設定を見つける方法。計算コストは高い。
一言で表すと
全通り試すパラメータ探索
関連する用語
・ハイパーパラメータ
・バリデーションデータ
・交差検証
・ランダムサーチ
・チューニング
ランダムサーチ(Random Search)
概要
ハイパーパラメータの候補からランダムに選んで探索する方法。グリッドサーチより効率的に高性能な組み合わせを見つけることもある。
一言で表すと
ランダムに試す探索法
関連する用語
・グリッドサーチ
・ハイパーパラメータ
・交差検証
・バリデーションデータ
・チューニング