コンテンツにスキップ
Wikipedia

最小記述長

出典: フリー百科事典『ウィキペディア(Wikipedia)』
この記事は英語版の対応するページを翻訳することにより充実させることができます。(2024年5月)
翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
  • 英語版記事を日本語へ機械翻訳したバージョン(Google翻訳)。
  • 万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。
  • 信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。
  • 履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。
  • 翻訳後、{{翻訳告知|en|Minimum description length|...}}ノートに追加することもできます。
  • Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手順・指針についての説明があります。

最小記述長(さいしょうきじゅつちょう、: minimum description length, MDL)は、情報理論に基づくモデル選択基準である。

モデル選択とは、データに照らして何らかの意味で最適なモデル族(確率分布の集合)を検討する過程を指す。

MDLは、1978年Jorma Rissanen により導入された。MDLでは、データをモデルを用いて圧縮・送信する際の符号長の最小化を考える。これはノイズを含むデータから意味のある規則性を抽出することにあたる。

最小記述長原理に基づくモデル選択指標としてNormalized Maximum Likelihood (NML)と、その罰則項を漸近展開して得られるFisher Information Approximation (FIA)がある。

MDLは (AICと違い) 離散データを扱う情報理論に基盤を置いているので、連続値データに対し使うときは注意を要する。

AIC・BICとの比較

[編集 ]

統計的推測に基盤を置くAICBICが真の分布の存在を仮定するのに対し、MDLは真の分布の存在を仮定せず、あくまでデータの最短記述(規則性抽出)を考える。NMLを漸近展開しΟ (logn)までの項のみを残したものがBICと一致するため、BICはNMLの粗い近似となる。

また、ベイズ統計学における負の対数周辺尤度(ベイズ自由エネルギー)をジェフリーズ事前分布を用いて漸近展開したものがFIAと一致する。さらにサンプルサイズnに拠らない項を切り捨てるとBICになる。したがって、FIAおよびBICはNMLに漸近一致する。AICとBICがモデルの自由パラメータ数のみを複雑性として罰するのに対し、FIAとNMLはモデル式の構造に由来する複雑性をも罰することが可能である。ただし、小サンプルの下ではFIAの罰則項は正常に機能せず、常により複雑なモデルが選択されてしまう(BICおよびNMLにはこの欠点は無い)。AIC、BIC、MDLは立脚する背景が異なるため(期待対数尤度の推定、対数周辺尤度の近似、記述長の最小化)、その時々の問題意識に基づいてどれを使うかを慎重に決める必要がある。漸近理論に強く依存するAIC、BIC、FIAとは異なり、NMLは限られたサンプルに基づく現実のデータ解析において正確なモデル選択指標となる。

標本調査
記述統計学
連続データ
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
相関係数
その他
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定 (英語版)
その他
統計図表
生存時間分析
歴史
応用
出版物
全般
その他
カテゴリ カテゴリ

AltStyle によって変換されたページ (->オリジナル) /