エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに 本記事では、Microsoftが数千の実験から学んだメトリクス解釈の12の落とし穴をまとめた論文「A... はじめに 本記事では、Microsoftが数千の実験から学んだメトリクス解釈の12の落とし穴をまとめた論文「A Dirty Dozen: Twelve Common Metric Interpretation Pitfalls in Online Controlled Experiments」の内容を紹介します。 前提知識:4種類のメトリクスの役割 論文では、ABテストにおける役割に応じてメトリクスを4つに分類しています。 1. Data Quality Metrics 実験が正しく実行されたことを信頼できるかどうかを確認する指標です。最も重要なのはSRM(Sample Ratio Mismatch)で、処置群と対照群のサンプルが同じ母集団からランダムに抽出されたかを確認します。論文によると、ほとんどの場合、SRMは重大な選択バイアスを意味し、実験結果を無効にするのに十分だとされています。