外れ値

外れ値(中央の赤い点)

外れ値(はずれち、: outlier)は、統計学において、他の値から大きく外れた値のこと。測定ミス・記録ミス等に起因する異常値とは概念的には異なるが、実用上は区別できないこともある。ロバスト統計では、外れ値に対しての頑健性確保を重視する。

英語のoutlierには「他より著しく異なるため一般的結論を導けない人や物や事実」を指す意味もある[1][2]

検定

外れ値かどうか検定したい標本について、偏差を不偏標準偏差で割った検定統計量

τ 1 = x 1 μ σ {\displaystyle \tau _{1}={\frac {x_{1}-\mu }{\sigma }}}

を求め(x1 は標本値、μ平均σ は標準偏差)、この値(両側検定をする場合はこの絶対値)が有意点より大きいかどうかで検定する。

簡単な方法では、2または3を有意点とする。つまり、μ ± 2–3 σ の外なら外れ値とする。

スミルノフ・グラブス検定

より精密には、正規分布を仮定して、スミルノフ・グラブス (Smirnov‐Grubbs) 検定を使う。サンプルサイズを n、所要の有意水準α自由度 n - 2 のt分布α / n × 100 パーセンタイルt として、

τ = ( n 1 ) t n ( n 2 ) + n t 2 {\displaystyle \tau ={\frac {(n-1)t}{\sqrt {n(n-2)+nt^{2}}}}}

を有意点とする。平均値から最も外れている1つのデータのみを検定し、それが外れ値と判定されたら、それを除外した n - 1 のサンプルサイズにおいて最も外れているデータを検定し、以下、外れ値が検出されなくなるまでこれを繰り返す。

トンプソン検定

トンプソン (Thompson) 検定では、

t = τ n 2 n 1 τ 2 {\displaystyle t={\frac {\tau {\sqrt {n-2}}}{\sqrt {n-1-\tau ^{2}}}}}

を使う。計算式の都合上、スミルノフ・グラブス検定とは逆に、標本値の検定統計量 τ1 から t1 を経て有意水準 α1 を求めることが多い。n が十分大きければスミルノフ・グラブス検定と同じ結果になる。

脚注

[脚注の使い方]
  1. ^ outlier Cambridge Dictionary, Cambridge University Press
  2. ^ マルコム グラッドウェル(英語表記)Malcolm Gladwellコトバンク

関連項目

外部リンク

ウィキメディア・コモンズには、外れ値に関連するカテゴリがあります。
  • スミルノフ・グラブス検定の有意点
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
典拠管理データベース ウィキデータを編集
国立図書館
  • フランス
  • BnF data
  • ドイツ
  • イスラエル
  • アメリカ
その他
  • IdRef
    • 2