これで十分? Is this enough? 単体で使うならこれで十分。ただし、nが違うものを複数比較するときにはちょっと難あり。 Rの箱ひげ図は外れ値判定にヒンジを使用し、厳密にはnが奇数か偶数かで基準が若干違う。 Well, it’s good enough for one dataset, but not for comparing datasets with different data sizes, since R uses hinges for the boundaries of box plot. The boundaries made by hinges slightly differ depends on whether the data size is odd or even, especially when the size is small. 6 /19

ヒンジの問題点Problem of H-spread based on hinges Mean of 50000 datasets H-spread (by hinges) Interquartile Range (IQR) Comparison of H-spread, IQR and SD of random data following the standard normal distribution. ヒンジ、四分位値及び標準偏差の比較（標準正規乱数で試行5万回） SD (Standard Diviation) Data Size (n) SD ≈ 1.3490 IQR (when n is sufficiently large) ヒンジによるH-spreadよりも四分位範囲(IQR)の方がnによる振れが少ない。標準偏差はnによる振れが少なく精度も高いが、頑健性がなく、外れ値が存在すれば精度の低下が著しい。SD is the most stable and efficient among these three, but it’s not suitable for outlier detection since it sores with existence of an outlier. 7 /19

Conclusion / まとめ • 正規分布データならば、データの位置と散らばりの指標として、平均値と標準偏 差(SD)を使うのが一般的で、それは中央値や四分位範囲よりも推定効率が高く計算が楽だから As for normally distributed data, mean and standard deviation (SD) are better measures of location and variability compared to median and interquartile range (IQR) since they are efficient and easy to compute, however... • ただし、中央値やIQRは外れ値に対してロバスト（頑健）だが、平均値や標準偏 差はそうではない Median and IQR are robust regarding contamination, while mean and SD are not. • つまり、外れ値検出の目安として使用する散らばりの指標には、平均やSDを使っ てはいけない。 Therefore, we should not use mean and SD for the purpose of outlier detection. 18 /19