χ2検定

本日の内容


このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。

1. 仮説検定

仮説検定とは、ある仮説を立てて、その仮説が成り立つ可能性が多いか少ない かを議論することです。 仮説検定での議論では帰無仮説という起こり得ない仮説を考え、 その仮説が成立する確率を計算します。 そして、危険率と呼ばれる確率をあらかじめ 5% や 1% と定め、帰無仮説の成 立する確率と比較します。 もし、帰無確率の成立する確率が危険率より低い場合、帰無仮説の起きる可能 性はまれであると結論付けます。

例えば、得られた統計値に対して、その統計値が従う法則に関する仮説を考え ます。 これに対して、仮説検定を用いるには、「得られた統計値はその統計値に従わ ない」と帰無仮説を立てます。 そして、その帰無仮説の成立する確率を計算し、あらかじめ定めた危険率と比 較します。 そして、帰無仮説が起き得る確率が十分小さいとして、帰無仮説を棄却します。

2. χ2

ある統計値 oi が得られたとします。 その統計値に対して、理論値 ei があるとします。 その時、 χ2 値とは次の値を言います。

χ2 = i oi - ei 2 ei

この χ2 値は統計値の自由度により、 χ2 分布に従う性質があります。 ここで、自由度とは n 個の独立した値に対しては自由度は n になります。 合計値など他の値から求めた独立でない値は自由度として数えません。

3. χ2検定

t検定や、 F 検定は分布を正規分布と仮定しています。 そのため、実際に正規分布している統計値に対しては高い 精度になります。 このように分布の仮定などをする検定をパラメトリック検定と言 います。

一方、ノンパラメトリック検定は分布の仮定などをしない検定方 法です。そのため、精度が悪くなりますが、どのような分布でも扱えます。 ここでは χ2検定 を取り上げます。

理論値の計算

得られた統計値に対して、その統計値がどのような分布に従うかを仮説検定で 定めることを考えます。 単純な分布では平均値や分散などの値で分布が定まります(正規分布、二項分 布、指数分布、ポアソン分布など)。

得られた統計値を仮定した分布に当てはめます。 そして、観測値と理論値を対比します。

χ2値の計算

各、観測値と理論値に対して、χ2値を求めます。 そして、この χ2 値が χ2 分布に従うと仮定 し、確率を数表、もしくはコンピュータなどで求める。 但し、χ2分布はχ2値と自由度の二つのパラメー タにより確率が決定します。 n種類の値がある時、通常、一つの値は他の全ての値に対して、残 りの値となるので、自由度は n-1 となります。

注意

χ2検定をする際、理論値は次の条件を満たす必要があります。 もし、満たしてない場合は、複数の区分を統合して度数を引き上げる必要があ ります。

  1. 理論値の各区分が 1 以上であること
  2. 理論値が 5 未満である区分が全体の 20% 未満であること

例1

155日間の交通事故の負傷者数が以下の時、この分布はポアソン分布に従うか どうか、χ2検定で調べなさい。

頻度 0人 1人 2人 3人 4人(以上)
度数 79日 61日 13日 1日 1日
  1. これの平均は次の通りです。
    0·79 + 1·61 + 2·13 + 3·1 + 4·1 79 + 61 + 13 + 1 + 1 = 94 155
  2. 理論値を求めます。平均が 94/155 のポアソン分布は次の式になります。
    E k = 94 155 k k ! e - 94 155

    従って、確率分布は次のようになります。

    頻度 0人 1人 2人 3人 4人(以上)
    確率分布 e - 94 155 94 155 e - 94 155 1 2 94 155 2 e - 94 155 1 6 94 155 3 e - 94 155 1 - E 0 - E 1 - E 2 - E 3

    これにそれぞれ 155 を掛けたものが理論値になります。 なお、 4 人以上についての理論値は他の値から求めているため、独立な値で はありません。 従って、この場合の独立な値は 0,1,2,3 となるため、自由度は 4 です。

  3. χ2値を計算するため、表計算を用います。なお、表中の矢印 はハンドルによるコピーを表します。

    ABCDEFG
    1 頻度 0 1 2 3 4
    2 度数 79 61 13 1 1 =sum(B2:F2)
    3 延べ人数 =B1*B2
    4 平均 =G3/G2
    5 ポアソン分布 =POWER($G$4;B$1)/FACT(B$1)*EXP(-$G$4) 1-sum($B5:E5)
    6 理論値 =B5*$G$2
    7 χ^2値 =POWER(B$2-B6;2)/B6 =sum(B7:F7)
    8 χ^2分布 =chidist(G7;count(B7:F7)-1)

    これによりχ2分布の確率を求めますが、理論値に不適切な数 値が含まれています。 そのため、適切な値が得られるまで統合します。 5行目から 8 行目までをまるごとコピーし、ポアソン分布の最後の値を左に移 動します。そして、その下のセルを消去します。

4. 参考文献


坂本直志 <sakamoto@c.dendai.ac.jp>
東京電機大学工学部情報通信工学科