3つ以上の群の平均値の差を調べるには,全群のなかで差のある群の有無を調べる検定を行います.差のある群があるとわかったら,どの群に差があるのかを調べる検定を行います.
3つ以上のグループの差を調べるには,これらの群のデータの散布図(コラム散布図)をプロットし,一般にはこれらの群の母集団がそれぞれ正規分布にしたがうときはパラメトリックな検定として分散分析を用います.このQuestionでは散布図と分散分析について解説し,実際にF値とその有意確率を求め方の例を,データを用いて説明します.まず,これらの群のデータのコラム散布図をプロットするところからはじめましょう.ここでは,表1のように10種類のバクテリアの菌株の成長率のデータが得られたとします.そのデータをもとに横軸に菌株番号,縦軸に菌株の成長率をとって点でプロットします(図1).これによりコラム散布図を得ることができます.コラム散布図以外に,箱ひげ図(box plot)をプロットしてもよいでしょう.得られたグラフから差がありそうな群を確認することができます.
菌株番号 | バクテリアの菌株の成長率(dbl/h) | 菌株群内平均 | 菌株群内変動 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0.9 | 0.85 | 0.91 | 0.86 | 0.92 | 0.91 | 0.9 | 0.87 | 0.9 | 0.88 | 0.89 | 0.005 |
2 | 1.1 | 1.2 | 1.1 | 1.1 | 1.1 | 1.2 | 1.1 | 1.3 | 1.1 | 1.4 | 1.17 | 0.101 |
3 | 0.95 | 0.92 | 0.95 | 0.91 | 0.95 | 0.96 | 0.9 | 0.93 | 0.94 | 0.95 | 0.936 | 0.00364 |
4 | 1.1 | 1.4 | 1.1 | 1.1 | 1 | 1.1 | 1 | 1.2 | 1.3 | 1.2 | 1.15 | 0.145 |
5 | 2.5 | 2.7 | 2.55 | 2.4 | 2.5 | 2.5 | 2.65 | 2.6 | 2.7 | 2.6 | 2.57 | 0.086 |
6 | 1.3 | 1.1 | 1.1 | 1.2 | 1.1 | 1.1 | 1.5 | 1.2 | 1.3 | 1.1 | 1.2 | 0.16 |
7 | 0.95 | 0.9 | 0.92 | 0.93 | 0.96 | 1 | 0.9 | 0.92 | 0.94 | 0.95 | 0.937 | 0.00821 |
8 | 0.92 | 0.95 | 0.93 | 0.95 | 1.1 | 0.95 | 0.95 | 1.3 | 0.95 | 1.1 | 1.01 | 0.1328 |
9 | 0.89 | 0.9 | 0.88 | 0.89 | 0.89 | 0.88 | 0.89 | 0.87 | 0.89 | 0.92 | 0.89 | 0.0016 |
10 | 0.91 | 0.93 | 0.92 | 0.91 | 0.91 | 0.92 | 0.91 | 0.93 | 0.91 | 0.92 | 0.917 | 0.00061 |
3つ以上の群の平均値の差を調べるには,これらの群の母集団がそれぞれ正規分布にしたがうときはパラメトリックな検定として分散分析(analysis of variance:ANOVA)(一元配置分散分析)を行います.分散分析は,群間変動と群内変動の和の比を群数や標本の大きさで正規化したF値による検定です.実際には,Microsoft Excelを用いて図2のように計算します
一方,正規分布にしたがわないときはノンパラメトリックな検定としてクラスカル・ウォリス(Kruskal-Wallis)の検定を行います.
この10種類のバクテリアの菌株の成長率のデータで,一元配置分散分析を行うと,有意確率pは7.51×10-65となり,有意水準α=0.05としたとき,有意な差があることがわかります.すなわち,この10種類のバクテリアの菌株のいずれかが,統計的に有意に差のある成長率を示していることがわかります.
この10種類のバクテリアのうち,どのバクテリアがそうした統計的に有意に差のある成長率を示しているかは,散布図をみると,それは菌株番号5のバクテリアではないかと考えられます.統計学的に示すには,分散分析の後に多重比較を行います〔事後比較(post hoc comparison)〕.これにはパラメトリックな検定としては,テューキー(Tukey)の方法やシェッフェ(Scheffe)の検定が,ノンパラメトリックな検定としては,ボンフェローニ補正のマン・ホイットニーのU検定が用いられます.テューキーの方法は,t検定を拡張したもので,t値の計算に,1元配置分散分析における誤差分散を用いて,バクテリアの全種類の間で有意差解析を行うものです.なお,分散分析を行わずに多重比較を行う,事前比較(a priori comparison)という方法もあります.
最初の,「t検定は使えないのですか?」という質問ですが,残念ながら使えません.分散分析を行い,有意差があるときは,いずれの群間で有意差があるかを多重比較で検定するようにしましょう.
より詳しく理解したい方は本書中の以下のQもご覧ください