2章 検定前の「研究者としての心構え」とは?
2-3 あなたの研究対象は標本か母集団か?
研究者は母集団を意識すべき!
1研究者の視点でみる標本と母集団
標本と母集団という単語は1章ですでに登場した.統計を学習したことがあれば,標本と母集団は学んだはずであり,いまさら学習する必要はないと思うかもしれない.しかし,少し大げさではあるが,じつはこのポイントが確実に理解できていないから,標準偏差(SD)も標準誤差(SE)も理解できないのである.
一般に,研究対象となっている集団を母集団といい,それを代表する一部分として実際に観察する集団のことを標本という.
多くの統計学本に書かれている母集団と標本の例は以下のようなものが多い.
●一般例
S市民の悪玉コレステロール濃度の平均値や分布を知りたいが,全員を調べることはできないので,一部の市民を抽出して調べる.S市民全員は母集団で,抽出した一部の市民は標本である.
この例はだれでも理解できると思う.しかし,この例では生命科学系の研究者は,あまりピンとこないはずである.このように実際に存在する母集団を実在母集団とよぶが,実在母集団で研究している生命科学系研究者は多くないからである.ここでは,研究者が心に置いておかなければならない母集団と標本の考え方について述べる.
●実験例1
以下は世界ではじめて行われる研究である.実験動物を用いて2群間の比較をする実験を考える.今,マウス12匹を購入し,2群に分け(6匹対6匹),一方には,対照食(コントロール食)を,他方には,ある機能性成分Aが添加された試験食を与え飼育したところ,2群間で悪玉コレステロール濃度に有意差*1が認められたとする.機能性成分Aを摂取したマウスは世界中でこの6匹以外には存在しない.したがって,これは世界初の発見である(図2-1).この実験の試験食群は,6匹のみではあるが,それ以外は存在しないので,母集団と考えてよいだろうか? 標本であろうか? この質問に即座に答えられないようであれば,母集団と標本の概念がよくわかっていない.
この結果を母集団の実験と判断して,まちがいなく機能性があると断定してよいだろうか? もし,標本の実験とするならば,母集団はどこにあるのか?
ふつうの研究者であれば,この実験結果が自分の実験でだけ起こるのではなく,世界中のどの研究者が同じ実験を行っても,同様の結果が得られることを期待するはずである(期待しないようでは研究者とはいえない!).
図2-2をみてほしい.この場合の母集団とは,世界中の同じ試験食を摂食する,あるいは,将来的に摂食すると想定されるマウス全部を意味する(そのような母集団が実際に存在するわけではない).研究者は世界中のマウス(母集団)を用いて実験することはできないので,しかたなく母集団から標本として6匹のマウスを抽出して実験している.すなわち,この実験は標本の実験である.しかし,本当は,母集団でも同様の結果が得られることを期待しているはずである.すなわち,多くの研究者は標本データしか得ることはできないが,標本データから母集団の特徴を推定することを目的として研究しているのである.母集団の特徴とはすなわち,真実である.研究者は真実を推定するために研究しているはずである.
これはきわめて重要な概念である.また,この概念は標準偏差(SD)の考え方にもつながってくる(➡3章).皆さんはこの概念を意識して研究しているであろうか? この概念をもっていなければ,標本データを母集団のデータ,すなわち真実と勘違いすることになる.このような研究における母集団は(仮説的)無限母集団とよばれ,実際には存在しない.
標本で研究し(データをとって),母集団の特徴を推定する! これが研究者が行う研究である.
2再現性の確認が大切
母集団はあるバラツキをもつので,そのなかから標本をとると,必ずしも母集団を反映しない場合もありうる.別の研究者が同じ実験を行ったら異なるデータになることもありうる.標本での実験とはそのようなものであることを認識しておくべきである.
特に,標本の数\(n\)(統計学ではこれを「標本の大きさ」とよぶ)が小さいと,データがバラつく可能性が大きくなるため,母集団の推定はぶれやすい.たとえば動物試験など,多くの生命科学系の研究は\(n\)が10以下程度で実験している.これは,\(n\)が大きいとはいえない数である.
したがって,一度の標本の試験で何らかの情報が得られたとしても,それが真実に近いとは限らないので,いろいろな角度から試験して再現性を確認するのが正しい研究である.1つの実験結果のみのデータで論文投稿すると,レベルの高い雑誌には採択されないのはこれが大きな理由である.
これは研究者としての基本であり,長年研究を行っている研究者であれば,常識的に体得しているはずである.しかし,再現性のない論文が多数存在することが雑誌Nature(Baker, M:Nature, 533:452–454, 2016)でも指摘されており,再現性を調べることなく論文化している研究者が多いことがうかがえる.
3母集団を想定しよう
以上は動物実験を例として記述したが,細胞培養実験や試験管内実験でも基本的な考え方は同じである.これらのin vitro試験では母集団を想定しづらいが,世界中の研究者が同じ試験をしていると考え,大きな母集団を想定して実験すべきである.重要なので,
と繰り返しておく.
ここで,後々出てくるので母集団の表記を定義する.母集団(たとえば,世界中のマウス)の総数(母集団の大きさ)を\(N\),母集団のある測定項目の平均値は母平均
忘れたときは巻頭の本書で使用した記号と意味(➡p.13)を参照してほしい.