本コーナーでは,実験医学連載「Opinion」からの掲載文をご紹介します.研究者をとりまく環境や社会的な責任が変容しつつある現在,若手研究者が直面するキャリア形成の問題や情報発信のあり方について,現在の研究現場に関わる人々からの生の声をお届けします.(編集部)
ウェットの研究者は統計解析というとまず,「統計的仮説検定」を思い浮かべる人が多いようだ.一方,「統計モデリング」というアプローチにはなじみのない方も多いであろう.そこでここでは統計モデルの魅力を紹介したい.統計モデルとは何か.この質問に答えるのは意外と難しいので,「データを数式であらわすこと」とつい言ってしまうことがある.しかし,その答えはあまり適切ではない.
例えば,がん腫瘍のサイズの成長をモデル化することを考えよう.がんは時間の経過に伴って進行するから,時間に比例してがんが大きくなるとしよう.このモデルではがんの成長はただの直線であらわされる.データへの当てはまりはあまりよくない.もっと柔らかい曲線の方がよさそうだ.比例(1次関数)ではなく,2次関数にしてみたらどうだろう.データへの当てはまりは先ほどよりはましになった.しかしカーブをもっと柔軟にしたい.では3次関数にしたら,4次関数にしたら….次数を増やしていけばいくらでもグニャグニャとした線が引けて,手元のデータへの当てはまりはどんどんよくなる.これでがんの成長を説明できたことになるだろうか.「時間に比例」はよいとして,時間の2乗や3乗に比例するとはどういうことだろう.時間の2乗や3乗とはどんな量なのかわからない.データを数式であらわすことは,わからないものをわからないもので置き換えただけではないか.
どうやら,発想を切り替える必要がありそうだ.データの外見に当てはまる関数を探すのではなく,データがどのように生成されたのかを考える.言い換えるとデータの結果ではなく過程に注目する.例えば,細胞は分裂して増えるのでがん細胞の増加量はがん細胞自身のポピュレーションに比例するとしよう.これを微分方程式という数学の言葉で表現して(微分とは関数の増加量のことだ),方程式を解くと指数関数になる.さらに,人間の体は有限なので,がん細胞の増加量はがん化せず残された細胞とがん細胞自身のポピュレーションの両方に比例するとしよう.これを微分方程式にして解くとロジスティック関数というものになる.ロジスティック回帰という言葉を聞いたことがあるかもしれない.あのロジスティックである.単純な仮説から柔軟な関数が導かれる.このように大事な部分に数式を使ったモデルを数理モデルとよぶ.
しかし,データの大まかな傾向が数理モデルで説明できたとしても,モデルと観測値のズレ,すなわち「誤差」は残る.ちなみに「誤差」は悪いものとは限らない.もしかしたら自然現象は本質的に「誤差」を含むのかもしれない.そこで統計モデルは「誤差」を「確率」で表現する.統計モデリングの過程には,数理モデルをつくるだけでなく,データにあてはめることと,当てはめたモデルがどのくらいデータを予測,説明できるかをその「誤差」を含めて評価することまでが含まれる.データの,ひいては現象の生成過程を考え,それを検証できるのが統計モデリングの魅力である.
ここまで読んだ方は統計モデルに対してすごく難しそうだ,自分のデータはそんなに都合よくモデル化できないという印象をもつかもしれない.しかし,がんとは何か全く知らない人には,そもそもがんについてのデータをとることは不可能である.実験してデータをとる以上,仮説がないことはありえない.この文章はその仮説を統計モデルに翻訳してみませんかというお誘いである.
阿部 興(名古屋大学大学院医学系研究科)
※実験医学2019年6月号より転載