Ⅲ 臨床試験のデザイン課題論文1Iijima K, et al:Lancet, 2014[腎疾患]
第9講 サンプルサイズの計算
本講のテーマ
よく効く薬の有効性を示すことと,あまり効かない薬の有効性を示すこと,どちらがより簡単でしょうか? きっと前者ですよね.この直感は理論的に正しくて,効果が大きいかどうかによって,研究に必要なサンプルサイズ(症例数)が違うことは統計学的に示すことができます.図1は,効果が大きくなるほど(ハザード比が小さくなるほど),必要なイベント数が(同時にサンプルサイズも)少なくなることを示したものです.論文を読み解くとき,サンプルサイズの計算は最も難しいところなので,しっかり押さえましょう.また,サンプルサイズの計算は,医師が研究計画を立てるときに一番苦労するところです.
サンプルサイズ,αエラー,βエラー,有意水準,検出力,検出したい治療効果の大きさ
サンプルサイズはどのような根拠に基づいて計算されるのか
サンプルサイズ計算には,用いる仮説検定の方法に応じてさまざまな公式が使われます.それらは,基本的に次の3つの数字の関係を表すものです.
- 検出力(power)
- 検出したい治療効果の大きさ
- サンプルサイズ
この3つの数字は,2つの値を設定すれば残りの1つが決まるという関係にあります.
検出力とサンプルサイズ
臨床試験で避けなければならない失敗の1つは,本当は効果がある治療を「効果がない」と判定して開発中止してしまうことです❶.開発者または臨床試 験を行う研究者にとっては,治療が有効であると考えているのですから,このβエラーは極力抑えたいところです.検出力は「1−β」で定義され,本当は効果がある治療が正しく「効果がある」と判定される確率となります.
臨床試験のサンプルサイズは,検出力が高くなるように計算されます.一般に,検出力は高くなるほど,サンプルサイズは大きくなります.ただし,検出力を上げたいからといって,倫理的問題と予算の制限のため必要以上に患者を登録することは好ましくありません.通常は,検出力は80~90%に設定されます.
検出したい治療効果の大きさとサンプルサイズ
サンプルサイズを計算するためのもう1つの要素は,効果をどのくらいに設定するのか,ということです.効果が大きいほど,有意差を検出しやすくなることから,設定される効果が大きいほど,サンプルサイズは小さくなります.
リツキシマブ臨床試験の場合
論文によると,
「先行研究に基づいて,リツキシマブ群の患者の40%と,プラセボ群の患者の10%が,登録後6カ月時点で寛解を維持していると仮定した.無再発期間について指数分布(exponential distribution)と比例ハザード性(proportionality of hazards)を仮定したとき,試験治療の有効性を検出力90%,片側有意水準(one-sided significance level)2.5%で示すために,1群30人の患者が必要であった」
ということでした.つまり,この試験の計画は,リツキシマブにより登録後6カ月時点で寛解を維持している患者が4倍になるという治療効果の大きさを見込んだものになっています.
「効果がない」という仮説のことを帰無仮説(null hypothesis)とよぶといいましたが,「効果がある」というほうの仮説には,対立仮説(alternative hypothesis)という用語を用います.
サンプルサイズの計算表
表1は,生存時間データをログランク検定で2群比較するときのサンプルサイズの計算結果を示したものです.表1と表2の数字は,有意水準を両側5%,検出力をそれぞれ80%と90%に固定して,検出したい治療効果(試験治療群とコントロール群の生存確率)を動かしたときの,1群あたりに必要なサンプルサイズです.
これらの表から,リツキシマブ臨床試験の条件設定で,何人が必要になるのかを読み取ってみてください(結果は論文のサンプルサイズとは少し異なります).
ここまでで質問はありますか?
検定ごとに表があるんですか?
まあそうです.表もあるのですが,臨床試験の現場ではサンプルサイズ計算の公式が組み込まれた専用のソフトウェアを用います.最近は,試験計画が複雑になって,公式ではなくコンピューターシミュレーションを行うことも増えてきました.
いずれにしても,サンプルサイズの計算で行っていることは,確率分布を用いた一種のシミュレーションです.「リツキシマブ群40%,プラセボ群10%」といった設定値が正しければ,一定のサンプルサイズで試験を行ったとき有意差が出る確率も予想できるし,逆に治療効果を検出するために必要なサンプルサイズも見積もれるというわけです.
それがサンプルサイズが小さくてすんだ理由の1つです.例えば,かなりよく効く抗がん剤でも,延命効果はハザード比で0.7~0.8くらいなので,がん臨床試験のサンプルサイズは数百〜数千のオーダーになることがふつうです.
本講のエッセンス
- 研究計画を立てるときにはサンプルサイズを計算する必要があります.したがって,ここから研究者が研究実施前にどのような研究結果を予想していたのかを読み取ることができます.
- 計算に最低限必要な要素は,有意水準(通常5%),検出力(通常80~90%),検出したい治療効果の大きさ(ハザード比など)の3つです.
- サンプルサイズの計算は,βエラーを制御するための方法ともいえます.