臨床研究の進め方―応用編Ⅰ―  【Ⅰ-2 症例数設定の意味(t検定を使って)】

しつこいようですが,再度基礎編の要点を簡単に述べます.

  • p値はn数に大きく依存する 母集団から,たくさんの標本をとってくればくるほど,言いたいことが言えてしまいます.症例数設定するということは,研究者はこのくらいの比率であれば臨床医として意味があると思うと宣言することです.
  • 効果量はn数に無関係である 効果量という概念を簡単に説明し,症例数に無関係であるといいました.臨床医が,その効果量が臨床上有意だと思えば,それを示すことのできるn数を集めてきます.これを症例数設定といいます.それで,有意性を示すことができなければ,臨床医が有意だと思った効果量はなかったということになります.

 ここで重要なことは,主体となるのは統計家ではなく臨床医であるということです.効果量をどこに設定するかは統計家にはできません.最も重要なのは臨床家の臨床的経験であり,次に重要なのは文献的知識です.

 

 前回は,χ二乗検定について症例数設定の概略をお話ししましたが,今回は1.t検定をイメージして,2.副次的評価項目(secondary endpoint)をイメージして,話を進めたいと思います.

 χ二乗検定での効果量はφ係数で,2×2の表であれば4つのマスの比率を表すものでした.t検定での効果量はCohenのd(デルタ;Δ)と呼ばれ,dで表します.d = 平均値の差/標準偏差で表されます.イメージは2群の平均値は標準偏差いくつ分離れているのという意味で,SDスコアに似た感覚です.イメージは下図をご覧ください.2群の標準偏差が違う場合は分母を〔{(SD1)2+(SD2)2}/2〕1/2,つまり√〔{(SD1)2+(SD2)2}/2〕を使います.今回は2群の標準偏差を同じと考えて,説明を進めます.

 

f:id:uhomme:20200517123220j:plain

t検定の効果量 d


 

 今回,研究計画書の中で,2つの臨床疑問,2つの評価項目を持ったと仮定し,それが何故好ましくないかを説明していくというスタイルをとります.

  1. 主要評価項目(primary endpoint)を設定します. 臨床疑問:男性のプロスポーツ選手の身長は一般人より高いか 評価項目:身長
  2. 副次的評価項目(secondary endpoint)を設定します. 臨床疑問:男性のプロスポーツ選手の知能指数(IQ)は一般人より高いか 評価項目:IQ

 ここで臨床医がまず行わなくてはいけないのは,いくつといくつだったら(効果量がいくつだったら)異なると感じることができるかを,過去の論文を見るなり,エキスパートの意見を聞くなりしてイメージを持つことからスタートし,統計家に伝えて症例数設定を行うことになります.

  1. 主要評価項目について 一般人の身長の平均を170㎝とすると,プロスポーツ選手の平均が173㎝であれば,意味があるのではないかと考えたとします.
  2. 副次的評価項目について 一般人のIQの平均を100とすると,プロスポーツ選手の平均が105であれば,意味があるのではないかと考えたとします.

この2つのendpointを持ったことの問題点は二つあります.

  • 検定の多重性 どちらも有意水準を0.05でやったとすると,研究全体では0.098でやったことになります. ただ,これについては一つの研究計画書の中に2つの研究計画を書くならば許されるかもしれません.
  • 症例数設定の問題 今日のテーマそのものです.この点について少し詳しく記載していきたいと思います.

 

男性の身長の平均を170㎝,標準偏差を6㎝と仮定します(凡そ合っていると思います).下図を見ながら説明を読んでください.効果量は,何SD離れているかでした.研究を始める前に平均がいくつ離れていたら違うと考えてよいのではないかということを統計家に伝えて相談します.ここでは「173㎝と170㎝ならば意味があるだろう」と臨床家は統計家に伝えました.d = (173.0-170.0)/6 = 0.5となります.統計家はここから症例数設定を行っていきます.α誤差とβ誤差の説明をI-1で行いましたが,今回設定を一般的によく使われる,α:0.05,β:0.20としました.これを例えば症例数計算ソフトG*Powerに入れると,必要症例数は102例(51+51)となりました.つまり102例で行うことは,173と170かそれ以上違ったら意味があるということの意思表示です.

 

f:id:uhomme:20200517123407j:plain

身長をエンドポイントとして



 

ちなみに,以下の4つの要素のうちの3つを決めれば,残りの一つが決まるということを利用して,サンプルサイズは決まります.“G*Power”,“PS - Power and Sample Size Calculation”や,いろいろな統計解析ソフトの中でも計算可能です.

  1. 有意水準(α)
  2. 検定力(1-β)
  3. 効果量(d = (μ10) /σ)
  4. サンプルサイズ(n)

 

この102例で研究を進めて,臨床疑問の2を考えてみました.下図を見てください.もしも結果としてそれぞれのIQが110と100となり,有意差が出なかったとします.しかし,臨床医は107.5と100で十分差があるといって良いと思っていたわけです.本来は症例数を398例でやっておけば,8割の確率で示すことができたでしょう.つまり,疑問ごとに,endpointごとに症例数設定をしなくてはならず,研究のsecondary endpointに関する結論は信頼できないことになることが分かっていただけましたか?

 

f:id:uhomme:20200517123514j:plain

IQをエンドポイントとして



 

ただし,もともと研究者が,確証的(confirmatory)ではなく,探索的(exploratory)な研究を行っているつもりで,論文でもそのことを明確に宣言しておけば大丈夫です.ただ,その後に確証的な研究につなげていくことが責務だと思います.