臨床研究の進め方―応用編Ⅰ―  【Ⅰ-2 症例数設定の意味(t検定を使って)】

しつこいようですが,再度基礎編の要点を簡単に述べます.

  • p値はn数に大きく依存する 母集団から,たくさんの標本をとってくればくるほど,言いたいことが言えてしまいます.症例数設定するということは,研究者はこのくらいの比率であれば臨床医として意味があると思うと宣言することです.
  • 効果量はn数に無関係である 効果量という概念を簡単に説明し,症例数に無関係であるといいました.臨床医が,その効果量が臨床上有意だと思えば,それを示すことのできるn数を集めてきます.これを症例数設定といいます.それで,有意性を示すことができなければ,臨床医が有意だと思った効果量はなかったということになります.

 ここで重要なことは,主体となるのは統計家ではなく臨床医であるということです.効果量をどこに設定するかは統計家にはできません.最も重要なのは臨床家の臨床的経験であり,次に重要なのは文献的知識です.

 

 前回は,χ二乗検定について症例数設定の概略をお話ししましたが,今回は1.t検定をイメージして,2.副次的評価項目(secondary endpoint)をイメージして,話を進めたいと思います.

 χ二乗検定での効果量はφ係数で,2×2の表であれば4つのマスの比率を表すものでした.t検定での効果量はCohenのd(デルタ;Δ)と呼ばれ,dで表します.d = 平均値の差/標準偏差で表されます.イメージは2群の平均値は標準偏差いくつ分離れているのという意味で,SDスコアに似た感覚です.イメージは下図をご覧ください.2群の標準偏差が違う場合は分母を〔{(SD1)2+(SD2)2}/2〕1/2,つまり√〔{(SD1)2+(SD2)2}/2〕を使います.今回は2群の標準偏差を同じと考えて,説明を進めます.

 

f:id:uhomme:20200517123220j:plain

t検定の効果量 d


 

 今回,研究計画書の中で,2つの臨床疑問,2つの評価項目を持ったと仮定し,それが何故好ましくないかを説明していくというスタイルをとります.

  1. 主要評価項目(primary endpoint)を設定します. 臨床疑問:男性のプロスポーツ選手の身長は一般人より高いか 評価項目:身長
  2. 副次的評価項目(secondary endpoint)を設定します. 臨床疑問:男性のプロスポーツ選手の知能指数(IQ)は一般人より高いか 評価項目:IQ

 ここで臨床医がまず行わなくてはいけないのは,いくつといくつだったら(効果量がいくつだったら)異なると感じることができるかを,過去の論文を見るなり,エキスパートの意見を聞くなりしてイメージを持つことからスタートし,統計家に伝えて症例数設定を行うことになります.

  1. 主要評価項目について 一般人の身長の平均を170㎝とすると,プロスポーツ選手の平均が173㎝であれば,意味があるのではないかと考えたとします.
  2. 副次的評価項目について 一般人のIQの平均を100とすると,プロスポーツ選手の平均が105であれば,意味があるのではないかと考えたとします.

この2つのendpointを持ったことの問題点は二つあります.

  • 検定の多重性 どちらも有意水準を0.05でやったとすると,研究全体では0.098でやったことになります. ただ,これについては一つの研究計画書の中に2つの研究計画を書くならば許されるかもしれません.
  • 症例数設定の問題 今日のテーマそのものです.この点について少し詳しく記載していきたいと思います.

 

男性の身長の平均を170㎝,標準偏差を6㎝と仮定します(凡そ合っていると思います).下図を見ながら説明を読んでください.効果量は,何SD離れているかでした.研究を始める前に平均がいくつ離れていたら違うと考えてよいのではないかということを統計家に伝えて相談します.ここでは「173㎝と170㎝ならば意味があるだろう」と臨床家は統計家に伝えました.d = (173.0-170.0)/6 = 0.5となります.統計家はここから症例数設定を行っていきます.α誤差とβ誤差の説明をI-1で行いましたが,今回設定を一般的によく使われる,α:0.05,β:0.20としました.これを例えば症例数計算ソフトG*Powerに入れると,必要症例数は102例(51+51)となりました.つまり102例で行うことは,173と170かそれ以上違ったら意味があるということの意思表示です.

 

f:id:uhomme:20200517123407j:plain

身長をエンドポイントとして



 

ちなみに,以下の4つの要素のうちの3つを決めれば,残りの一つが決まるということを利用して,サンプルサイズは決まります.“G*Power”,“PS - Power and Sample Size Calculation”や,いろいろな統計解析ソフトの中でも計算可能です.

  1. 有意水準(α)
  2. 検定力(1-β)
  3. 効果量(d = (μ10) /σ)
  4. サンプルサイズ(n)

 

この102例で研究を進めて,臨床疑問の2を考えてみました.下図を見てください.もしも結果としてそれぞれのIQが110と100となり,有意差が出なかったとします.しかし,臨床医は107.5と100で十分差があるといって良いと思っていたわけです.本来は症例数を398例でやっておけば,8割の確率で示すことができたでしょう.つまり,疑問ごとに,endpointごとに症例数設定をしなくてはならず,研究のsecondary endpointに関する結論は信頼できないことになることが分かっていただけましたか?

 

f:id:uhomme:20200517123514j:plain

IQをエンドポイントとして



 

ただし,もともと研究者が,確証的(confirmatory)ではなく,探索的(exploratory)な研究を行っているつもりで,論文でもそのことを明確に宣言しておけば大丈夫です.ただ,その後に確証的な研究につなげていくことが責務だと思います.

新型コロナウイルス感染診断のためのPCRや抗原迅速検査をもう一度考える

私の地域では,医師が保健所に依頼してもPCRを受け入れてくれることは稀です.最近も高熱4日間持続した2人のお子さんは断られました.PCR,抗原検査,そして抗体検査が早期に整備されるとよいと思っています.しかし,PCRや抗原検査がむやみに積極的になされることはやはり避けるべきです.感染急性期の全数把握などはもってのほかです.むやみに積極的に行うことの問題点を整理してみます.

 

  1. 未感染陽性者(偽陽性者)数が増加してしまう.
    「積極的なPCR検査は真の新型コロナウイルス感染者を爆発的に増やす」に示した通り,偽陽性者数は検査の特異度と検査総数に比例します.急性に行われるPCRや抗原検査の要否は現場の臨床医に任せるべきだと思います.この多くの偽陽性者が真の感染者と接触することがなければよいですが,陽性者が増えれば増えるほどそのリスクは高くなります.
  2. もしも全数把握することになった場合を想像してみよう.
    米国スタンフォードの抗体調査では確認されている人の50~75倍でした.今東京の総感染者数は4800人ですが,もしも同様の状況ならば実際の感染者数は20万人越えです.一日の発生数の最高は201人でした.計算すると1万人/日です.これらを医療機関で受け入れるとしたらと想像するとぞっとします.
    大阪市立大学の調査では人口の1%が陽性ではないかと考えられています.大阪の人口900万人と考えると,総患者数は9万人(確認されているのは1700人)で,50倍ということですね.一日の発生数の最高は92人でした.計算すると4500人/日です.上記の東京のデータもまんざら誤りではないように思います. 考え直してみると,新型コロナウイルスはそういう病気だということだと思います.
  3. 大阪モデルの“PCR検査で陽性になった人の割合(1週間の平均値)を7%未満とする”は正しいか.
    統計学の常識は“関連があることは因果があることを示すための1つの条件に過ぎない”ということがあります. 「臨床研究の進め方ー基礎編ー」の中でも示しましたが,AとBの間に因果関係がある(A→B)というのは,以下の4つが成立することです.
    ①AとBの間に明瞭な関係があること
    ②時間的先行性(AはBに時間的に先行している)
    ③関連の普遍性がある(時間,場所,対象の選び方などによらない) AとBの共通の原因となりうる要因(交絡)を統制しても関係が見いだされる
    ④関連の整合性がある 医学・生理学的観点からも矛盾なく説明できる
    大阪モデルの根拠は,「人口で補正した死亡者数とPCR陽性率との間には明確な相関がみられた.」ということになっています.このことは上記の①を示していることにしかなりません.②を考えてみましょう.「PCR陽性率が低い十分なPCR検査ができている国はCOVID-19による死亡者数が少ない」のか,「COVID-19による死亡者数が多いような感染爆発が起こっている国は十分なPCR検査ができなかった」のか,わからないのではないでしょうか.感染爆発が③の交絡であったとも考えることができます.どちらの説明が妥当だと思いますか? 微妙な感じはしませんか.個人的には④から考えると,7%未満は原因ではなく結果ではないかと思います.

  4. 今日感染していなくても明日感染しているかもしれない.

 

新型コロナウイルスのような中くらいの重症度の感染症の場合,急性期の感染者数全数把握は不可能だし戦略としても正しくないと思います.このような場合,以前も述べましたが,エンドポイントは感染者数ではなく死亡者(または重症者)数であり,これを減らすことを戦略のゴールにしなくてはなりません.

急性期に医師が必要と考えたPCRや抗原検査を円滑にできる(+有効な治療薬使用可能な)体制を期待します.

 

腎臓病小児のマネジメント 改訂第2版 実践のための数学的アプローチ (臨床クリップ)
 

 

 

 

臨床研究の進め方―応用編Ⅰ― 【Ⅰ-1 症例数設定の意味(χ二乗検定を使って)】

症例数設定の意味については,基礎編でも少しだけ触れました.もう一度基礎編のその部分を読み直してみてください.基礎編の要点を簡単に述べると,

  • p値はn数に大きく依存する 母集団から,たくさんの標本をとってくればくるほど,言いたいことが言えてしまいます.症例数設定するということは,研究者はこのくらいの比率であれば臨床医として意味があると思うと宣言することです.
  • 効果量はn数に無関係である 効果量という概念を簡単に説明し,症例数に無関係であるといいました.臨床医が,その効果量が臨床上有意だと思えば,それを示すことのできるn数を集めてきます.これを症例数設定といいます.それで,有意性を示すことができなければ,臨床医が有意だと思った効果量はなかったということになります.

 ここで重要なことは,主体となるのは統計家ではなく臨床医であるということです.効果量をどこに設定するかは統計家にはできません.最も重要なのは臨床家の臨床的経験であり,次に重要なのは文献的知識です.

 

 仮に,症例数が非常に大きくて,意に反して(想定した効果量よりずっと小さい効果量なのに)有意差が出た時にはどうすればよいでしょうか? 本来は研究計画の時点の症例数設定が間違っているのですが,一例として,論文には以下のように書くべきだと思います.「この2群間には統計学的に有意差が出ました.しかし2群の平均値は○○と□□であり,この差は臨床上意味があるとは思えませんでした.このような結果となった理由は症例数が非常に多かったからです.」と.自分はある論文(1)の中でこのような書き方をしました.下の図は,ある疾患の治療薬AとBについての有効性を評価したものです.本来は“有効”を測定できるようにしなくてはいけませんが,ここでは省略です.p=0.002ですから統計的にはB薬はA薬より有効でしたが,臨床医としてはとてもそうは言えません.一般的には十分な症例数を確保する必要に迫られることが多いですが,こういうことが起こることもあり,適切な症例数を設定しなくてはいけません.

f:id:uhomme:20200505120926j:plain

χ二乗検定(症例数が多すぎる)

 

下の図を見てください.効果量をしっかり理解していただくために3つの表を出しましたが,3つの表は全て同じ効果量(χ二乗検定の場合,効果量はφ係数)です.佐藤先生は左上の比率ならB薬がA薬より有効であると考えてよいだろうと臨床医として考えています.しかし症例数設定を左下図のように設定してしまったために,本来佐藤先生が意図した効果量だったのに統計的に有意であることを示せませんでした.右上の症例数を選べばよかったわけです.

 

f:id:uhomme:20200505121055j:plain

χ二乗検定とφ係数(1)


 

下の図の右側についてはφ係数が異なります,予め.左上は,佐藤先生が実際にやった症例数です.どのくらいの症例数があったらよかったのでしょうか.少なくとも左下であれば統計的に有意でした.逆に実際にやった症例数で統計的に有意であることを示すには右上の比率(効果量)でなくてはなりませんでした.左下は症例数は400例でした.ここで,症例数設定計算ソフトであるG*powerを使って計算してみると,症例数は776例必要であることになりました.400例と776例とでは大きく違いますが何故でしょうか?

 

f:id:uhomme:20200505121417j:plain

χ二乗検定とφ係数(2)



 

これを説明しようと考えて,次の図を示します.本来は臨床医が知りたい真実があります.真実があるのは母集団の中です.我々が臨床研究をするときには母集団から標本を引っ張ってきます.そこから母集団を推測しようというわけです.例えば右上が母集団(真実)とします.正当にバランスよく標本を抽出できると左下になりなり,B薬の有効性を示すことができました.ところが母集団が右上とは違って,もう少しB薬が非優位だったとします.しかし左下の結果となったとします.誤ってB薬が優位と判断することになり,これをα誤差といいます.次に母集団が右上と同等か,さらにB薬が優位だった時に,左下のようにB薬優位と評価できる可能性を検出力(1-β)といい,1からβ誤差を引いたものです.β誤差は“B薬が優位”が真実なのに,それを示せない確率です.1つ下の図はα誤差,β誤差を説明するためによく使われる図です.参考にしてください.

 

f:id:uhomme:20200505121522j:plain

χ二乗検定(α誤差とβ誤差)



f:id:uhomme:20200505121625j:plain

検定力(検出力)とβ誤差



 

大雑把に言うと,下図の通りα誤差は結果に利用され,β誤差は計画に利用されます.α誤差は,その研究の結果が間違っている確率がαということです.β誤差は0.2を使われることが多いですが,母集団は臨床医の仮説通りでB薬が優位であるのに,今回の研究計画では20%の確率でその真実を示すことができないということです.今回の研究を無駄にはしたくないですよね.つまり研究の安全弁を80%としたということで,宣言でもあります.つまり,「B薬はA薬より本当に優位であるならば,確率高く証明したい」という気持ちがβ誤差であり,そのために400例と776例の差ができます.それでも2割は証明することができないし,しかも少し小さい効果でも証明されるかもしれないということになります.しかし,臨床研究で臨床医が尊重される部分であることが分かっていただけたと思うし,そこに臨床医としてのプライドを持たないといけません.

 

f:id:uhomme:20200505121729j:plain

結果;α誤差と計画;β誤差

 

 

引用論文

  1. Uemura O, Yokoyama H, Ishikura K, Gotoh Y, Sato H, Sugiyama H, et al. Performance in adolescents of the two Japanese serum creatinine based estimatedglomerular filtration rate equations, for adults and paediatric patients: A study of the Japan Renal Biopsy Registry and Japan Kidney Disease Registry from 2007 to 2013. Nephrology (Carlton, Vic). 2017;22(6):494-7

     

    腎臓病小児のマネジメント 改訂第2版 実践のための数学的アプローチ (臨床クリップ)
     

     

     

     

    .

 

 

臨床研究の進め方―基礎編―

このブログの本来の目的に戻ります.臨床研究についてです.まずは基礎編を載せますが,いずれ応用編も少しずつ載せていきたいと思います.

 

臨床研究の進め方―基礎編―

 

【はじめに(少し哲学的に)】

最も重要なことは,「この研究をやって意味があるか?」です.研究には,最初に疑問が存在することが前提ですが,臨床医にとって「意味がある」とは,患者に役立つということです.つまり,「この疑問に答えることができたら,患者に役立つか?」ということです.これは後述するFIRM2NESS(1)の”Modifiable”にあたります.これは臨床医の望まれる姿勢でもあります.

では,研究者(科学者)の姿勢としてはどうでしょうか? 「あなたは真実をみつけようとしていますか?」 「あなたは有意差をみつけようとしていないですか? 仮に真実ではないと思っても…」

加えて,その研究計画は完遂できるものでしょうか? 完遂できないならば,研究者も患者もエネルギーの無駄遣いです.これは後述するFIRM2NESSの”Feasible”にあたります.世の中では,すでに回答が出ている疑問ではないでしょうか? 臨床医は臨床疑問を持つと,教科書を調べ,ガイドラインを調べ,論文を調べます.そこに書かれていることに臨床医として納得できればそれは研究疑問につながりません.しかし,そこに書かれていることに大きな疑問を抱いたならば,それは研究疑問となるでしょう.これは後述するFIRM2NESSの”Novel”にあたります.

そして,抱いた臨床疑問が,その後の研究へと進める価値があると考えたら,研究計画がスタートします.そして,もう一度,この研究を進めるときに消費するエネルギーは,患者が受ける恩恵を考えて,有益なものとなるか考えてみてください.何しろ皆さんのエネルギーは有限ですから…

 

【良い臨床研究計画のコツ】

  1. 臨床疑問を明確にすること
  2. 臨床疑問を構造化する(研究疑問へ)
  3. 研究疑問のアウトカム(O)とは “アウトカム”を正確に理解しよう…それが研究でも臨床でも重要
  4. 研究の背景及び意義 What’s know? & What’s new.
  5. 研究のデザインと統計解析方法 ・バイアスをどう扱うか  →臨床研究の多くは観察研究   →観察研究で真実に近づくにはバイアスを制御できるように ・検定の多重  →研究には探索的研究と確証的研究がある   →確証的研究では検定の多重を避けなくてはいけない    →探索的研究では結果を強く主張してはならない(確証的研究につなぐ)
  6. 目標症例数の設定 臨床医の感覚を基に統計家が目標症例数を決定する 世の中に差のない2群はない(母集団に十分な症例数があれば…) 差があるかどうかの判断基準を決めるのは臨床医である
  7. 評価項目と調査項目 評価項目は,上記のアウトカムを測定可能としたもの(エンドポイント)である →単語,または修飾語の付いた名詞である 調査項目は,評価項目(目的変数),説明変数,背景因子など,調査する項目すべてである

【良い論文とは】

これは,臨床研究に限らずの話です.(1)明確な疑問があること,(2)疑問に対して十分確証のある答を与えていること,が重要です.多くの結論を書かれている論文ほどダメな論文です.例え,どれだけImpact Factorの高い雑誌に掲載されていようともそうですし,その理由は疑問が明確でないことが最大の理由です.大学入試などの小論文は課題が与えられていますが,課題が明確でなく答えが曖昧となってしまうようだと受験生は困るし大学は質の良い(少なくとも論理性のある)学生を選ぶ一つの道を閉ざすことになります.

 余談ですが,僕は“大学入試共通テスト”には大反対です.記述式に反対しているわけではありません.共通の試験問題として多様性を無視していることに反対です.各大学には,どのような学生を入学させたいかのフィロソフィがあると思いますが,それは入試問題,小論文の課題,面接の方法などでその目的を達することができます.もちろん個別試験はあるわけですが,“大学入試共通テスト”も合否に影響するとするとこのテストの出来によって恐らく東大→京大→阪大…と割り振られるわけで,物差しの方向は一方向です.東大,京大,阪大…が同じ質の学生を欲しがっているならばそれで良いと思いますが,きっとそうではないですよね.プロスポーツ選手(野球,サッカー,相撲…)が50m走の記録でこの順に割り振られるとしたら奇妙ですよね.

 ところで,後述しますが,例えばデータベースをいじって,たくさんの検定をやって,有意差が出たといって研究を進めると,疑問は後付け(後出しじゃんけん)です.しかも,検定の多重性(ナンバーズ3を1000枚買う)に抵触します.探索的研究で強く結論を主張しないならばありでしょうが,確証的研究でエビデンスつくりをするという意図の論文では(1)(2)は必須です.

 

【臨床疑問を吟味しよう】

アイオワ州の総合診療医が,患者ケアに関する疑問に関する研究を行った中で,医師は半日あたりに5.5件の疑問を持つことが分かりました(2).つまり,解決すれば患者に有益となる臨床疑問は日常診療の中に山のようにあるということです.正当な臨床・研究疑問の生まれ方は,「患者さんのために解決すべき問題は何か?」です.対して,まずい臨床・研究疑問の生まれ方は,「何か研究のテーマはないか?」,「データが集まってるけど何か利用の方法はないか?」です.臨床研究も基礎研究も科学であることは同様であり,その価値は同等であると思いますが,基本的に底流のフィロソフィは,基礎医学においては創造であり,臨床においては奉仕です.

 

【臨床疑問から研究疑問へ】

この工程は,疑問の構造化(PICOやPECOへ)です.このトレーニングは,臨床でも研究でも非常に重要です.なぜならば,我々臨床医が行っている日常臨床も,個々の医師は必ず目標とすべきアウトカムをイメージしながら行っているからです.疑問が起こり,データを集めて疑問に解答しようと考えた時に,自分が優れた臨床医であったか否かが明確になります.疑問に答えるような研究デザインが組めない最大の理由は,アウトカムとなりうるデータが採られていないことにあり,その理由は臨床でアウトカムを明確に意識していないことに一端があると思います.若い医師に臨床研究を経験させる最大のメリットはそこにあるのではないでしょうか.

PICOやPECOについてです.PICOはPatients, Intervention, Comparison, and Outcomesからなります.しかし,我々は基本的に臨床研究としてランダム化比較試験(RCT)を選択することは非常に少なく,ここでは観察研究を中心に述べたいのでPatients, Exposure, Comparison, and OutcomesからPECOについて説明します.

Patients:           誰に対し

Exposure:            どのような暴露があると

Comparison:         何と比較して

Outcomes:           どのような効果があるか

ここで,Outcomeをmeasurable(測定可能)とした場合に,Endpointと呼ぶことが多いです.この基礎編で最も重要なことに言及しますが,このEndpoint(≒Outcome)が研究計画書の「評価項目」にあたります.よく,「知りたいことを記載するところ」だと勘違いされますが,そうではなくここに記載すべきは“評価するための物差し”であり,何で判定するかであり,あなたがこの研究を完遂することで患者の“何”を良くしたいかであり,基本単語,または修飾語の付いた名詞です.文章ではありません.

例えば,「小児のCKD患者へのRAS阻害薬の投与が透析導入を遅らせれるか」などと書かれたりします.この場合,「透析導入」や「末期腎不全」です.

例えば,「喫煙と肺がんの関連」などと書かれたりします.この場合,「肺がん」でしょう.

例えば,「SGA低身長に成長ホルモン製剤は有効か」などと書かれたりします.この場合,「最終身長」です.

皆さんは,臨床で患者に何らかの治療をするときに,きちんと“何”を良くしたいか考えていると思います.それがOutcomeです.いつも意識しながら診療したいものです.

 

【観察研究におけるExposureの考え方】

 PECOを作成するときに,ExposureはPICOのInterventionにあたるわけですが,PICOの多くはRCTにおいてたてられる疑問です.RCTと,その他の研究(観察研究)との最大の違いは,バイアスの処理の仕方です.RCTは,ランダム化することによって可能な限りバイアスを減らします.だから,単変量の解析(二群間比較など)をもって結論しても大丈夫なわけです.観察研究の場合は,Outcomeに影響すると考えられるたくさんの要因の中で,最も研究者にとって興味があるもの(恐らく臨床疑問の中で上げられています)をExposureとしてPECOを作成します.では他の要因はどうするかというと,多変量解析を行うことでバイアスとなっていないかどうかを確認していきます.もちろん,その過程の中でExposureと考えたものが因子としては消えてしまい,他の要因が重要な因子となる可能性もあります.それでもPECOを作っておくことは重要で,Outcomeが明確化し,研究の最初に重要な因子となるだろうと考えていたものや,それにバイアスとして影響していたものが明確となって,最終的に疾患モデルが見えてくることになります.別の視点でいうと,バイアスとなりうる要因は,多変量解析の説明変数として組み入れておかなくては真実に近づけないということです.

 ちなみに,文言としての要因と因子の違いですが,明確ではありませんが以下のように言われます.

  • 要因:データの値に変化を与える要素のことです.
  • 因子:要因の中でも特に、母平均に差をもたらすと考えられる要因を指します.

 要因と因子は,混在して使われますし,英語ではどちらもfactorですし,あまり厳密に使い分ける必要はないかもしれません.説明変数となりうる調査項目を要因,そのうち解析の結果説明変数となったものを因子と呼ぶのはどうでしょうか?

【研究疑問を具体化する,測定可能にする】

一つ例を出すことにします.慢性腎臓病(CKD)患者に対するRAS阻害薬の腎保護効果についてはエビデンスがありますが,成人に対して(多くは糖尿病性腎症)で小児に対してはありません.そこで,小児に対してのエビデンスを作りたいと思って,「小児のCKD患者へのRAS阻害薬の投与には,腎保護作用があるだろうか?」という臨床疑問を立てました.第一弾としての研究疑問(PICO)を作成してみます.

P)小児のCKD患者

I)RAS阻害薬の投与

C)RAS阻害薬の非投与

O)末期腎不全  

となりました.しかし,具体性に欠けます.小児とは何でしょうか? CKDとは? RAS阻害薬は? 末期腎不全とは? あたりを明確にしなくてはなりません.そこで,具体化した第二弾のPICOを作成しましょう. P)小児(3~15歳)のCKDstage3

I)Valsartan(1mg/kg)の投与

C)プラセボの投与

O)腎代替療法  

としてみました.かなりRCTの様子が見えてきました.

 ところで,Outcomeの復習をしてみましょう.“末期腎不全”は名詞であり,この腎臓小児科医は,小児のCKD患者さんをできるだけ末期腎不全とはならないように管理しようという臨床上の目標を持っていることが明確になります.

 

【良い臨床研究計画(FIRM2NESS)】

 福原は,著書「臨床研究の道標」(1)の中で,良い研究疑問のポイントとして,以下のFIRM2NESSを上げました.

  • Feasible 実現可能
  • Interesting 興味深い
  • Relevant 切実である
  • Measurable 測定可能
  • Modifiable 改善可能
  • Novel 新奇性がある
  • Ethical 倫理的である
  • Structured 構造化された
  • Specific 具体的な

 詳細は「臨床研究の道標」に譲るとして,この中のいくつかについて私の解釈も含めて述べてみます.【はじめに】に記載したことの復習でもあります.

Modifiable(改善可能)であることは,研究の本質的な倫理性でもあります.この研究の結果が出てきた後,患者のために,Outcomeを改善する方向にその因子を動かすことが可能なものとなっているか?,ということです.臨床研究は,あくまで臨床研究ですから,臨床つまり患者に役立たなくては意味がありません.上記の臨床疑問で,「Valsartanの投与が末期腎不全となる時期を遅らせる」ことが分かればその後の患者にとって恩恵ですし,「Valsartanの投与が末期腎不全となる時期を遅らせるとは考えにくい」ならば,無駄にValsartanを患者に飲ませる必要はないわけです.ところで後述しますが,「末期腎不全となる時期を遅らせる」か否かは,統計的に有意であったかどうかではなく,臨床医が設定した効果量を考えたうえでの統計的有意性が重要です.ここはまだ理解できなくて大丈夫です.

 Feasible(実現可能)であることも,研究の倫理性に深くかかわります.ちゃんと患者から同意は得られて,

研究期間で本当に終了するのか? デザインに無理はないのか?などです.20年もかかってしまう研究を否定するわけではありませんが,20年後に結果が出てきたときに,その時代の患者や医師にとって役立つものかどうかを考えてみなくてはいけません.医療は日進月歩ですから.

 Measurable(測定可能)であることは,量的研究であり科学である以上は非常に重要なことです.因子(説明変数)もOutcome(目的変数)も,測れるもの(つまり統計処理できるもの)になっていますでしょうか? その観察研究が,ケースシリーズなどでなければ,量的研究なので,ちゃんと“量”になってないといけないわけです.ところで,ケースシリーズを軽視する風潮がありますが,最初の臨床疑問は患者から沸き上がります.探索的(確証的に対して)な研究は,その後の研究の発展の起点になるわけですから非常に重要です.人の褌で相撲を取るならば,丁寧に正直に記述された優れたケースシリーズを覗くことが役に立つかもしれません.

 

【再度Outcome,Endpointについて】

 繰り返しますが,研究計画書の評価項目(エンドポイント)は基本単語であり,せいぜい就職する言葉の付いた名詞です.文章はありえません.エンドポイントは,評価のための物差しです.エンドポイントは,その研究が完結したときに,患者の何を良くしたいかです.ですから,一つの研究にたくさんのエンドポイントがあることは奇妙です.しかし,Secondary Endpointと称して,たくさんのエンドポイントが載せられている研究計画書はたくさんあります.

  • Primary Endpoint(主要評価項目) この研究の結果,患者の何を良くしたいか.第一義的.
  • Secondary Endpoint(副次的評価項目) 主要評価項目以外の効果を評価するための項目.しかし,PICOやPECOのPICやPECが変わるわけではない.主要評価項目とは,効果量も異なり,症例数設定も本来は異なるので,エビデンスは低い.論文で多くを主張することはできない.

 例えば,前述した臨床疑問で,“末期腎不全”がPrimary Endpointだが,CKDのもう一つの指標である“蛋白尿”もみておきたいという場合に,設定したりします.

 ここからは,別の視点の,上記分類とは全く独立しているエンドポイントの分類です.

  • True Endpoint(真の評価項目) 治療行為などの有効性を示すための評価項目.研究の目的に合致している項目.
  • Surrogate Endpoint(代理の評価項目) 評価を短期間で行うための項目.それ自体は臨床上の利益とならない場合も、真の評価項目を合理的に予測できることが条件.

 例えば,“腎代替療法”がTrue Endpointだとすると,非常に時間がかかる研究となりFeasibilityが疑わしい.そこで“血清クレアチニンの二倍化”や“CKDステージ4”をSurrogate Endpointとすれば,短い時間で研究を完遂することができてFeasibleとなるというような場合です.ただし,“血清クレアチニンの二倍化”や“CKDステージ4”が“腎代替療法”を合理的に予測できる科学的なSurrogate Endpointであることが必須です.例えば過去の多くの論文で“血清クレアチニンの二倍化”がエンドポイントとして使用されているようであれば,市民権を得ることができます.

 

【“研究の背景及び意義”に何を書くべきか】

 FIRM2NESSに示されているように,Novel(新奇性がある)ことは研究にとって必須のことです.ということはそこに“研究の背景及び意義”に記載すべき最も重要なことがあります.最終的に論文化するときには(まだ研究計画書だとしても),読者にその論文の価値を印象付ける部分です.それに加えて,結果が出たらModifiableであることが記載されていたら更に良いでしょう.

 “What’s known”,“What’s new”が記載されていれば,“研究の背景及び意義”の必要条件は満たすと思います.この部分で引用すべき論文は,“What’s known”を示すためのものです.これは研究計画書であろうと,研究論文であろうと変わりません.

 

【IMRaD】

ところで,Introductionに書くべき内容について前項で記載しましたが,Introductionも含めて医学系の論文のスタイルは,IMRaD(イムラッド)形式(Introduction, Methods, Results, and Disccussion)と相場は決まっています.しかし,これは医学系論文に限られることを覚えておいてください.ただ科学的に書くという点においては,どの世界でも同じだと思いますが….

 

【研究デザイン】

 量的な臨床研究のデザインは,凡そ以下のように分類されます.

  1. 介入研究 randomized controlled trial (RCT)
  2. 観察研究 ① 横断研究(クロスセクショナル研究) ② 前向き研究(コホート研究) ③ 後ろ向き調査(ケース・コントロール研究)

横断研究は,疾患の原因と考えられる変数と,アウトカムと考えられる変数を同時点で測定する方法で,過去に遡らないのでデータの拾い出しが正確です.しかし因果を述べるために必要な4要因(後述)のうちの時間的先行性を最初から捨ててしまっているという欠点があります.いわゆる実態調査で,疾患の有病率や、健康問題の保有率を把握する場合などに適しています.

コホート研究とは,ある時点で研究を開始し,前向きにデータを採っていくデザインの研究です.ランダムに2群に分けていないということで大きなバイアスを持ち込むことになりますが,バイアスをうまく処理すればRCTに近い考え方です.

ケース・コントロール研究は,まずケースとコントロールをみつけて後ろ向きに要因を調べていく研究で,効率よくケースを研究に導入することができますが,コントロールを何にするかという難しさがあります.また必要なデータが存在しないことも多々あります.

前向きと後ろ向きは,基本Surveyの方向を言っていると考えたほうがスマートです.ところで,後ろ向きコホート研究という表現があります.コホート研究のSurveyの方向は前を向いているわけですから,定義上で矛盾があります.後ろ向きコホート研究というのは,過去に起点があってそこから前向きに検討しようというわけですから,過去起点コホートとよんだり,ヒストリカルコホート研究とよんだりするほうが合理的なように思います.

ところで,ケースレポートやケースシリーズはどう考えればよいでしょうか.これらは最もエビデンスレベルの低い探索的研究です.しかし価値が低いわけではありません.探索的研究は将来の確証的研究に繋がるわけですから,臨床研究をスタートする最初の臨床疑問であり,真実に的を得ているという可能性は低いですが,中に真実を含んでいるわけですから,丁寧に詳細に記述しておくことは価値のあることです.そこで始まった疑問をそこで終わりにしないことが責務です.

 

【因果関係】

AとBの間に因果関係がある(A→B)というのは,以下の4つが成立することです.

  1. AとBの間に明瞭な関係があること
  2. 時間的先行性(AはBに時間的に先行している)
  3. 関連の普遍性がある(時間,場所,対象の選び方などによらない) AとBの共通の原因となりうる要因(交絡)を統制しても関係が見いだされる
  4. 関連の整合性がある 医学・生理学的観点からも矛盾なく説明できる

相関関係があるということは,因果関係を示すためのごく一部を満たすだけです.ここを勘違いすると,論文の考察や結論が大きくゆがめられます.研究計画を立てるところから,このことを意識しておかなくてはなりません.

 

【検定の多重性】

 例えば、A、B、Cと3つの薬剤があったとします。A-B、A-C、B-Cと2薬ずつ 3組を有意水準 5%で t検定などで比較検定したとします。元々、この「3剤に薬効の差は無かった」としても、それぞれの検定で、たまたま有意になってしまう確率が 5%あります。

それぞれの検定で正しい結果(有意にならない。P>0.05)が出る確率は 95%(=0.95)ですが、3つとも正しい結果が出るとなると 0.95 の 3乗で 0.857375 となります。逆に、3つの検定で 1つ以上有意になる確率はというと 1-0.857 で 14.3%ということになります。つまり,有意水準は,5%ではなくなってしまいました.このことから以下のことを主張したいです.

  • 単変量解析を繰り返してはいけない.
  • 単変量解析は,RCTや,傾向スコア分析など,バイアスを調整してから行うべきである.
  • 多変量解析の前に単変量解析を行うときは,ただ要因を選択する参考であり,臨床上の印象のほうがずっと重要である.
  • 何度も検定するのは,同じ結論に向けて確認する場合にのみ許される.(これは,研究としては有意な結論が出る確率をぐっと減らしますが,その覚悟で研究を進めるということです.)

 

【主要評価項目で研究のデザイン,特に目標症例数が決まる】

 だから,副次的評価項目のエビデンスは低いものです.ほとんど主張できません.症例数設定の意味については,詳しくは応用編でお話ししますが,少しだけ触れておきます.

  • p値はn数に大きく依存する 母集団から,たくさんの標本をとってくればくるほど,言いたいことが言えるわけです.つまり世の中に差がない二群は基本的にはないということです.例えば,ある癌にA薬を20万人に,B薬を20万人にランダム化して投与しました.アウトカムを5年生存率とします.A薬の5年生存者は100000人で,B薬の生存者は101000人で,p=0.002で有意にB薬が有効でした.この差は,あなたは臨床医として,本当に臨床上B薬がA薬に比べて有効と思いますか? 次にA薬を200人に,B薬を200人にランダム化して投与し,A薬の5年生存者は100人で,B薬の生存者は101人となると,p=0.92でB薬が有効であることを示せません.この2つの例の比率(≒効果量)は同じです.つまり,症例数設定をする時点で,研究者はこのくらいの比率であれば臨床医として意味があると思うと宣言することになります.
  • 効果量はn数に無関係である 上に示したように,効果量は症例数に無関係です.臨床医が,その効果量が臨床上有意だと思えば,それを示すことのできるn数を集めてくればよいわけです.これを症例数設定といいます.それで,有意性を示すことができなければ,臨床医が有意だと思った効果量はなかったということになります.ただし,この部分で少し研究を意味あるものにするための担保(β誤差を減らすこと)が入り込んでいますが,これも応用編で話します.

副次的評価項目のエビデンスが少ないことも,応用編でもう少し詳しく話します.

 

【おわりに】

 研究計画を立てるときに,忘れないでほしいことを列記しておきます.

  1. 臨床疑問を明確に その疑問に簡潔に答えることができますか?
  2. その疑問に答えたら患者に役に立ちますか?
  3. 主要評価項目は研究の物差し ・1つだけ? ・単語?
  4. 患者の良くしたい点が評価項目になっていますか?
  5. 因果を示したい時は4項目を忘れないでください (時間的先行性,関連,バイアスの調整,臨床的意味)

 

【引用文献】

  1. 福原俊一. よいRQの要件とは?. In: 福原俊一, editor. 臨床研究の道標. 京都: IRIS; 2013. p. 25-7.
  2. Ely JW, Osheroff JA, Chambliss ML, Ebell MH, Rosenbaum ME. Answering physicians' clinical questions: obstacles and potential solutions. J Am Med Inform Assoc. 2005;12(2):217-24.

 

積極的なPCR検査は真の新型コロナウイルス感染者を爆発的に増やす

積極的なPCR検査は真の新型コロナウイルス感染者を爆発的に増やします.

PCR検査を積極的にやってはいけない理由を説明します.

 

一般的な話から…

  1. PCR検査の感度は、70%~80%程度
  2. PCR検査の特異度は、80%~90%程度
  3. 日本人口が1億2500万人
  4. 現在の証明された日本のコロナウイルス感染者8400人

 

計算のために単純化します.方向はPCR検査を増やすことに意味があるという方向で考えます. 実際の感染者は10倍いると考えます.

  • PCR検査の感度は80%
  • PCR検査の特異度は90%
  • 日本人口が1億人
  • 現在の日本のコロナウイルス感染者10万人

 

もし全国民がPCR検査を受けたとします.

 

真の感染者

真の非感染者

PCR(+)

80000

9990000

10070000

PCR(ー)

20000

89910000

89930000

100000

99900000

100000000

すると,陽性的中率(検査が陽性の時に真の感染者である率)は0.8%となります.これは,80000÷10070000です.

結果,本当は新型コロナウイルス感染ではない,9990000の人が陽性と判断されて病院に殺到することになり,いわゆる“医療崩壊”です.2回感染しているというのも怪しいものですよね.もちろんこれの小規模なものは今も日本で起こっているということです.

 

これは現実的ではないということで,真の感染者の10倍(100万人)がPCR検査を受けたとします.

 

真の感染者

真の非感染者

PCR(+)

80000

90000

170000

PCR(ー)

20000

810000

830000

100000

900000

1000000

すると,陽性的中率(検査が陽性の時に真の感染者である率)は47%となります.これは,80000÷170000です.

結果,本当は新型コロナウイルス感染ではない,90000の人が陽性と判断されて病院に殺到することになます.これも“医療崩壊”に繋がりますよね.しかもこの90000人は新型コロナと同じ部屋で生活させられるかもしれません.

つまり,積極的なPCR検査は,真の新型コロナの感染を爆発的に増やします.

 

もしも我々医師が診断してからだと考えます.正診率,誤診率を50%と考えます.

つまり真の感染者の2倍(20万人)がPCR検査を受けたとします.

 

真の感染者

真の非感染者

PCR(+)

80000

10000

90000

PCR(ー)

20000

90000

110000

100000

100000

200000

すると,陽性的中率(検査が陽性の時に真の感染者である率)は89%となります.これは,80000÷90000です.

結果,本当は新型コロナウイルス感染ではない,10000の人が陽性と判断されて病院に収容されます.現実に近い数ではないでしょうか.現在この10000人は新型コロナと同じ部屋で生活させられています.

 

こんなことがなぜ起こるかというと,検査は正しいに違いないという神話によるものです.

 

もう一つの無駄なPCR検査が意味のない理由は,今日感染していなくても明日感染しているかもしれないからです.

私は腎臓小児科医です…でした.

今は様々な障害を持った子どもたちを診療しています.

そして,臨床研究について,小児科医に限らず若い先生たちを指導しています.

臨床研究をテーマに,少しずつ記事を残していきたいと考えています.