臨床研究の進め方―基礎編―

このブログの本来の目的に戻ります.臨床研究についてです.まずは基礎編を載せますが,いずれ応用編も少しずつ載せていきたいと思います.

 

臨床研究の進め方―基礎編―

 

【はじめに(少し哲学的に)】

最も重要なことは,「この研究をやって意味があるか?」です.研究には,最初に疑問が存在することが前提ですが,臨床医にとって「意味がある」とは,患者に役立つということです.つまり,「この疑問に答えることができたら,患者に役立つか?」ということです.これは後述するFIRM2NESS(1)の”Modifiable”にあたります.これは臨床医の望まれる姿勢でもあります.

では,研究者(科学者)の姿勢としてはどうでしょうか? 「あなたは真実をみつけようとしていますか?」 「あなたは有意差をみつけようとしていないですか? 仮に真実ではないと思っても…」

加えて,その研究計画は完遂できるものでしょうか? 完遂できないならば,研究者も患者もエネルギーの無駄遣いです.これは後述するFIRM2NESSの”Feasible”にあたります.世の中では,すでに回答が出ている疑問ではないでしょうか? 臨床医は臨床疑問を持つと,教科書を調べ,ガイドラインを調べ,論文を調べます.そこに書かれていることに臨床医として納得できればそれは研究疑問につながりません.しかし,そこに書かれていることに大きな疑問を抱いたならば,それは研究疑問となるでしょう.これは後述するFIRM2NESSの”Novel”にあたります.

そして,抱いた臨床疑問が,その後の研究へと進める価値があると考えたら,研究計画がスタートします.そして,もう一度,この研究を進めるときに消費するエネルギーは,患者が受ける恩恵を考えて,有益なものとなるか考えてみてください.何しろ皆さんのエネルギーは有限ですから…

 

【良い臨床研究計画のコツ】

  1. 臨床疑問を明確にすること
  2. 臨床疑問を構造化する(研究疑問へ)
  3. 研究疑問のアウトカム(O)とは “アウトカム”を正確に理解しよう…それが研究でも臨床でも重要
  4. 研究の背景及び意義 What’s know? & What’s new.
  5. 研究のデザインと統計解析方法 ・バイアスをどう扱うか  →臨床研究の多くは観察研究   →観察研究で真実に近づくにはバイアスを制御できるように ・検定の多重  →研究には探索的研究と確証的研究がある   →確証的研究では検定の多重を避けなくてはいけない    →探索的研究では結果を強く主張してはならない(確証的研究につなぐ)
  6. 目標症例数の設定 臨床医の感覚を基に統計家が目標症例数を決定する 世の中に差のない2群はない(母集団に十分な症例数があれば…) 差があるかどうかの判断基準を決めるのは臨床医である
  7. 評価項目と調査項目 評価項目は,上記のアウトカムを測定可能としたもの(エンドポイント)である →単語,または修飾語の付いた名詞である 調査項目は,評価項目(目的変数),説明変数,背景因子など,調査する項目すべてである

【良い論文とは】

これは,臨床研究に限らずの話です.(1)明確な疑問があること,(2)疑問に対して十分確証のある答を与えていること,が重要です.多くの結論を書かれている論文ほどダメな論文です.例え,どれだけImpact Factorの高い雑誌に掲載されていようともそうですし,その理由は疑問が明確でないことが最大の理由です.大学入試などの小論文は課題が与えられていますが,課題が明確でなく答えが曖昧となってしまうようだと受験生は困るし大学は質の良い(少なくとも論理性のある)学生を選ぶ一つの道を閉ざすことになります.

 余談ですが,僕は“大学入試共通テスト”には大反対です.記述式に反対しているわけではありません.共通の試験問題として多様性を無視していることに反対です.各大学には,どのような学生を入学させたいかのフィロソフィがあると思いますが,それは入試問題,小論文の課題,面接の方法などでその目的を達することができます.もちろん個別試験はあるわけですが,“大学入試共通テスト”も合否に影響するとするとこのテストの出来によって恐らく東大→京大→阪大…と割り振られるわけで,物差しの方向は一方向です.東大,京大,阪大…が同じ質の学生を欲しがっているならばそれで良いと思いますが,きっとそうではないですよね.プロスポーツ選手(野球,サッカー,相撲…)が50m走の記録でこの順に割り振られるとしたら奇妙ですよね.

 ところで,後述しますが,例えばデータベースをいじって,たくさんの検定をやって,有意差が出たといって研究を進めると,疑問は後付け(後出しじゃんけん)です.しかも,検定の多重性(ナンバーズ3を1000枚買う)に抵触します.探索的研究で強く結論を主張しないならばありでしょうが,確証的研究でエビデンスつくりをするという意図の論文では(1)(2)は必須です.

 

【臨床疑問を吟味しよう】

アイオワ州の総合診療医が,患者ケアに関する疑問に関する研究を行った中で,医師は半日あたりに5.5件の疑問を持つことが分かりました(2).つまり,解決すれば患者に有益となる臨床疑問は日常診療の中に山のようにあるということです.正当な臨床・研究疑問の生まれ方は,「患者さんのために解決すべき問題は何か?」です.対して,まずい臨床・研究疑問の生まれ方は,「何か研究のテーマはないか?」,「データが集まってるけど何か利用の方法はないか?」です.臨床研究も基礎研究も科学であることは同様であり,その価値は同等であると思いますが,基本的に底流のフィロソフィは,基礎医学においては創造であり,臨床においては奉仕です.

 

【臨床疑問から研究疑問へ】

この工程は,疑問の構造化(PICOやPECOへ)です.このトレーニングは,臨床でも研究でも非常に重要です.なぜならば,我々臨床医が行っている日常臨床も,個々の医師は必ず目標とすべきアウトカムをイメージしながら行っているからです.疑問が起こり,データを集めて疑問に解答しようと考えた時に,自分が優れた臨床医であったか否かが明確になります.疑問に答えるような研究デザインが組めない最大の理由は,アウトカムとなりうるデータが採られていないことにあり,その理由は臨床でアウトカムを明確に意識していないことに一端があると思います.若い医師に臨床研究を経験させる最大のメリットはそこにあるのではないでしょうか.

PICOやPECOについてです.PICOはPatients, Intervention, Comparison, and Outcomesからなります.しかし,我々は基本的に臨床研究としてランダム化比較試験(RCT)を選択することは非常に少なく,ここでは観察研究を中心に述べたいのでPatients, Exposure, Comparison, and OutcomesからPECOについて説明します.

Patients:           誰に対し

Exposure:            どのような暴露があると

Comparison:         何と比較して

Outcomes:           どのような効果があるか

ここで,Outcomeをmeasurable(測定可能)とした場合に,Endpointと呼ぶことが多いです.この基礎編で最も重要なことに言及しますが,このEndpoint(≒Outcome)が研究計画書の「評価項目」にあたります.よく,「知りたいことを記載するところ」だと勘違いされますが,そうではなくここに記載すべきは“評価するための物差し”であり,何で判定するかであり,あなたがこの研究を完遂することで患者の“何”を良くしたいかであり,基本単語,または修飾語の付いた名詞です.文章ではありません.

例えば,「小児のCKD患者へのRAS阻害薬の投与が透析導入を遅らせれるか」などと書かれたりします.この場合,「透析導入」や「末期腎不全」です.

例えば,「喫煙と肺がんの関連」などと書かれたりします.この場合,「肺がん」でしょう.

例えば,「SGA低身長に成長ホルモン製剤は有効か」などと書かれたりします.この場合,「最終身長」です.

皆さんは,臨床で患者に何らかの治療をするときに,きちんと“何”を良くしたいか考えていると思います.それがOutcomeです.いつも意識しながら診療したいものです.

 

【観察研究におけるExposureの考え方】

 PECOを作成するときに,ExposureはPICOのInterventionにあたるわけですが,PICOの多くはRCTにおいてたてられる疑問です.RCTと,その他の研究(観察研究)との最大の違いは,バイアスの処理の仕方です.RCTは,ランダム化することによって可能な限りバイアスを減らします.だから,単変量の解析(二群間比較など)をもって結論しても大丈夫なわけです.観察研究の場合は,Outcomeに影響すると考えられるたくさんの要因の中で,最も研究者にとって興味があるもの(恐らく臨床疑問の中で上げられています)をExposureとしてPECOを作成します.では他の要因はどうするかというと,多変量解析を行うことでバイアスとなっていないかどうかを確認していきます.もちろん,その過程の中でExposureと考えたものが因子としては消えてしまい,他の要因が重要な因子となる可能性もあります.それでもPECOを作っておくことは重要で,Outcomeが明確化し,研究の最初に重要な因子となるだろうと考えていたものや,それにバイアスとして影響していたものが明確となって,最終的に疾患モデルが見えてくることになります.別の視点でいうと,バイアスとなりうる要因は,多変量解析の説明変数として組み入れておかなくては真実に近づけないということです.

 ちなみに,文言としての要因と因子の違いですが,明確ではありませんが以下のように言われます.

  • 要因:データの値に変化を与える要素のことです.
  • 因子:要因の中でも特に、母平均に差をもたらすと考えられる要因を指します.

 要因と因子は,混在して使われますし,英語ではどちらもfactorですし,あまり厳密に使い分ける必要はないかもしれません.説明変数となりうる調査項目を要因,そのうち解析の結果説明変数となったものを因子と呼ぶのはどうでしょうか?

【研究疑問を具体化する,測定可能にする】

一つ例を出すことにします.慢性腎臓病(CKD)患者に対するRAS阻害薬の腎保護効果についてはエビデンスがありますが,成人に対して(多くは糖尿病性腎症)で小児に対してはありません.そこで,小児に対してのエビデンスを作りたいと思って,「小児のCKD患者へのRAS阻害薬の投与には,腎保護作用があるだろうか?」という臨床疑問を立てました.第一弾としての研究疑問(PICO)を作成してみます.

P)小児のCKD患者

I)RAS阻害薬の投与

C)RAS阻害薬の非投与

O)末期腎不全  

となりました.しかし,具体性に欠けます.小児とは何でしょうか? CKDとは? RAS阻害薬は? 末期腎不全とは? あたりを明確にしなくてはなりません.そこで,具体化した第二弾のPICOを作成しましょう. P)小児(3~15歳)のCKDstage3

I)Valsartan(1mg/kg)の投与

C)プラセボの投与

O)腎代替療法  

としてみました.かなりRCTの様子が見えてきました.

 ところで,Outcomeの復習をしてみましょう.“末期腎不全”は名詞であり,この腎臓小児科医は,小児のCKD患者さんをできるだけ末期腎不全とはならないように管理しようという臨床上の目標を持っていることが明確になります.

 

【良い臨床研究計画(FIRM2NESS)】

 福原は,著書「臨床研究の道標」(1)の中で,良い研究疑問のポイントとして,以下のFIRM2NESSを上げました.

  • Feasible 実現可能
  • Interesting 興味深い
  • Relevant 切実である
  • Measurable 測定可能
  • Modifiable 改善可能
  • Novel 新奇性がある
  • Ethical 倫理的である
  • Structured 構造化された
  • Specific 具体的な

 詳細は「臨床研究の道標」に譲るとして,この中のいくつかについて私の解釈も含めて述べてみます.【はじめに】に記載したことの復習でもあります.

Modifiable(改善可能)であることは,研究の本質的な倫理性でもあります.この研究の結果が出てきた後,患者のために,Outcomeを改善する方向にその因子を動かすことが可能なものとなっているか?,ということです.臨床研究は,あくまで臨床研究ですから,臨床つまり患者に役立たなくては意味がありません.上記の臨床疑問で,「Valsartanの投与が末期腎不全となる時期を遅らせる」ことが分かればその後の患者にとって恩恵ですし,「Valsartanの投与が末期腎不全となる時期を遅らせるとは考えにくい」ならば,無駄にValsartanを患者に飲ませる必要はないわけです.ところで後述しますが,「末期腎不全となる時期を遅らせる」か否かは,統計的に有意であったかどうかではなく,臨床医が設定した効果量を考えたうえでの統計的有意性が重要です.ここはまだ理解できなくて大丈夫です.

 Feasible(実現可能)であることも,研究の倫理性に深くかかわります.ちゃんと患者から同意は得られて,

研究期間で本当に終了するのか? デザインに無理はないのか?などです.20年もかかってしまう研究を否定するわけではありませんが,20年後に結果が出てきたときに,その時代の患者や医師にとって役立つものかどうかを考えてみなくてはいけません.医療は日進月歩ですから.

 Measurable(測定可能)であることは,量的研究であり科学である以上は非常に重要なことです.因子(説明変数)もOutcome(目的変数)も,測れるもの(つまり統計処理できるもの)になっていますでしょうか? その観察研究が,ケースシリーズなどでなければ,量的研究なので,ちゃんと“量”になってないといけないわけです.ところで,ケースシリーズを軽視する風潮がありますが,最初の臨床疑問は患者から沸き上がります.探索的(確証的に対して)な研究は,その後の研究の発展の起点になるわけですから非常に重要です.人の褌で相撲を取るならば,丁寧に正直に記述された優れたケースシリーズを覗くことが役に立つかもしれません.

 

【再度Outcome,Endpointについて】

 繰り返しますが,研究計画書の評価項目(エンドポイント)は基本単語であり,せいぜい就職する言葉の付いた名詞です.文章はありえません.エンドポイントは,評価のための物差しです.エンドポイントは,その研究が完結したときに,患者の何を良くしたいかです.ですから,一つの研究にたくさんのエンドポイントがあることは奇妙です.しかし,Secondary Endpointと称して,たくさんのエンドポイントが載せられている研究計画書はたくさんあります.

  • Primary Endpoint(主要評価項目) この研究の結果,患者の何を良くしたいか.第一義的.
  • Secondary Endpoint(副次的評価項目) 主要評価項目以外の効果を評価するための項目.しかし,PICOやPECOのPICやPECが変わるわけではない.主要評価項目とは,効果量も異なり,症例数設定も本来は異なるので,エビデンスは低い.論文で多くを主張することはできない.

 例えば,前述した臨床疑問で,“末期腎不全”がPrimary Endpointだが,CKDのもう一つの指標である“蛋白尿”もみておきたいという場合に,設定したりします.

 ここからは,別の視点の,上記分類とは全く独立しているエンドポイントの分類です.

  • True Endpoint(真の評価項目) 治療行為などの有効性を示すための評価項目.研究の目的に合致している項目.
  • Surrogate Endpoint(代理の評価項目) 評価を短期間で行うための項目.それ自体は臨床上の利益とならない場合も、真の評価項目を合理的に予測できることが条件.

 例えば,“腎代替療法”がTrue Endpointだとすると,非常に時間がかかる研究となりFeasibilityが疑わしい.そこで“血清クレアチニンの二倍化”や“CKDステージ4”をSurrogate Endpointとすれば,短い時間で研究を完遂することができてFeasibleとなるというような場合です.ただし,“血清クレアチニンの二倍化”や“CKDステージ4”が“腎代替療法”を合理的に予測できる科学的なSurrogate Endpointであることが必須です.例えば過去の多くの論文で“血清クレアチニンの二倍化”がエンドポイントとして使用されているようであれば,市民権を得ることができます.

 

【“研究の背景及び意義”に何を書くべきか】

 FIRM2NESSに示されているように,Novel(新奇性がある)ことは研究にとって必須のことです.ということはそこに“研究の背景及び意義”に記載すべき最も重要なことがあります.最終的に論文化するときには(まだ研究計画書だとしても),読者にその論文の価値を印象付ける部分です.それに加えて,結果が出たらModifiableであることが記載されていたら更に良いでしょう.

 “What’s known”,“What’s new”が記載されていれば,“研究の背景及び意義”の必要条件は満たすと思います.この部分で引用すべき論文は,“What’s known”を示すためのものです.これは研究計画書であろうと,研究論文であろうと変わりません.

 

【IMRaD】

ところで,Introductionに書くべき内容について前項で記載しましたが,Introductionも含めて医学系の論文のスタイルは,IMRaD(イムラッド)形式(Introduction, Methods, Results, and Disccussion)と相場は決まっています.しかし,これは医学系論文に限られることを覚えておいてください.ただ科学的に書くという点においては,どの世界でも同じだと思いますが….

 

【研究デザイン】

 量的な臨床研究のデザインは,凡そ以下のように分類されます.

  1. 介入研究 randomized controlled trial (RCT)
  2. 観察研究 ① 横断研究(クロスセクショナル研究) ② 前向き研究(コホート研究) ③ 後ろ向き調査(ケース・コントロール研究)

横断研究は,疾患の原因と考えられる変数と,アウトカムと考えられる変数を同時点で測定する方法で,過去に遡らないのでデータの拾い出しが正確です.しかし因果を述べるために必要な4要因(後述)のうちの時間的先行性を最初から捨ててしまっているという欠点があります.いわゆる実態調査で,疾患の有病率や、健康問題の保有率を把握する場合などに適しています.

コホート研究とは,ある時点で研究を開始し,前向きにデータを採っていくデザインの研究です.ランダムに2群に分けていないということで大きなバイアスを持ち込むことになりますが,バイアスをうまく処理すればRCTに近い考え方です.

ケース・コントロール研究は,まずケースとコントロールをみつけて後ろ向きに要因を調べていく研究で,効率よくケースを研究に導入することができますが,コントロールを何にするかという難しさがあります.また必要なデータが存在しないことも多々あります.

前向きと後ろ向きは,基本Surveyの方向を言っていると考えたほうがスマートです.ところで,後ろ向きコホート研究という表現があります.コホート研究のSurveyの方向は前を向いているわけですから,定義上で矛盾があります.後ろ向きコホート研究というのは,過去に起点があってそこから前向きに検討しようというわけですから,過去起点コホートとよんだり,ヒストリカルコホート研究とよんだりするほうが合理的なように思います.

ところで,ケースレポートやケースシリーズはどう考えればよいでしょうか.これらは最もエビデンスレベルの低い探索的研究です.しかし価値が低いわけではありません.探索的研究は将来の確証的研究に繋がるわけですから,臨床研究をスタートする最初の臨床疑問であり,真実に的を得ているという可能性は低いですが,中に真実を含んでいるわけですから,丁寧に詳細に記述しておくことは価値のあることです.そこで始まった疑問をそこで終わりにしないことが責務です.

 

【因果関係】

AとBの間に因果関係がある(A→B)というのは,以下の4つが成立することです.

  1. AとBの間に明瞭な関係があること
  2. 時間的先行性(AはBに時間的に先行している)
  3. 関連の普遍性がある(時間,場所,対象の選び方などによらない) AとBの共通の原因となりうる要因(交絡)を統制しても関係が見いだされる
  4. 関連の整合性がある 医学・生理学的観点からも矛盾なく説明できる

相関関係があるということは,因果関係を示すためのごく一部を満たすだけです.ここを勘違いすると,論文の考察や結論が大きくゆがめられます.研究計画を立てるところから,このことを意識しておかなくてはなりません.

 

【検定の多重性】

 例えば、A、B、Cと3つの薬剤があったとします。A-B、A-C、B-Cと2薬ずつ 3組を有意水準 5%で t検定などで比較検定したとします。元々、この「3剤に薬効の差は無かった」としても、それぞれの検定で、たまたま有意になってしまう確率が 5%あります。

それぞれの検定で正しい結果(有意にならない。P>0.05)が出る確率は 95%(=0.95)ですが、3つとも正しい結果が出るとなると 0.95 の 3乗で 0.857375 となります。逆に、3つの検定で 1つ以上有意になる確率はというと 1-0.857 で 14.3%ということになります。つまり,有意水準は,5%ではなくなってしまいました.このことから以下のことを主張したいです.

  • 単変量解析を繰り返してはいけない.
  • 単変量解析は,RCTや,傾向スコア分析など,バイアスを調整してから行うべきである.
  • 多変量解析の前に単変量解析を行うときは,ただ要因を選択する参考であり,臨床上の印象のほうがずっと重要である.
  • 何度も検定するのは,同じ結論に向けて確認する場合にのみ許される.(これは,研究としては有意な結論が出る確率をぐっと減らしますが,その覚悟で研究を進めるということです.)

 

【主要評価項目で研究のデザイン,特に目標症例数が決まる】

 だから,副次的評価項目のエビデンスは低いものです.ほとんど主張できません.症例数設定の意味については,詳しくは応用編でお話ししますが,少しだけ触れておきます.

  • p値はn数に大きく依存する 母集団から,たくさんの標本をとってくればくるほど,言いたいことが言えるわけです.つまり世の中に差がない二群は基本的にはないということです.例えば,ある癌にA薬を20万人に,B薬を20万人にランダム化して投与しました.アウトカムを5年生存率とします.A薬の5年生存者は100000人で,B薬の生存者は101000人で,p=0.002で有意にB薬が有効でした.この差は,あなたは臨床医として,本当に臨床上B薬がA薬に比べて有効と思いますか? 次にA薬を200人に,B薬を200人にランダム化して投与し,A薬の5年生存者は100人で,B薬の生存者は101人となると,p=0.92でB薬が有効であることを示せません.この2つの例の比率(≒効果量)は同じです.つまり,症例数設定をする時点で,研究者はこのくらいの比率であれば臨床医として意味があると思うと宣言することになります.
  • 効果量はn数に無関係である 上に示したように,効果量は症例数に無関係です.臨床医が,その効果量が臨床上有意だと思えば,それを示すことのできるn数を集めてくればよいわけです.これを症例数設定といいます.それで,有意性を示すことができなければ,臨床医が有意だと思った効果量はなかったということになります.ただし,この部分で少し研究を意味あるものにするための担保(β誤差を減らすこと)が入り込んでいますが,これも応用編で話します.

副次的評価項目のエビデンスが少ないことも,応用編でもう少し詳しく話します.

 

【おわりに】

 研究計画を立てるときに,忘れないでほしいことを列記しておきます.

  1. 臨床疑問を明確に その疑問に簡潔に答えることができますか?
  2. その疑問に答えたら患者に役に立ちますか?
  3. 主要評価項目は研究の物差し ・1つだけ? ・単語?
  4. 患者の良くしたい点が評価項目になっていますか?
  5. 因果を示したい時は4項目を忘れないでください (時間的先行性,関連,バイアスの調整,臨床的意味)

 

【引用文献】

  1. 福原俊一. よいRQの要件とは?. In: 福原俊一, editor. 臨床研究の道標. 京都: IRIS; 2013. p. 25-7.
  2. Ely JW, Osheroff JA, Chambliss ML, Ebell MH, Rosenbaum ME. Answering physicians' clinical questions: obstacles and potential solutions. J Am Med Inform Assoc. 2005;12(2):217-24.