RCTとRWDの違いとは?—内的妥当性と外的妥当性から読み解く臨床研究デザイン
本記事では、臨床研究の両輪とも言える「RCT」と「RWD」について深掘りします。
なぜ「RCT vs RWD」を理解する必要があるのか
先生方は、日々の診療で「この患者さんには、あのRCT(Randomized Controlled Trial)の結果をそのまま当てはめて良いのだろうか?」と悩んだ経験はありませんか?
例えば、
- 大規模RCTでは有効性が示された薬剤が、目の前の超高齢・多剤併用の患者さんにも同じように効くのか?
- ある薬剤に関するRCTの結果と、保険データベースなどを使ったRWD(Real World Data)研究(観察研究)の結果が異なっているが、どちらを重視すべきか?
といった疑問です。
脳神経内科領域でも、DOAC(Direct Oral Anticoagulant:直接経口抗凝固薬)内服中の脳梗塞再発率や、CGRP関連抗体薬と既存の片頭痛予防薬の比較など、RCTとRWD研究の結果が必ずしも一致しないケースは散見されます。
これらの疑問に答えるため、臨床医は両者の「違い」と「適切な使い分け」を理解しておく必要があります。今回は、この2つの研究デザインを「妥当性」と「因果推論」の観点から徹底的に比較・整理します。
定義と目的の違い
まず、基本的な定義と目的の違いを整理しましょう。
| 比較項目 | RCT (Randomized Controlled Trial) | RWD研究 (Real World Data Research) |
| 日本語訳 | ランダム化(無作為化)比較試験 | リアルワールドデータ研究 (観察研究) |
| 主な目的 | 介入のEfficacy(有効性)の検証 | 介入のEffectiveness (実用性・効果)の評価 |
| デザイン | 介入研究(実験) | 観察研究(非介入) |
| データの質 | 高い(研究用に収集) | 玉石混交(日常診療のデータ) |
| 妥当性 | 内的妥当性 ◎、外的妥当性 △ | 内的妥当性 △、外的妥当性 ◎ |
| 交絡の制御 | ランダム化により原理的に制御 | 統計的調整(傾向スコアマッチング やIPTWなど)に依存 |
| コスト/期間 | 高い/長い | 比較的安価/迅速 |
| 臨床現場との距離 | 遠い(厳格な基準で選ばれた患者) | 近い(日常診療の多様な患者群) |
ここで重要なのが、Efficacy(有効性)とEffectiveness(実用性・効果)の違いです。
- Efficacy: 「理想的な環境下で(=厳格な基準を満たした患者に、決められた用法用量を守って投与した場合)、その介入はどの程度の効果があるか?」を問うものです。
- Effectiveness: 「実臨床の多様な環境下で(=様々な背景の患者に、アドヒアランスもばらつくなかで)、その介入はどの程度の効果があるか?」を問うものです。
RCTはEfficacyの検証に、RWD研究はEffectivenessの評価に、それぞれ適したデザインと言えます。
それぞれの「強み」と「限界」
🔹 RCTの強みと限界
RCTの最大の強みは、「ランダム化(無作為化)」にあります。
これにより、介入群(例:新薬群)と対照群(例:プラセボ群)に分ける際、私たちが測定できるものだけでなく、測定できないあらゆる背景因子(=交絡因子)の分布が、理論上均等になります。
その結果、2群間で生じた結果(例:脳卒中再発率)の差は、「介入(新薬)によるもの」と因果関係を強く主張できます。これが「内的妥当性(Internal Validity)が高い」と言われる所以です。
専門的にいうと、群間で交換可能性(=Exchangeablity)が担保されているといいます。
【限界】
外的妥当性(一般化可能性)の問題: 参加する患者さんは、厳格な選択基準・除外基準によってスクリーニングされています(例:「85歳以上は除外」「腎機能障害(eGFR < 30)は除外」など)。そのため、RCTの結果は、その「選ばれた患者集団」に限定され、実臨床で出会う多様な患者さん(超高齢、多併存疾患など)にそのまま一般化できるとは限りません。これを「外的妥当性(Generalizability)が低い(場合がある)」と表現します。
倫理的な制約: そもそもRCTを実施することが倫理的に困難な場合があります。例えば、すでに効果が証明されている標準治療(例:脳梗塞に対する血栓回収療法)がある場合に、それを実施しないプラセボ群や無治療群を置くことは倫理的に許容されません。 また、喫煙と肺がんの関連を調べるために、ランダムに喫煙を割り付ける(曝露させる)といった、明らかに健康被害が疑われる介入を行うことも不可能です。このような場合、私たちはRWD研究(観察研究)から因果関係を慎重に推論するしかありません。
コストと時間: 大規模なRCTの実施には、莫大な費用と非常に長い時間がかかります。
🔹 RWD研究の強みと限界
【強み】
RWD研究(保険請求データ、DPCデータ、電子カルテデータなどを用いた観察研究)の強みは、その「外的妥当性」にあります。
データソースが日常診療そのものであるため、RCTでは除外されがちな患者(高齢者、併存疾患が多い人、多剤併用者)も含まれており、実臨床における薬剤の安全性や効果(Effectiveness)を評価するのに適しています。また、大規模データを用いれば、RCTでは検出困難な「稀な有害事象」の解析も可能です。
【限界】
RWD研究の最大の弱点は、「交絡(Confounder)」です。
RCTと違い、介入(例:薬剤Aの処方)はランダムに決まるのではなく、医師の臨床判断に基づいて決まります。
例えば、「重症な患者には、より効果が期待される新薬Aを処方し、軽症な患者には従来薬Bを処方する」という判断がなされた場合、単純にA群とB群の予後を比較しても、A群の予後が悪く見えるかもしれません。これは薬剤Aの効果ではなく、元々の重症度の違い(交絡)が結果に影響しているためです。
これを特に「適応による交絡(Confounding by indication)」と呼びます。

RWD研究で因果関係に迫るためには、この交絡を統計的に制御する工夫(例:傾向スコアマッチング(PSM)、IPTW(Inverse Probability of Treatment Weighting)など)が不可欠ですが、それでも測定されていない交絡(残余交絡:Residual confounder)が残るリスクは常に伴います。
因果推論の視点から見る「RCT vs RWD」
因果推論の観点から言えば、RCTは「介入の割り付け」がランダムであるため、交絡を原理的に排除できる最強のデザインです。
一方、RWD研究は「割り付け」が臨床判断などに基づいているため、交絡が避けられません。
近年、このRWD研究の限界を克服し、なんとかRWDから因果関係に迫ろうとする疫学的な思考・設計のフレームワークとして「Target Trial Emulation (TTE)」という考え方が注目されています。

これは、「もし、このRWDの集団(実臨床の患者群)を対象として、理想的なRCTを実施したとしたら、どのような結果が得られるか?」をエミュレーション(模倣)する思考法・解析手法です。
TTEでは、「理想的なRCT(Target Trial)」を明確に定義するため、RWDデータを用いて以下の要素(プロトコル)を厳密に規定していきます。
このTTEという「設計のフレームワーク」を用いることで、従来のRWD研究(観察研究)で生じがちだった様々なバイアス(例:Immortal time biasなど)を避け、より内的妥当性の高い(=因果関係に迫れる)結果を得ようと試みるわけです。
具体例で見る:RCTとRWDの結果が違うとき
例えば、心房細動患者における脳梗塞二次予防に関するDOAC(例:アピキサバン)とワルファリンの比較を考えます。
- RCT(例:ARISTOTLE試験):アピキサバンはワルファリンに対し、脳卒中/全身性塞栓症を有意に抑制し、かつ大出血も有意に少なかった。
- RWD研究(一般的な傾向):実臨床のデータベースを用いた研究でも、RCTと同様の傾向(アピキサバンの優越性)が示されることが多いです。しかし、研究デザインや対象集団によっては、その差がRCTほど顕著でなくなったり、統計的有意差が消失したりすることもあります。
なぜ結果に差が出うるのか?
- 対象患者の違い:RCT(ARISTOTLE試験)の患者は、厳格な基準で選ばれ、アドヒアランス(服薬遵守)も良好です。一方、RWDには、RCTなら除外されるような超高齢者、多数の併存疾患を持つ患者、アドヒアランスが悪い患者、転倒リスクが極めて高い患者なども含まれます。
- 残余交絡:RWD研究では、統計的手法で患者背景を調整しますが、「転倒しやすさ」「栄養状態」「介護者の有無」といった、データベース上は記録されていない要因(未測定の交絡因子)が、ワルファリンとDOACの使い分けや予後に影響している可能性があります。
RCTの結果は「内的妥当性が高い」ですが、RWD研究の結果は「外的妥当性(実臨床への一般化可能性)が高い」情報を含んでいると言えます。
まとめ:「どちらが正しい」ではなく「何を知る研究か」
RCTとRWDは、対立するものではなく、相互に補完し合う関係にあります(1)。
- RCTは、「その介入に因果関係(Efficacy)があるか」を最も厳密に問うデザインです。
- RWD研究は、「その因果関係が、実臨床(Effectiveness)でどの程度再現されるか」を見るデザインです。
私たち臨床医は、「RCTの結果だから絶対的に正しい」「RWD研究(観察研究)だから信じない」といった二元論に陥るべきではありません。
両者のデザイン上の強みと限界を深く理解し、「この研究結果から何が言えて、何が言えないのか」「目の前の患者さんに、どちらの知見をどう適用すべきか」を批判的に吟味する(=両目を開いて見る)姿勢こそが、EBM(Evidence-Based Medicine)の実践において最も重要です。
💡 実務的Tips
RWDで“RCTと同じ結論”が出た時ほど、Time zeroの整合やアドヒアランス/治療切替の扱いをTTEの観点で確認するー「一致の理由」を設計面で言語化できると、読者の信頼が段違いに上がります。
Take Home Message
- RCTはランダム化により内的妥当性(因果関係の証明)に優れるが、外的妥当性(一般化可能性)に限界がある場合がある。
- RWD研究は外的妥当性(実臨床への近さ)に優れるが、交絡により内的妥当性が低くなりやすく、因果推論には統計的工夫が必須である。
- 両者は対立せず補完し合う関係にあり、臨床医は両者の特性を理解して論文を批判的に吟味する必要がある。
参考文献
- Frieden TR. Evidence for Health Decision Making – Beyond Randomized, Controlled Trials. N Engl J Med. 2017;377(5):465-475. doi:10.1056/NEJMra1614394
PUBMED: https://pubmed.ncbi.nlm.nih.gov/28767357/ - Hernán MA, Robins JM. Using Big Data to Emulate a Target Trial When a Randomized Trial Is Not Available. Am J Epidemiol. 2016;183(8):758-764. doi:10.1093/aje/kwv254
PUBMED: https://pubmed.ncbi.nlm.nih.gov/26994063/ - Hubbard RA, Gatsonis CA, Hogan JW, Hunter DJ, Normand ST, Troxel AB. “Target Trial Emulation” for Observational Studies – Potential and Pitfalls. N Engl J Med. 2024;391(21):1975-1977. doi:10.1056/NEJMp2407586
PUBMED: https://pubmed.ncbi.nlm.nih.gov/39588897/ - Granger CB, Alexander JH, McMurray JJ, et al; ARISTOTLE Committees and Investigators. Apixaban versus warfarin in patients with atrial fibrillation. N Engl J Med. 2011 Sep 15;365(11):981-92.Granger CB, Alexander JH, McMurray JJ, et al. Apixaban versus warfarin in patients with atrial fibrillation. N Engl J Med. 2011;365(11):981-992. doi:10.1056/NEJMoa1107039
PUBMED: https://pubmed.ncbi.nlm.nih.gov/21870978/
