2025.11.07 2026.02.22

ランダム化比較試験とリアルワールドエビデンスの違いとは？〜内的妥当性と外的妥当性から読み解く臨床研究デザイン〜

Neurolog管理人

本記事では、臨床研究の両輪とも言えるRCTとRWEについて深掘りします。

記事の目次

なぜ RCT vs RWE を理解する必要があるのか
定義と目的の違い
それぞれの強みと限界
- 🔹 RCTの強みと限界
- 🔹 RWD研究の強みと限界
因果推論の視点から見る RCT vs RWE
具体例で見る：RCTとRWDの結果が違うとき
まとめ：どちらが正しいではなく何を知る研究か
- 💡 実務的Tips
Take Home Message
参考文献

なぜ RCT vs RWE を理解する必要があるのか

先生方は日々の診療で、この患者さんには“あのRCTの結果をそのまま当てはめて良いのだろうか？”と悩んだ経験はありませんか？

例えば、

大規模RCTでは有効性が示された薬剤が、目の前の超高齢・多剤併用の患者さんにも同じように効くのか？
ある薬剤に関するRCTの結果と、保険データベースなどを使ったリアルワールドデータ研究（観察研究）の結果が異なっているが、どちらを重視すべきか？

といった疑問です。

脳神経内科領域でも、DOAC内服中の脳梗塞再発率や、CGRP関連抗体薬と既存の片頭痛予防薬の比較など、RCTとRWD研究の結果が必ずしも一致しないケースは散見されます。

これらの疑問に答えるため、臨床医は両者の違いと適切な使い分けを理解しておく必要があります。今回は、この2つの研究デザインを妥当性と因果推論の観点から徹底的に比較・整理します。

定義と目的の違い

まず、基本的な定義と目的の違いを整理しましょう。

比較項目	RCT	RWE
日本語訳	ランダム化比較試験	リアルワールドエビデンス
主な目的	介入のEfficacy（有効性）の検証	介入のEffectiveness （実用性・効果）の評価
デザイン	介入研究（実験）	観察研究（非介入）
データの質	高い（研究用に収集）	玉石混交（日常診療のデータ）
妥当性	内的妥当性 ◎、外的妥当性 △	内的妥当性 △、外的妥当性 ◎
交絡の制御	ランダム化により原理的に制御	統計的調整（傾向スコアマッチングやIPTWなど）に依存
コスト／期間	高い／長い	比較的安価／迅速
臨床現場との距離	遠い（厳格な基準で選ばれた患者）	近い（日常診療の多様な患者群）

ここで重要なのが、Efficacy（有効性）とEffectiveness（実用性・効果）の違いです。

Efficacy: “理想的な環境下で（＝厳格な基準を満たした患者に、決められた用法用量を守って投与した場合）、その介入はどの程度の効果があるか？”を問うものです。
Effectiveness: “実臨床の多様な環境下で（＝様々な背景の患者に、アドヒアランスもばらつくなかで）、その介入はどの程度の効果があるか？”を問うものです。

RCTはEfficacyの検証に、RWD研究はEffectivenessの評価に、それぞれ適したデザインと言えます。

それぞれの強みと限界

🔹 RCTの強みと限界

強み

RCTの最大の強みは、ランダム化にあります。

これにより、介入群（例：新薬群）と対照群（例：プラセボ群）に分ける際、私たちが測定できるものだけでなく、測定できないあらゆる背景因子（＝交絡因子）の分布が、理論上均等になります。

その結果、2群間で生じた結果（例：脳卒中再発率）の差は、介入（新薬）によるものと因果関係を強く主張できます。これが内的妥当性が高いと言われる所以です。

専門的にいうと、群間で交換可能性（＝Exchangeablity）が担保されているといいます。

限界

外的妥当性（≒一般化可能性）の問題: 参加する患者さんは、厳格な選択基準・除外基準によってスクリーニングされています（例：85歳以上は除外、腎機能障害（eGFR < 30）は除外、など）。
そのため、RCTの結果は、その選ばれた患者集団に限定され、実臨床で出会う多様な患者さん（超高齢、多併存疾患など）にそのまま一般化できるとは限りません。
これを外的妥当性（≒一般化可能性）が低い（場合がある）と表現します。

倫理的な制約: そもそもRCTを実施することが倫理的に困難な場合があります。例えば、すでに効果が証明されている標準治療（例：脳梗塞に対する血栓回収療法）がある場合に、それを実施しないプラセボ群や無治療群を置くことは倫理的に許容されません。
また、喫煙と肺がんの関連を調べるために、ランダムに喫煙を割り付ける（曝露させる）といった、明らかに健康被害が疑われる介入を行うことも不可能です。
このような場合、私たちはRWD研究（観察研究）から因果関係を慎重に推論するしかありません。

コストと時間: 大規模なRCTの実施には、莫大な費用と非常に長い時間がかかります。

🔹 RWD研究の強みと限界

強み

RWD研究（保険請求データ、DPCデータ、電子カルテデータなどを用いた観察研究）の強みは、その外的妥当性にあります。

データソースが日常診療そのものであるため、RCTでは除外されがちな患者（高齢者、併存疾患が多い人、多剤併用者）も含まれており、実臨床における薬剤の安全性や効果（Effectiveness）を評価するのに適しています。
また、大規模データを用いれば、RCTでは検出困難な稀な有害事象の解析も可能です。

限界

RWD研究の最大の弱点は、交絡です。

RCTと違い、介入（例：薬剤Aの処方）はランダムに決まるのではなく、医師の臨床判断に基づいて決まります。

例えば、重症な患者にはより効果が期待される新薬Aを処方し、軽症な患者には従来薬Bを処方するという判断がなされた場合、単純にA群とB群の予後を比較しても、A群の予後が悪く見えるかもしれません。
これは薬剤Aの効果ではなく、元々の重症度の違い（交絡）が結果に影響しているためです。
これを特に適応による交絡と呼びます。

RWD研究で因果関係に迫るためには、この交絡を統計的に制御する工夫（例：傾向スコアマッチング、逆確率重み付け（IPTW）など）が不可欠ですが、それでも測定されていない交絡（残余交絡）が残るリスクは常に伴います。

詳しくは以下の記事で解説しているので、ご覧ください👇️

因果推論の視点から見る RCT vs RWE

因果推論の観点から言えば、RCTは介入の割り付けがランダムであるため、交絡を原理的に排除できる最強のデザインです。

一方、RWD研究は割り付けが臨床判断などに基づいているため、交絡が避けられません。

近年、このRWD研究の限界を克服し、なんとかRWDから因果関係に迫ろうとする疫学的な思考・設計のフレームワークとしてTarget Trial Emulation (TTE)という考え方が注目されています。

これは、もしこのRWDの集団（実臨床の患者群）を対象として、理想的なRCTを実施したとしたら、どのような結果が得られるか？を模倣する思考法・解析手法です。

TTEでは、理想的なRCT（＝Target Trial）を明確に定義するため、RWDデータを用いてプロトコルを厳密に規定していきます。

このTTEという設計のフレームワークを用いることで、従来のRWD研究（観察研究）で生じがちだった様々なバイアス（例：不死時間バイアスなど）を避け、より内的妥当性の高い（＝因果関係に迫れる）結果を得ようと試みるわけです。

詳しくは、以下の記事で解説しているので、ご覧ください👇️

具体例で見る：RCTとRWDの結果が違うとき

例えば、心房細動患者における脳梗塞二次予防に関するDOAC（例：アピキサバン）とワルファリンの比較を考えます。

RCT（例：ARISTOTLE試験）:アピキサバンはワルファリンに対し、脳卒中/全身性塞栓症を有意に抑制し、かつ大出血も有意に少なかった。
RWD研究（一般的な傾向）:実臨床のデータベースを用いた研究でも、RCTと同様の傾向（アピキサバンの優越性）が示されることが多いです。しかし、研究デザインや対象集団によっては、その差がRCTほど顕著でなくなったり、統計的有意差が消失したりすることもあります。

なぜ結果に差が出うるのか？

対象患者の違い:RCT（ARISTOTLE試験）の患者は厳格な基準で選ばれ、服薬アドヒアランスも良好です。一方、RWDには、RCTなら除外されるような超高齢者、多数の併存疾患を持つ患者、アドヒアランスが悪い患者、転倒リスクが極めて高い患者なども含まれます。
残余交絡:RWD研究では、統計的手法で患者背景を調整しますが、「転倒しやすさ」「栄養状態」「介護者の有無」といった、データベース上は記録されていない要因（未測定の交絡因子）が、ワルファリンとDOACの使い分けや予後に影響している可能性があります。

RCTの結果は内的妥当性が高いですが、RWD研究の結果は外的妥当性（実臨床への一般化可能性）が高い情報を含んでいると言えます。

まとめ：どちらが正しいではなく何を知る研究か

RCTとRWEは、対立するものではなく、相互に補完し合う関係にあります。

RCTは、その介入に因果関係（Efficacy）があるかを最も厳密に問うデザインです。
RWEは、その因果関係が、実臨床（Effectiveness）でどの程度再現されるかを見るデザインです。

RCTの結果だから絶対的に正しい、RWD研究（観察研究）だから信じないといった二元論に陥るべきではありません。

両者のデザイン上の強みと限界を深く理解し、この研究結果から何が言えて、何が言えないのか、目の前の患者さんに、どちらの知見をどう適用すべきか、を批判的に吟味する姿勢こそが、EBMの実践において最も重要です。

💡 実務的Tips

RWDで“RCTと同じ結論”が出た時ほど、起点（＝Time zero）の整合やアドヒアランス/治療切替の扱いをTTEの観点で確認する。

一致した理由を設計面で言語化できると、読者の信頼が段違いに上がります。

Take Home Message

RCTはランダム化により内的妥当性に優れるが、外的妥当性に限界がある場合がある。
RWD研究は外的妥当性に優れるが、交絡により内的妥当性が低くなりやすく、因果推論には統計的工夫が必須である。
両者は対立せず補完し合う関係にあり、臨床医は両者の特性を理解して論文を批判的に吟味する必要がある。

参考文献

Frieden TR. Evidence for Health Decision Making – Beyond Randomized, Controlled Trials. N Engl J Med. 2017;377(5):465-475. doi:10.1056/NEJMra1614394
PUBMED: https://pubmed.ncbi.nlm.nih.gov/28767357/
Hernán MA, Robins JM. Using Big Data to Emulate a Target Trial When a Randomized Trial Is Not Available. Am J Epidemiol. 2016;183(8):758-764. doi:10.1093/aje/kwv254
PUBMED: https://pubmed.ncbi.nlm.nih.gov/26994063/
Hubbard RA, Gatsonis CA, Hogan JW, Hunter DJ, Normand ST, Troxel AB. “Target Trial Emulation” for Observational Studies – Potential and Pitfalls. N Engl J Med. 2024;391(21):1975-1977. doi:10.1056/NEJMp2407586
PUBMED: https://pubmed.ncbi.nlm.nih.gov/39588897/
Granger CB, Alexander JH, McMurray JJ, et al; ARISTOTLE Committees and Investigators. Apixaban versus warfarin in patients with atrial fibrillation. N Engl J Med. 2011 Sep 15;365(11):981-92.Granger CB, Alexander JH, McMurray JJ, et al. Apixaban versus warfarin in patients with atrial fibrillation. N Engl J Med. 2011;365(11):981-992. doi:10.1056/NEJMoa1107039
PUBMED: https://pubmed.ncbi.nlm.nih.gov/21870978/