観察研究の罠:「適応による交絡(Confounding by Indication)」をDMVO脳梗塞のEVT研究で学ぶ
はじめに
本記事では、観察研究における交絡の典型例「適応による交絡(Confounding by Indication)」を扱います。
現場で前方循環の中等度遠位血管閉塞 (DMVO; Distal Medium Vessel Occlusion) の患者さんを前に、「血管内治療 (EVT) を行うべきか、内科治療 (MM) でいくべきか」と悩む場面は少なくありません。
LVO (Large Vessel Occlusion) と異なり、DMVO領域はまだ「臨床的にcontroversial(意見の一致が得られていない状態)」が続いています。そんな中、DMVOに対するEVTの有効性を検証した「観察研究」の結果を、私たちはどう解釈すればよいでしょうか。
今回は、このDMVOとEVTを扱った具体的な論文を題材に、観察研究の“罠”であり、最も重要な概念の一つである「適応による交絡」について学びます。
観察研究の“罠”:「適応による交絡」とは
私たちが観察研究(コホート研究やレジストリ研究など)を読むとき、常に警戒すべきバイアスがあります。その筆頭が「交絡 (Confounding)」です。
中でも特に厄介なのが「適応による交絡 (Confounding by Indication)」です。
【用語解説】適応による交絡 (Confounding by Indication)
治療(介入)を決定する理由(=適応、例えば「症状が重いこと」)自体が、結果(=予後)とも強く関連しているために生じるバイアス(交絡)のこと。
- (例)重症な患者ほど、積極的な治療(例:新薬、手術)が“適応”として選ばれやすい。
- しかし、その患者群は元々が重症であるため、治療の有無にかかわらず予後が悪い可能性が高い。
この2群を単純比較すると、積極的治療群の方が予後が悪く見え、あたかも「その治療は効果がない」あるいは「有害である」かのような、誤った結論が導かれてしまう可能性があります。
題材論文のPICOとベースライン(NIHSS差に注目)
この「適応による交絡」を体感するのに、うってつけの論文がこちらの多施設共同後ろ向きコホート研究 (Saber H, et al. 2022)です。
- P (Patients; 対象患者): 前方循環(M2遠位, M3, ACAなど)のDMVOによる急性期脳梗塞患者 計286名
- E (Exposure; 介入): 血管内治療 (EVT)群 (156名)
- C (Comparator; 比較): 内科治療 (MM)群 (130名)
- O (Outcome; 転帰): 90日後の機能的転帰 (mRS 0-2: 機能的自立、mRS 0-1: 症状なし〜軽微)
まず未調整:EVT群の方が重症に見える理由
この研究のTable 1(ベースラインの患者背景)を見て、治療の「適応」に注目してみましょう。最大のポイントは、脳卒中の重症度を示すNIHSS(米国国立衛生研究所脳卒中スケール)です。
- EVT群: 入院時NIHSS中央値 13.5 (IQR 8.5–18.5)
- MM群: 入院時NIHSS中央値 7.0 (IQR 4–14)
この差は決定的です。
EVT群には、内科治療群の約2倍も重症な患者が集積しています。
これはまさに臨床現場の意思決定を反映しています。軽症(NIHSS 7)であれば「まずは内科治療で様子を見よう」となりやすい一方、重症(NIHSS 13.5)であれば「なんとかしなくては」と、より積極的な治療(EVT)が“適応”と判断されやすい。
もし、この「重症度の差」を無視して2群を単純比較したら、どうなるでしょうか?
当然、元々重症なEVT群の見かけ上の予後は悪くなります。これが「適応による交絡」です。
IPTWとは何か
この強力な交絡を統計的に調整するため、著者らは傾向スコア (Propensity Score) を用いた IPTW (Inverse Probability of Treatment Weighting; 逆確率重み付け) という手法を使っています。
これは、「各患者の背景因子(年齢、NIHSSなど)から、EVTが選択される確率(=傾向スコア)」を計算し、その確率の逆数で患者データに「重み」をつけ、「あたかもランダム化比較試験 (RCT) を行ったかのように、両群の背景因子を揃えた」仮想的な集団を作り出す統計手法です。
この調整がうまくいったかを確認するツールが、論文の付録にあるLove Plotです。調整前はバラバラだった両群の背景因子が、調整後はほぼゼロ(差がない状態)に集まっていることが視覚的にわかります。
結果:
mRS 0–2は差なし、0–1はわずかに有利
安全性は同程度
では、IPTWで統計的に「重症度の差」を調整した後の結果はどうだったでしょうか。
- 90日後 mRS 0–2 (機能的自立):
- 調整後オッズ比 (aOR) 1.36 (95% CI, 0.84–2.19), p = 0.20
→ 有意差なし
- 調整後オッズ比 (aOR) 1.36 (95% CI, 0.84–2.19), p = 0.20
- 90日後 mRS 0–1 (症状なし〜軽微):
- 調整後オッズ比 (aOR) 1.71 (95% CI, 1.02–2.87), p = 0.04
→ EVT群でわずかに良好
- 調整後オッズ比 (aOR) 1.71 (95% CI, 1.02–2.87), p = 0.04
- 安全性 (症候性頭蓋内出血, sICH) (重み付け後):
- EVT群 4.0% vs MM群 3.1%, p = 0.90
→ 同程度
- EVT群 4.0% vs MM群 3.1%, p = 0.90
非常に「観察研究らしい」結果です。mRS 0-2では有意差が出ませんでしたが、mRS 0-1ではわずかにEVT群に有利な結果となりました。「EVTは有効」とも「無効」とも言い切れない、解釈が揺れる結果です。
DUSK研究との比較:なぜ結論が揺れるのか
この「揺れる」結果をどう解釈すべきでしょうか。
ここで補助線として、同じくDMVOに対するEVT vs MMをIPTWで解析した、別の多施設観察研究「DUSK研究」(Mohammaden M, et al. Stroke 2024) を見てみましょう。
- DUSK研究の結果: IPTWでの調整後、90日後のmRS(mRSシフト、mRS 0-2、mRS 0-1のいずれも)で、EVT群とMM群に有意差は示されなかった。
Saber研究では「mRS 0-1は僅かに有利かも?」、DUSK研究では「差はなさそう」。このように、観察研究は研究の対象集団や調整方法によって結論が揺れることがよくあります。
なぜなら、IPTWは「測定された」因子(年齢、NIHSSなど)しか調整できないからです。
カルテ情報だけでは拾いきれない「医師の裁量(なんとなく重症感が強い、など)」といった“測定されていない交絡因子”までは調整できません。
このように、統計的調整後にもなお残ってしまう交絡を「残余交絡 (Residual Confounding)」と呼びます。「適応による交絡」は特にこの残余交絡が残りやすく、非常に頑固なバイアスなのです。
どう読むか:target trialと今後のRCT
Saber研究やDUSK研究の結果をもって「DMVOに対するEVTは無効だ」と結論づけるのは早計です。
著者らが用いたIPTWは、観察データをできる限り「理想的なランダム化試験(Target Trial; 目標試験)」の条件に近づけようとする手法の一部です。
すなわち、「もしこの患者集団で完全にランダム化したRCTを行ったとしたら?」という問いを、観察研究の枠内で模倣(Emulation)しようとするアプローチです。
ただし、IPTWや傾向スコアを用いても、調整できるのはあくまで測定された交絡因子のみです。
臨床現場の「この患者はなんとなく重症そう」「家族が強く希望した」といった、データ化されていない医師の判断や社会的要因までは調整できません。
こうした“見えない交絡”が残ることを、残余交絡 (Residual Confounding) と呼びます。
観察研究では、どんなに精緻な解析を行っても、この残余交絡を完全に消し去ることはできません。
したがって、Target Trialの思考法を持ちながらも、観察研究の結果はあくまで「仮説生成」に位置づけ、最終的な結論は、交絡を原理的に排除できるランダム化比較試験 (RCT) の結果で確認する必要があります。
Take Home Message
- 観察研究で「治療A vs 治療B」を読む際は、まず「適応による交絡」を疑い、両群のベースライン(特に重症度)を比較する。
- 重症例ほど使われる治療は、見かけ上「効果がない」あるいは「有害」に見えることがある。
- 傾向スコア(IPTWなど)による調整は強力だが万能ではない。「残余交絡」の限界を常に意識する。
- 観察研究の結果は「仮説生成」と位置づけ、他の適切にデザインされた観察研究やRCTの結果と対比して解釈することが重要である。
よくある質問
Q1:適応による交絡はどう見抜く?
A1: まず、ベースラインの患者背景表(Table 1)で、重症度分布(本研究ではNIHSS)を確認します。治療群へ重症例が偏って集積していないかを見ます。さらに、IPTWなどが行われている場合、調整後のバランス(例:Love Plot)も併せて確認します。
Q2:この観察研究はEVT無効の証拠となる?
A2: いいえ。IPTW後、mRS 0–2は有意差なし、mRS 0–1はわずかに有利でした。これは「効果がないことの証明」ではありません。未測定の交絡(残余交絡)が結果に影響している可能性が否定できず、この研究の結論は「仮説生成」にとどまります。
Q3:他のエビデンスは?
A: DUSK研究(Stroke 2024)も同様の観察研究ですが、EVTと内科治療で有意差を示しませんでした。このように観察研究では結論が一致しないこともあり、臨床的Controvesyが続いています。最終的な結論は、現在進行中の複数のRCT(ランダム化比較試験)の結果によって示されることが期待されます。
参考文献
- Saber H, Desai SM, Haussen D, et al. Endovascular Therapy vs Medical Management for Patients With Acute Stroke With Medium Vessel Occlusion in the Anterior Circulation. JAMA Netw Open. 2022;5(10):e2238154. Published 2022 Oct 3. doi:10.1001/jamanetworkopen.2022.38154
PUBMED: https://pubmed.ncbi.nlm.nih.gov/36279137/ - Nogueira RG, Doheim MF, Al-Bayati AR, et al. Distal Medium Vessel Occlusion Strokes: Understanding the Present and Paving the Way for a Better Future. J Stroke. 2024;26(2):190-202. doi:10.5853/jos.2023.02649
PUBMED: https://pubmed.ncbi.nlm.nih.gov/38836268/ - Walker AM. Confounding by indication. Epidemiology. 1996;7(4):335-336.
PUBMED: https://pubmed.ncbi.nlm.nih.gov/8793355/ - Sendor R, Stürmer T. Core concepts in pharmacoepidemiology: Confounding by indication and the role of active comparators. Pharmacoepidemiol Drug Saf. 2022;31(3):261-269. doi:10.1002/pds.5407
PUBMED: https://pubmed.ncbi.nlm.nih.gov/35019190/
