臨床試験における欠測データの 取り扱いと解析方法

Missing Data
1
臨床試験における欠測データの
取り扱いと解析方法
野間 久史
統計数理研究所
2014年7月15日
E-mail: [email protected]
URL: http://www.ism.ac.jp/~noma/
ほとんどすべての臨床研究・疫学研究におい
て、なんらかのデータの欠測は生じる
 生存時間解析の打ち切りも欠測の一種
 臨床試験における欠測はさまざまな原因に
よって起こる
 追跡不能(loss to follow-up),治療の中
止,臨床検査の検体不良,etc.

2
Lurasidone 第2相試験
第2相試験の結果
Lurasidone(商品名:Latuda)
 統合失調症の治療薬
 米国FDAにおいて、2010年10月承認
 第2相試験(D1050006):
 プラセボ(N=49),40mg(N=49),
120mg(N=47)投与群の3群比較の
ランダム化比較試験

3
脱落(Drop-out)による欠測
42⽇⽬までの脱落は70%近く発⽣!
日本製薬工業協会 (2014)
日本製薬工業協会 (2014)
4
脱落を起こす前のアウトカム
5
脱落前にスコアが⾼くなる症例がほとんど
日本製薬工業協会 (2014)
6
1
欠測による問題①:バイアス
欠測による問題②:検出力
ランダム化比較試験では、治療をランダムに
割り付けることにより、群間の治療効果をバ
イアスなく比較することができる
 欠測のパターンが群間で異なる場合、群間
の治療効果の比較にバイアスが入る
 欠測パターンが異なると、群間でアウトカム
の差が見られたとしても、それは、治療効果
の差だけではなく、欠測パターンの違いで起
こったものかもしれない

7
FDAの欠測データガイドライン




NAS Report: Recommendations
米国NASから、ガイドライン作成のための
調査報告が行われた
欧州の規制当局(EMA)では、米国よりも
だいぶ前にガイドラインを出している(内
容にはいくらかの相違がある)

解析手法だけではなく、欠測は、深刻なバ
イアスの原因となるため、あらかじめ最小
限に抑えるための防止策と適切に取り扱
うための包括的なRationaleが重要
9
NAS Report: Recommendations

8

米国の規制当局(FDA)が医薬品開発の
臨床試験での欠測データの取り扱いにつ
いてのガイドラインを作ることになった
http://www.nap.edu/catalog.php?record_id=12955

モデルの中で少なくとも1つの変数が欠測し
てしまうと、そもそも尤度関数は書けない
 すべての統計解析手法は、欠測がまったくな
い(=完全データ)ことを前提としている
 そうでないにしても、欠測しているデータの
情報は欠落していることに
 統計的な評価における情報量の損失が起こ
り、検出力が小さくなる(治療効果の差を検
出しにくくなる)

1. プロトコルには試験の目的,主要評価項目とその他の評
価項目,評価項目の測定方法,治療効果のEstimandsを明
確に定義するべきである。これらの測定はすべての試験の
参加者にとって意味のあるもので、また最低限の仮定で推
定可能であるべきである。後者に関して、プロトコルは欠測
データの潜在的な影響とその扱いについて記載すべきであ
る。
6. スポンサーは起こり得る欠測データの問題を明確に予測
するべきである。特にプロトコルに欠測データに関する章を
設け、欠測データの影響をモニターし、制限するために試験
デザイン・実施の段階で取られるステップについて記載すべ
きである。
日本製薬工業協会 (2014)
10
NAS Reportの要約版
8. プロトコルでは欠測データを最小化することの重要性を明
確にするべきである。特に、過去の試験結果に基づき、主要
な結果について完全なデータが少なくともどの程度あればよ
いのか、設定しておくべきである。
9. 欠測データを取り扱う統計手法について、スポンサーは
欠測データの取り扱いをプロトコルに記載すべきである。ま
た、設定した仮定は臨床家にも理解できるようにする必要が
ある。
日本製薬工業協会 (2014)
11
12
2
解析での対処方法
欠測に対する4つの調整方法
臨床試験において、すべての欠測データを統
一的に扱う方法は存在しない
 個々の試験のデザイン,測定値の特性など
に応じて,必要な仮定・モデルは違う
 モデリングや推測の方法も非常に広範に及
び、いかなる状況においても万能な方法は存
在しない

Complete-Case Analysis
単純な補完方法(Single Imputation)
 重みつき推定方程式(Weighted Estimating
Equation; WEE)による方法
 モデルに基づく方法(最尤法,ベイズ推測,
多重代入法など)


Little et al. (2012)
Little et al. (2012)
13
14
Complete-Case Analysis
単純な補完方法
主要なモデルにおいて、少なくとも1つの変数
が欠測している対象者を、単純に、解析対象
集団から除外する
 残った対象者は、すべての変数が測定され
ているので、通常の完全データに対する解析
手法を適用することができる

欠測値に対して、適当な単一の値を代入す
る補完方法(Single Imputation)
 Last Observation Carried Forward (LOCF)
 脱落を起こした時点での値を、単純に補完
値として利用する単一補完法
 日本で行われる治験でも、LOCFは多くの試
験で用いられてきた

15
16
LOCF
WEE
完全データが観測された対象者についての
重みつき推定方程式
 「観測される確率(欠測を起こさない確率)の
逆数」で重みつけた推定関数に基づく推定量
は一致性を持つ

O’Neill and Temple (2012)
最終観測時点での測定値から、アウトカムが不変であると仮定。
17
18
3
Inverse Probability Weighting
個々人のもつ情報量は?
全集団
全集団
観測データ
完全ケース
観測データ
×1
完全ケース
100%
100%
欠測を起こしやすいケース
欠測を起こしやすいケース
5%
推定量への貢献度を調整すれば?
×20
5%
個々人の重み(寄与率)を調整することで
20
欠測メカニズムによって生じるバイアスを補正
19
IPW法
モデルに基づく方法①
「真の観測確率」に基づく重みよりも、全員に
観測されているベースライン共変量などを利
用して、2項回帰モデルなどで「推定した観測
確率」を重みに用いたほうが推定精度は必
ず高くなる
 欠測を起こした対象者の情報も組み込んで、
検出力をUPできる!!
 cf.) Augmented IPW法という方法もある

最尤法(Maximum Likelihood; ML)
 欠測を起こした変数の分布にパラメトリックな
確率分布モデルを仮定する
 欠測変数の分布に対して、尤度関数を積分
 観測データに関する周辺尤度が得られる
 Directに周辺尤度を最大化(Direct ML)
 EMアルゴリズム

21
22
モデルに基づく方法②
モデルに基づく方法③
ベイズ流の方法(Bayesian Methods)
欠測を起こした変数の分布にパラメトリックな
確率分布モデルを仮定する(+事前分布)
 MCMCを使えば、関心のあるパラメータの
周辺事後分布を簡単に求められる
 欠測変数の分布が正しければ、妥当な事後
推測に
 Data Augmentation法など
多重補完法(Multiple Imputation; MI)
欠測値に対して複数の補完値(M組)を生成
 補完値の生成方法はいろいろ
 M組の擬似的な完全データに対して、推定値
とSEを求め、Rubin’s Ruleで統合

,
,
1,2, … ,




23
24
4
Rubin’s Rule

補足:単一補完法
M 回の推定結果を併合
ˆMI 
ˆ ( ˆ )  1
V
MI
M
M
1
M
 Vˆ(ˆ )  (1  M
h 1
 ˆ
h 1
1
h
完全データの
推定量の分散
)
すべての欠測値に対して、100%の確率で
「本当は観測されるはずだった値」を予測で
きれば、完全データを再現できる
 しかし、100%で予測できることはまずありえ
ないので「補完値の不確実性」が生じる
 補完値の不確実性は、最終解析の推定値の
不確実性(分散)にも影響するはず

M
h

M
h 1
( ˆh  ˆMI )( ˆh  ˆMI )T
M 1
欠測値の予測の不確実性によって生じる
付加的なばらつきを表す項
Rubin (1987)
25
26
補足:単一補完法

MIの分散公式
ˆ ( ˆ )  1
V
MI
M
 Vˆ(ˆ )  (1  M
h
完全データの
推定量の分散
MCAR (Missing Completely At Random)
 MAR (Missing At Random)
 MNAR (Missing Not At Random)

h1 ( ˆh  ˆMI )(ˆh  ˆMI )T
M
M
h 1
欠測データに対する3つのシナリオ
1
)
M 1
欠測値の予測の不確実性によって生じる
付加的なばらつきを表す項
Little et al. (2012)
単一補完法の分散の推定量は、第1項しか
考慮していない(過小推定のバイアス)
 対応する検定のP値,信頼区間も誤り

27
28
MCAR
Complete Case Analysis
すべての欠測は、完全にランダムに起こる
(いかなる変数ともまったく無関係)
 Complete Case Analysisで妥当な結論
 解析対象集団から、ランダムに一定の割
合の対象者を除外することと同じ
 ただし、検出力の低下は起こる

29
MCARは、極めてあり得ない仮定である
臨床試験で、脱落や追跡不能が起こる場合、
「何の理由もなくランダムに」という都合のよ
い仮定はまずあり得ない
 脱落を起こす患者は、一般的に、脱落を起こ
すなんらかの理由がある(症状の悪化,副作
用など)
 Complete Case Analysisは推奨しない


Little et al. (2012) 30
5
MAR
Lurasidoneの第2相試験
欠測のメカニズムは、観測されている変数で
すべて完全に説明することができる
 WEEやモデルに基づく推定方法(ML, Bayes,
MIなど)で、妥当な推測が可能
 単一代入法(LOCFなど)も仮定が正しければ
妥当な(もしくは保守的な)評価が可能??
 単一代入法を利用する上では、十分な
科学的根拠の説明が必要!!

脱落前に症状が悪化している!!
日本製薬工業協会 (2014)
31
32
LOCF
単一補完法
脱落を起こした対象者のアウトカムは、最後
まで脱落時点から不変である
 科学的根拠はあるか?(提示できるか?)
 なければ、LOCFによる科学的妥当性は担
保されない
 LOCFを主要な解析に利用する場合は、その
科学的根拠を説明できなくてはいけない

33
すべての単一代入法は「欠測データを100%
確実に予測できる」のでなければ、分散を過
小推定する
 得られるP値も誤り(Type-1 Error Rateを名
目水準以下に保持できない)
 得られる信頼区間も誤り(過度に狭い)
 主要な評価に用いるのであれば、この精度
の問題も含め、科学的な根拠を説明できなく
てはいけない
Little et al. (2012)

34
MNAR
Favored Methods
欠測のメカニズムは、観測されている変数で
は完全に説明することができない
 観測されていない変数にも影響される
 感度解析をするしかない!!
 Pattern-Mixture Models
 Selection Models
 MNARのもとでの解析手法のスタンダード
の確立は、まだこれからの課題でもある

35
WEEとモデルに基づく方法を推奨
欠測を起こした対象者において、最終解析に
組み込めない補助的な情報(ベースライン共
変量など)を解析に取り込み、推定精度の改
善などに役立てることができる
 欠測データの不確実性を反映したP値や信頼
区間を与えることができる(単一補完法とは
異なる)


Little et al. (2012)
36
6
Sensitivity Analysis
NAS Report: Recommendations
MARを仮定した方法にも、欠測メカニズムや
欠測変数の分布を規定する付加的な仮定を
置く必要がある
 これらは、観測されたデータからはけっして
検証することができない仮定である
 必ず感度解析を行うべき(パターン混合モデ
ルなど)




Little et al. (2012)
10. LOCFやBOCFのような単一補完法は、それらの背景にある仮定が科
学的に正当化されない場合、主要な方法として用いられるべきではない。
14.欠測データが起こることが想定される場合、欠測のメカニズムと欠
測データの分布に関連すると考えられる補助的な情報(共変量)を測定
するべきである。この情報は、MARを仮定する主要な解析の推定精度を
改善することが期待でき、また、欠測データの影響を評価する感度解析
を行う上でも必要になるかもしれない。加えて、研究者は、途中で試験か
ら脱落した対象者の全員もしくは一部(ランダムサンプル)をFollowして、
脱落を起こした理由を調べたり、また可能であれば、その後のアウトカム
も測定するべきである。
15. 感度解析は、臨床試験からの主要な報告の一部として位置づけら
れるべきである。欠測メカニズムに関する仮定の感度(頑健性)を調べる
ことは、その報告において必須のものとされるべきである。
37
38
Lurasidone 第2相試験
主要な解析の結果
試験治療の中止割合が70%近くもあり、他の
統合失調症の試験に比べても非常に高く、
審査官の間でも議論を呼んだ
 事前の解析計画では、LOCF-ANCOVAでの
解析が予定されていたが、42日目の測定値
が得られている対象者はわずか3割であり、
それ以外の対象者は、全員、脱落時点での
測定値を強制的に代入することに

日本製薬工業協会 (2014)
39
40
FDA審査官による感度解析
審査官のコメント

審査官のコメント:他の統合失調症の試験と比べて,本試験では
中止割合が約70%と非常に高いが,このことにより試験結果が解
釈不能になるわけではないと考える.中止の内容は,少なくとも予
想された傾向(全中止はプラセボ投与群で最も多く,効果不十分
による中止もプラセボ投与群で最も多い)であった.加えて,
MMRMとObserved Case(OC)の解析結果はLOCFの結果を(少な
くとも数値としては)支持するものであり,Day3以降のいずれの時
点においても本剤ではプラセボよりも改善がみられた.副次評価
項目(CGI-S)の結果でも,本剤ではプラセボよりも大きく改善した.
以上より,中止割合が高いことは問題ではあるものの,本試験は
SM-13496(Lurasidone)について肯定的な試験と考える.
日本製薬工業協会 (2014)
日本製薬工業協会 (2014) 41
42
7
まとめ
参考文献
FDAのガイダンスによって、今後数年で、臨
床試験における欠測データの取り扱いや解
析方法のスタンダードが確立され、普及して
いくと予想される(つい最近のこと!)
 アカデミアでの医師主導臨床研究や疫学な
どの調査系の研究もそうなる見込みが高い
 周辺諸分野にも、欠測の扱いに関する議論
が波及していく可能性は高いと思われる

43




Little, R. J., D’Agostino, R., Cohen, M. L. (2012). The prevention and
treatment of missing data in clinical trials. New England Journal of Medicine
367: 1355-1360.
O’Neill, R. T., Temple, R. (2012). The prevention and treatment of missing
data in clinical trials: an FDA perspective on the importance of dealing with
it. Clinical Pharmacology & Therapeutics 91: 550-554.
Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. New
York: John Wiley.
日本製薬工業協会医薬品評価委員会データサイエンス部会.(2014).臨床試験
の欠測データの取り扱いに関する最近の展開と今後の課題について―NASレ
ポート,EMAガイドライン,estimandと解析方法の概説.
http://jpma.cstokyo.com/information/evaluation/allotment/missing_data.ht
ml
44
8