計算創薬化学(3) 福西 快文 産業技術総合研究所・創薬分子プロファイリング研究センター (molprof) 薬の開発は、標的(タンパク質や遺伝子)を探し、100万種類~数百万種類 の薬剤を試し、構造活性相関を調べて、新規化合物をデザイン、合成し、 アッセイし、細胞で、動物で、と試していく。 最低、20-30人のチームで行う。 労力の50%は、周囲の人とのコミュニケーションに費やす。 たとえ間違っていても、その時点で正しそうな作業仮説を立てなければ、多く の人を説得できず、研究は進められない。 チーム内でのトラブルでは、感情的に理屈を述べるのではなく、理性的に感 情を伝えること。そういった人間関係もプロジェクトの成否を左右する。 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー ランダムな実験(HTSなど)では、ヒットは1万化合物に1化合物しかない。 ドッキング計算だけで、ヒット化合物を見つけるのは、ドッキングソフトの精度が 悪いので難しい。 いろいろな工夫をして、精度をカバーする。 計算スクリーニングでは、ヒット率(計算で予測して購入した化合物に対する、 実際に実験してヒットする化合物の割合)は1%~10%になる。 page2 1 ヒット化合物数(%ないし個数) データベースエンリッチメントカーブ:スクリーニングの評価方法 良い! 悪い 薬物スクリーニング ヒット率 購入化合物数(%ないし個数) 薬物スクリーニングで順位づけした 化合物を上位から何%購入したら、 本来データベースに含まれていた ヒット化合物を何%を見つけられたか を示す。 ヒット率=ヒット数/購入化合物数x100(%) grou p file_name c001 c001 mts mts_score SUPPLIER 0006240-01 1 -2.0627 Ambinter 0020411-01 3 -2.0674 Ambinter c001 0013395-01 4 -2.0611 Ambinter c001 0020413-01 5 -2.0663 Ambinter c001 0013566-01 6 -2.0617 Ambinter c001 0002135-01 7 -2.0683 Ambinter c001 0020501-01 8 -2.0617 Ambinter c001 0022138-01 9 -2.091 Ambinter c001 0022583-01 10 -2.0709 Ambinter c001 0021187-01 11 -2.0647 Ambinter c002 0103033-01 2 0.2702 Aronis page3 ROC(ロック)カーブ:Reciever Operating Characteristic Curve :スクリーニングの評価方法 少数のスコア上位化合物を購入する 場合、ヒットが多く、はずれは少ない ので、図左はしにプロットされる。 True positive (真陽性) 良い! 悪い Folase positive (擬陽性) ROCカーブは、縦横軸の定義が 各種あり、様々なものが存在する。 一般に、データベース中のヒット 化合物数が ヒット化合物数 << データベー ス化合物 購入化合物は、計算において「陽性」 であれば、データベースエンリッ (ヒット)と判定されたものである。 チメントカーブは、ほぼROCカー 購入化合物において、はずれ(擬陽 ブに一致する。 性)とヒット(true positive)をプロットし ROCは数学的だが、データベースエンリッ たものがROCカーブである。 チメントカーブは、横軸が経費そのものな ので、後者が便利な場合が多い。 page4 2 In silico薬物スクリーニングの標的依存性:タンパク質によって成績はバラバラ G.L.Warren, et al., J. Med. Chem. (2006) 49:5912-5931. page5 In silico薬物スクリーニングのソフトウェア依存性:ソフトによって成績はバラバラ G.L.Warren, et al., J. Med. Chem. (2006) 49:5912-5931. page6 3 薬物ドッキングスクリーニング ドッキング ≠ スクリーニング計算 計算機スクリーニングでは、通常、標的蛋白質に一番強く結合する化合物を選び出す。 しかし、実際には、「どの蛋白質にも強く結合する化合物」や、「どの蛋白質にも結合し ない化合物」が存在し、蛋白質と活性化合物のペアを見出すことは難しい。 しかし、1つの化合物に着目すると、一番結合しやすい蛋白質は、比較的容易に見出 される。 そこで、多数の蛋白質と化合物をドッキングさせ、各化合物に対して、どの蛋白質が結 合しやすいかを調べ、標的蛋白質に選択的に結合する化合物をヒット化合物として選 ぶ。 このようにすると、従来よりはるかに高いヒット率で活性化合物を選出できる。 既知医薬品探索の例では、計算予測上位1%の化合物を選ぶと、その中に既知の医 薬品が、ランダムスクリーニングに比較して平均40倍の確率で含まれる程度の結果を 得ることが出来た。 page7 標的蛋白質 Target protein 副作用 Side effect 化合物: compound 副作用 Side effect 副作用 Side effect 副作用 Side effect 4 In silico screening手法開発(Multiple target screening) 1つの化合物を、 標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし、 結合力を見積もる。 複数の蛋白質の中で、標的に一番強く結合する化合物を選ぶ 化合物ライブラリー 蛋白質ライブラリー ・・・・・・ 1 2 3 4 5 6 7 8 9 10 11 1 1 12 8 3 1 6 4 2 4 4 6 2 9 11 9 2 2 1 5 3 3 1 5 3 10 10 10 12 3 5 6 5 2 5 4 4 11 9 5 1 6 4 2 1 1 3 3 5 4 8 7 11 5 3 7 6 11 2 2 6 3 1 6 4 4 12 1 4 10 6 1 7 8 2 2 5 9 2 8 7 9 ヒット化合物 7 12 8 12 5 11 6 8 11 9 8 8 8 11 9 2 7 3 10 7 10 10 12 12 9 10 10 7 3 12 7 12 9 11 9 7 10 9 11 6 4 4 8 10 8 12 10 6 11 8 標的蛋白質 page9 In silico screeningの開発(Multiple target screening) 複数の蛋白質の中で、標的に一番強く結合する化合物 を選ぶ。 標的に効いて、副作用の少ない化合 物を予測できる。 ヒット率(活性化合物が予測によって見つかる 確率)は、世界標準ソフトの約10倍を達成 page10 5 Multiple target screeningの流れ 生のdocking scoreを用いたとき 100 (1)化合物の標的蛋白質へのふるいわけ Hit ration (%) 80 化合物ライブラリー 60 40 20 90 100 80 70 60 50 40 30 20 0 Number of compounds (%) MTS法 100 ポケット1 ポケット2 ポケット3 60 40 20 90 10 0 80 70 60 50 40 30 20 10 0 0 (2)ふるいわけられた化合物集合に対す る通常のin silicoスクリーニング 80 Hit ratio (%) 標的 10 0 sievgene Number of Compounds (%) Score=5.5 Score=3.2 Score=2.1 page11 既に得られた実験情報(どれがヒット化合物か)を利用して、 計算スクリーニングの精度を高める。 Docking score modification -application to in-silico screeningー ① 相互作用行列の情報でスコアの精度を向上させる。 ② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる。 この方法だと、ヒット率は、10~50%にまで高まる。 page12 6 スコアの修正 : Direct Score Modification (DSM)法 似たタンパク質は、似た化合物を結合するだろう。 たんぱく質aと化合物iのドッキングスコアは、蛋白質aに類似した蛋白質bと化 合物iのドッキングスコアに近い値をとる。ノイズを低減するには、類似蛋白質 と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで 可能になる。 s R R i b i s new a b a b b a b Sai: docking score of a-th protein and i-th compound (s i b R b a i (s i b s i b i Nc s i b i Nc i )( s i a s i a i Nc ) 2 ( sai i ) s i a i Nc )2 page13 スコアの修正 : Machine-learning Score Modification (MSM)法 既知活性化合物が存在する場合、ドッキングスコアを他のドッキングスコアの線形結合 で補正する。 機械学習法により、最適なデータベースエンリッチメントを与えるように、 ドッキングスコアの線形結合係数を調整する。 データベースエンリッチメントが最適化されるまで反復する s new i a s M i b 1 2 3 4 5 6 7 8 9 10 11 12 1 2 ○ ○ ○ ○ 3 ○ 4○ ○ 5 ○ 6 ○ ○ ○ ○ ○ ○ ○ 7 8 ○ ○ ○ 9 ○ 10 11 ○ ○ 12 ○ b a b 線形結合係数の調整 100 Number of hits (%) 80 ドッキングスコアの修正 60 original DSM ml-DSM 40 20 MTS法でスクリーニング 0 0 20 40 60 80 100 Number of compounds (%) データベースエンリッチメントの計算 page14 7 100 100 80 80 Number of hits (%) Number of hits (%) DSM/MSM法の結果 60 original DSM ml-DSM 40 20 60 40 original MDS ml-MDS 20 0 0 0 0 20 40 60 80 100 20 40 60 80 100 Number of compounds (%) Number of compounds (%) 180蛋白質使用 24蛋白質使用 DSMは100蛋白質以上使用すると有効。MSMは24蛋白質でも有効(MSM>DSM) 標的蛋白質近傍の類似蛋白質の数と DSM法でのデータベースエンリッチメン トの関係 類似の蛋白質が多数あれば、数に比例し てエンリッチメントは向上する。 page15 MTSの結果とMSM-MTSの結果 MTSの結果 MSM-MTSの結果 COX-2 inhibitorの探索: ▲:5cox (apo),○:4cox (holo),□:6cox(holo) MSM-MTSの結果は、ヒット率が高いだけでなく、標的蛋白質の種類の 違い・構造の違いに対してロバストな結果を与えるので使いやすい。 page16 8 スコアの補正:スコアの順位の代わりに、MASCスコア(スコアの偏差値)を導入する。 同一化合物(i)を複数の蛋 S’:補正後のスコア:偏差値に相当する(Z score) 白質にドッキングさせ、 S 'ij (S ij i ) / i 化合物iが、蛋白質jに結合 するときのスコアが、標準値 からどれだけずれているか 1つの化合物に着目し 偏差値S’ijを求める。 たとき、標的蛋白質に 対して飛びぬけたスコ アを示す化合物が、ヒ ット化合物である。 μ S’ スコア σ Vigers, GPA, and Rizzi, JP, Multiple active site corrections for docking and virtual screening, J. Med. Chem. 2004, 47, 80-89 page17 MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列 100 MTS法 Number of hits(%) 80 MASCスコア法 60 40 和集合 20 Method Database enrichmen t at 5% compound Database enrichmen t at 10% compound MTS 25.80% 34.80% MASC 34.10% 50.80% Raw 16.20% 26.80% MTS+MASC 56.34% 65.49% 0 0 20 40 60 80 100 Number of compounds(%) 標的によって、MTS法が優れている 場合も、MASCスコアが優れている場 合もある。 実際には、MTS+MASCの和集合を とってスクリーニングに用いている。 page18 9 リガンド複合体の構造予測 リード最適化の段階では、なんらかの蛋白質ー化合物複合体の3D構 造が決定されていることがしばしばある。 ドッキングソフトでの複合体モデリングは不正確だが、実験値を利用す れば、分子のモデリングをしながら、複合体の予測がある程度可能にな る。 page19 sievgene:複合体の構造が分かっているときの再現性 V4.0 平均ドッキング時間:2秒 平均ヒット率:27倍 RMSD < 2Å:56% RMSD <3Å: 66% V4.1 平均ドッキング時間:1.3秒 平均ヒット率:30倍 RMSD < 2Å:60% RMSD <3Å: 69% 高速モード 平均ドッキング時間:0.3秒 平均ヒット率:20倍 RMSD < 2Å:55% RMSD <3Å: 65% 1mrk:rmsd=0.77Å この範囲が正解 RMSD<1A 1A<RMSD<2A 2A<RMSD<3A RMSD>3A 世界の一般的な商 用ソフトと同レベル の精度:速度は10- 100倍高速 1kjp:rmsd=2.93Å 1lic:rmsd=1.60Å page20 10 Sievgene/myPresto:現実のドッキングソフトの精度 スコアが1番良い構造を選ぶ 1mrk:rmsd=0.77Å In cross docking test, ~25 % of predicted complexes show RMSD < 2.0Å Original dokcing score RMSD<1A RMSD<2A RMSD<3A RMSD>3A 実際の構造の予測精度は25% 1lic:rmsd=1.60Å 1kjp:rmsd=2.93Å page21 複合体モデリングの精密化:ドッキング結果の選択 Maximum Volume Overlap法 予測 構造1 蛋白質A+リガンドB もっともらしい構造 Cross docking 蛋白質A’+リガンドC レファレンス座標 予測 構造2 より現実的なCross dockingテスト Self docking docking 予測 構造3 蛋白質AにおいてリガンドBが結 合していた位置にリガンドCが結 合している状態がもっともらしい page22 11 結晶構造データを利用したドッキング結果の精密化 Original dokcing score RMSD<2A; 25% RMSD<1A RMSD<2A RMSD<3A RMSD>3A 1結晶構造との重なりを考慮 ドッキングのスコア ではなく、別の化合 物の複合体構造と 重なりの大きなドッ キング予測構造を 採用すると、正しい 複合体構造を得や すい。 予測 構造1 もっともらしい構造 予測 構造2 2結晶構造との重なりを考慮 RMSD<2A; 60% RMSD<2A; 71% RMSD<1A RMSD<2A RMSD<3A RMSD>3A RMSD<1A RMSD<2A RMSD<3A RMSD>3A page23 標的タンパク質3D構造 化合物をドッキング タンパク質のi番目の残基と化合物が接触しているか(1)、 いないか(0)をfingerprintとする。タンパク質がN残基含ん でいれば、N次元ベクトルとなる。=SIFt page24 12 SIFT=タンパク質ー化合物複合体の 立体構造(ポーズ)を、1次元の数列 に直す方法。 CH3 H アミノ酸配列に対し、化合物と接触 するものは「1」、接触しないものは 「0」とすると、ポーズは、数列(ベクト ル)となる。 1次元の数字の列は扱いが簡単。 N S O HO 1 0 0 1 0 0 0 0 SIFt 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0 page25 SIFtの例:SIFtで化合物をクラスタリングし分類することができる。 page26 13 タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類 似性も議論できる。 ベクトルデータの距離と類似度 谷本インデックス 合計 化合物A 0 1 1 0 1 化合物B A∪B A∩B 0 0 0 1 1 1 1 1 1 0 0 0 1 1 1 化合物A 0 1 1 0 1 化合物B A∪B A∩B 1 1 0 0 1 0 0 1 0 0 0 0 0 1 0 化合物A 0 1 1 0 1 化合物B A∪B 0 0 1 1 0 1 1 1 1 1 4 A∩B 0 1 0 0 1 2 3 3 類似度=1 合計 ベクトルの ユークリッド距離 D(A,B)=√Σ(Ai-Bi)^2 4 0 類似度=0 合計 マハラノビス距離、 マンハッタン距離など 定義は多数ある。 類似度のインデックスも多数。 類似度= 0.5 既知化合物を用いたヒット化合物探索ができる 既知活性化合物をドッキングし、SIFtを作成 データベースの化合物のSIFtを作成 既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックス などで評価し、類似化合物を検索する。 ヒット率 SIFtでのTc ヒット化合物 ドッキングスクリーニングより高いpage28 14 CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定:広川貴次 活性化合物1 活性化合物2 活性化合物3 スコア1位 ドッキング ポーズ スコア2位 ドッキング ポーズ スコア3位 ドッキング ポーズ page29 CoLBA法:広川貴次(molprof/AIST) ①相互作用類似尺度:異なる2分子のポーズa,bが似ているとかどういうことか? 標的蛋白質のi番目の残基との HB:水素結合数 HC:疎水性接触数 をP(i)とし、ヒストグラムPの間の類似性Sを定義 最終的に重みwをつけて、 ポーズa,b間の類似度とする。 page30 15 CoLBA法 ③a, bポーズペアを分布図にする ②エネルギー順位スコア スコア悪い ポーズaのスコアは、化合物Aの ポーズのベストスコアからの差 スコアに置き換える。 ESab リガンドA,Bのポーズa,b間 のエネルギー順位スコアを、 それぞれの差分スコアの平 均とおく。 スコア上位 Sab ポーズにてない 正しいポーズが見つかれば、 ファーマコフォアサーチの要領で 効率良くヒット化合物を探索でき る。 ファーマコグラム法 ポーズ似ている スコアもよく、ポーズにも共通性が見られる 化合物A,Bの共通ポーズ page31 ドッキングスコア上位化合物から薬理作用団位置推定 スコア1位化合物 スコア2位化合物 スコア3位化合物 スコア1位 ドッキング ポーズ スコア2位 ドッキング ポーズ スコア3位 ドッキング ポーズ page32 16 ファーマコグラム法:藤田・折田(アステラス製薬) ドッキング結果から、ファーマコフォア を満たすものを選択する。 多数のドッキング結果で、 ベンゼン環など特徴的なフラグメント の分布を、空間をメッシュに切って 記録する。 局在傾向の見られるフラグメントの 種類と位置を同定する。 => ファーマコフォアを作る。 page33 予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法 ドッキングスコア ∝ log(正しい座標とのRMSD) ドッキングスコア ∝しない log(不正な座標とのRMSD) 同じ分子の多数のドッキングポーズとスコアを比較することで、 もっともらしい構造を選抜できる! page34 17 エネルギー 複数のポーズのうち、もっともらしいものをどう選ぶか 着目したポーズからの距離(RMSD) エネルギー 着目するポーズ ●のポーズは、最安定でない ●のポーズは、最安定 着目したポーズからの距離(RMSD) page35 予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法 ドッキングスコア ∝ log(正しい座標とのRMSD) ドッキングスコア ∝しない log(不正な座標とのRMSD) 赤:正しい⇔青:不正 PSRi 化合物jのドッキングポーズが多数あるとする。特定のポーズiに対し、その他のポー ズのRMSDを計算し、ドッキングスコア:log(RMSD)の相関係数(Ri)を計算する。 PSRi = max{Ri} - Ri ポーズiを参照座標に選んだときの相関係数が大:PSRi ~0(ポーズiはもっともらしい) ポーズiを参照座標に選んだときの相関係数が小:PSRi は大 page36 18 Feature selection-based consensus scoring (FSCS) :寺本&福西(NEC) 活性化合物が存在し、1つでも良い ので、蛋白質―化合物複合体の結 晶構造が解けているとする。 この活性化合物の自由エネルギー 面(PMF)は、横軸を正解複合体構 造からのずれ(RMSD)にとるとファ ネル型をしていると仮定する。 通常、ドッキングスコアの精度はさ ほど良くないので、きれいなファネ ル型のPMFは得られない。そこで、 複数(5-6種類)のスコア関数を 用い、 FSCS = Σ w(i)*score(i) というコンセンサスをとって、新しい スコア関数を導入する。 FSCS = Σ w(i)*score(i) このとき、係数wは、RMSDに対するFSCSによるPMFが、ファネル型になるように決定する。これは、 線形回帰式でもよいし、サポートベクターマシンで決めても良い。 実際にやってみると、FSCSによってきれいなファネル型になる場合が結構、ある。 ならない場合もある。 FSCSも、ドッキングポーズのアンサンブルの発生のさ せ方に結果が強く依存する スコア RMSD この新しいスコアでスクリーニングすると、 ヒット率が向上した。 19 Consensus docking-pose selection (CDPS) method ファーマコグラム法と同様に、スクリーニング上位化合物の原子(結合)の分布をレファレンスとし、化合 物の原子(結合)分布の一致度をスコアとする。 さらに、化合物の複数のポーズを用い、ポーズが空間的に局在しているかどうかをスコアに反映する。 全スコア Score( A) * min{D( Ax )} (1 ) * L( A) Na Nres Nb Nres a 1 i 1 b 1 i 1 Npose D( Ax ) ( M ia atom ( Ax ) Mref i a atom ) 2 (1 )(M ib bond ( Ax ) Mref i b bond ) 2 L( A) 原子、結合の分布の一致度 適用結果:CDPS(○)、補正前(●) Number of hits (%) 100 ( D( A ) D( A) )) x 1 2 x Npose ポーズの空間分布の広がり度合い (局在するものほど、結合が強い。 ポーズが分散しているものは、結合が弱い) 80 60 40 20 0 0 20 40 60 80 100 Number of compounds (%) page39 Ligand-based drug screening 化合物の類似性を利用した、既知活性化合物の類似化合物 探索によるスクリーニング 既に、ヒット化合物がある、文献で知られている、 などの場合に、より優れた(活性の強い、副作用の少ない) ヒット、リード化合物を化合物データベースから見つけてくる方法。 page40 20 化合物の類似性 化合物の類似性を比較するには、化合物の特徴を示す複数の数値(分子記 述子)を与え、そのベクトル間の距離により、類似度を計算するのが代表的な やり方である。 分子記述子: 質量、原子数、電荷、慣性半径、HOMO-LUMO分子軌道エネルギー、グ ラフ特性量(細谷インデックス、Wienerインデックス)、など。 O { 345.3, 22.78, -12.45, 0.149, 33.3, 1, 4, 0,….} HO O O TGS法(myPresto):検索速度:1300万分子/時間 page41 化合物の類似性:MACCS Keyなどのやりかた:ある部分構造があるか、ないか O O 数原子からなる部分構造を100 -300種類用意する。 これらの構造を含むか・含まない か、いくつ含むかを数え上げる。 1化合物に、100-300次元のベ クトルデータが与えられる。 HO N O 化合物B O O OH HO 化合物A HO O O 化合物C HO O S 1: C-C-O-C-O 2: C-C-C-C 3: C-(C=O)-C 4: C-C-O-H このベクトル 間の距離を、 化合物の類 似性と定義 する。 N HO 化合物D 1 2 3 4 A 1 1 1 1 B 0 1 0 1 C 0 1 0 1 D 0 1 0 1 page42 21 CATS記述子:分子内で水素結合をする部分などの距離を「特徴」とする方法 分子に含まれる原子・基を5つのfeatureに分類し(donar/ acceptor/ acid/ base/ hydrohobe)、さらに、分子内での各featureの距離を、feature間の結合の数で 10段階に分類する。分子から15とおりのfeatureの組み合わせを選び、各 featureの組み合わせと距離の出現頻度を、この150(=15x10)次元のベク トルに記録する。 page43 ドッキングによる蛋白質間・化合物間の相同性の導入と分類 構造の異なる分子であっても、同じタンパク質に結合すれば、「類似の化合物」。 異なるタンパク質でも、同じ化合物を結合すれば「類似タンパク質」。 蛋白質ライブラリー (protein pocket library) 化合物ライブラリー(chemical compound library) 1 2 3 4 5 6 7 8 9 10 11 12 1 2 ○ ○ ○ ○ 3 ○ 4○ ○ 5 ○ 6 ○ ○ ○ ○ ○ ○ ○ 7 8 ○ ○ ○ 9 ○ 10 11 ○ ○ 12 ○ 低選択性化合物 類似化合物 Similar compounds 類似ポケット Similar pockets 低選択性ポケット Low selectivity 化合物探索や高選択性の 分子標的薬を見つけるため の、定量的な基礎を作る。 page44 22 距離、相同性、選択性の定義 受容体ポケットの集合:P={p1, p2, p3, … pM} 化合物の集合:X={x1, x2, … xN} 受容体ポケットiと化合物集合の各元とのドッキングスコア:vi = (s1i, s2i, s3i, ……sNi) (添え字を交換することで、化合物の距離、相同性、選択性の定義にも使える) 化合物がN個あるとき、タンパク質にN個のスコアを対応させ、 2つのタンパク質間の距離をN次元空間の2点間の距離で定義する。 2つのタンパク質間の相同性は、N次元空間でのベクトルの内積で表現する。 受容体ポケットi-j間の距離の定義 D ij (v i v j ) 2 M (s k 1 タンパク質2 s kj ) 2 距離 M D ij s ki s kj スコア2 又は i k k 1 相同性 ユークリッド距離、一般化ユークリッド距 離、マンハッタン距離、マハラノビス距離 などが使えるが、結果に大差なし。 タンパク質1 スコア1 page45 化合物ドッキングによる受容体ポケットのクラスター解析 Cluster 1 Proteins Cluster 1 1abe1 1abe2 5app1 2 3 4 Cluster 2 Cluster 3 5 Cluster 4 6 7 Cluster 5 Cluster 6 Cluster 7 1abf2 1tni 1hfc 1xid 2ack 1b9v 1ejn 1aqw 1cps 1tlp 1pso 1byg 1ida 2ctc 1pph 1srj 1rnt 2fox 1rds 5cpp 1coy 1aoe 1epb 1hpv 1com 1b58 1qpq 2gbp 1tng 1atl 1hyt 3erd 1a4q 2tmn 1glp 1cbx 1lna 1ets 1byb 1epo 1lst 1tnl 1f0r 1f3d 1a28 2qwk 1snc 3tpl 1pbd 1tmn 1gbr 1hos 1apt 1mts 1rob 1fki 1mup 1cdg 1phd 1cvu 1ckp 1cbs 4phv 1c1e 7tim 2cmd 1ppc 1mmq 4est 6rnt 1fkg 2cpp 3ert 1poc 2ifb 2cnt 1okl 1c83 1mld Feature Content in cluster* 5app2 1lah 1tnh 1nqp 1xie 2ada 1a4g 1ivb 1fl3 1hsl 5er1 1htf1 1hdc 1eed 1abf1 1ebg 1f0s 1mrg 1ai5 1dog 1a42 1hsb 1mdr Sugar-binding 70%(7) Content in database** 5.3%(7) Serine protease 20%(4) 8.3%(11) Neuraminidase Hydrolase 26.3%(5) 26.3%(5) 3.8%(5) 12.8%(17) 1rne 1htf2 1dd7 1apu HIV protease Acid protease 19%(4) 28.6%(6) 4.5%(6) 4.5%(6) 3cla 1jap 1pma 1tyl 1nis 1png 4lbd 1lic 1fen 1d3h 1c5c 3cpa 1d0l 2aad 2pk4 1nco 1aco 1dr1 1dg5 1dhf 1qbu Endonuclease Serine protease 16.0%(4) 24.0%(6) 3.0%(4) 8.3%(11) Oxidoreductase 45.8%(11) 12.1%(16) 1yee 1lcp Catalytic antibody Oxidoreductase 23.1%(3) 23.1%(3) 2.2%(3) 12.1%(16) page46 23 Docking score index method -in silico screening method based on known active compounds- ドッキング計算を利用したLigand-based drug screening 化合物の類似性を利用した、既知活性化合物の類似化 合物探索によるスクリーニング page47 ドッキングによる化合物間の相同性の導入 構造の異なる分子であっても、同じタンパク質に結合すれば、「類似の化合物」。 ベクトルデータを、主成分分析すると、データを可視化できるし、 誤差を低減することで精度も上がる。 (protein pocket library) (chemical compound library) 1 2 3 4 5 6 7 8 9 1 2 ○ ○ ○ ○ 3 ○ 4○ ○ 5 ○ 6 ○ ○ ○ ○ 7 8 ○ ○ ○ 9 ○ 10 11 ○ ○ 12 ○ 10 ○ ○ ○ 11 ○ ○ ○ 12 ○ ○ ○ ○ ○ ○ score =standard value+ C1*(deviation 1) +c2*(deviation 2) +c3*(deviation 3) +c4*……… ○ ○ ○ 既知ヒット化合物 予想されるヒット化合物 page48 24 Multiple target screening法 Docking score index法 (1)化合物の標的蛋白質へのふるいわけ 性別 犯人: 身長 男 化合物ライブラリー 血液型 170 A型 COOH O 分子 骨格 ドッキングソフト O ベンゼン 環 標的 蛋白質1 蛋白質2 蛋白質3 (2)ふるいわけられた化合物をスコア順 に並べなおす。 Score=3.2 メチル 基 1 カルボン 酸 1 ニトロ 基 1 0 DSI 蛋白質1 Score=5.5 CH3 Score=2.1 -3.1 蛋白質2 -1.4 蛋白質3 -0.4 蛋白質4 -2.1 ヒット化合物 page49 DSI法でのスクリーニング 化合物空間を用いたMIFの活性化合物の表現 実験的にMIFのHIT化合物とNON-HIT化合 物を取得。共同研究:田辺製薬 化合物の空間における、HIT化合物と NON-HIT化合物の分布をPCAで図示し、 比較する。 MIFの構造 MIFの活性化合物 page50 25 相互作用行列の主成分解析 MIFの活性化合物・不活性化合物の主成分解析。 化合物の空間 MIFの構造を用いずに、他の25種類 のタンパク質とのタンパク質ー低分子 ドッキングの解析を行なった。 第1-2軸の空間 PCAにより化合物空間を張ると。 活性化合物と不活性化合物の存在 する空間は局在化している。 標的タンパク質の構造が未知でも、 HIT探索が可能。 HIT化合物探索や、Focusedライブラ リーの設計に応用可能 ●:活性化合物 ●:既知活性化合物 ●:不活性化合物 第3-4軸の空間 page51 生のデータ 2.5 2 1.5 1 0.5 0 0 5 10 15 20 25 30 35 -0.5 -1 -1.5 -2 -2.5 26 x1 スムージング x1 x2 x3 x2 X1’ X1’ X2’ X1’’ 隣り合うデータの平均をとっていく 2.5 2 1.5 1 0.5 0 0 5 10 15 20 25 30 35 10 15 20 25 30 35 -0.5 -1 -1.5 -2 -2.5 スムージングは繰り返し行える 2.5 2 1.5 1 0.5 0 0 5 -0.5 -1 -1.5 -2 -2.5 27 スムージングした結果と、元の信号の比較 2.5 2 1.5 1 0.5 0 0 5 10 15 20 25 30 35 -0.5 -1 -1.5 -2 -2.5 2次元、3次元のデータでも適用可能。 たとえば、マルチカノニカルMDのエネルギー分布など各種ヒストグラム、 ドッキング計算でのグリッドポテンシャルなど、実験データ以外の各種データに使うこと ができる。 ドッキング計算でのグリッドポテンシャルの平滑化は、induced-fitの考慮になる。 x1 スムージング x1 x2 x3 x2 X1’ X1’ X2’ X1’’ スムージングは、フーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する) フーリエ変換フィルター 元のデータ フーリエ変換 パワースペクトル フィルター (高周波成分を低減する) ノイズを低減したデータ 逆フーリエ変換 28 元データ 2次元フーリエ変換 ノイズに当たる 高周波数成分 を除去 指紋 逆フーリエ変換 主成分分析:PCA 主成分分析法は、 多数のデータを分類する教師なし学習法であって、 データの共分散行列を対角化することで、基底ベクトル系を得る。 各データを基底ベクトルの空間に射影することで、データが主成分 空間の点としてあらわされる方法である。 基底ベクトルによって表現される情報は直交している。 また、対角化の過程において、軸の方向(符号)は意味を持たない。 共分散行列の対角化において、各基底ベクトルの固有値は、その 固有ベクトルが表現できるデータ量を表している。 したがって多次元データを主成分分析した場合、固有値の大きい 基底ベクトルを少数選ぶことで、多次元データを低次元データに圧 縮することができる。 結果は、フーリエ変換に似ている。 58 29 主成分分析は日常的に、自然の感覚として行って いる。 蛯原友里 朝青龍 押切もえ 徳澤直子 ジャイアント馬場 本上まなみ 仲間由紀恵 ガッツ石松 顔の「輪郭」を分類してみよう。画像データは膨大な数値データのかたまりだが、果 59 たして処理できるのか・・・・・ なんだか、こ んな感じだ。 60 30 正解・間違いといった教師信号な しに、本能的に分類できる。→教 師なし学習法。 三角形 空間の真ん中に平均像を置き、 おおまかな特徴に応じて、データを配置する。 横長 横長ー縦長という情報と、 △ー▽という情報は、 互いを表現できない、「直交」した情報。 独立した(直交した)情報で分類する。 これがPCAである。 平均 縦長 逆三角形 61 顔の輪郭を 主成分分析するのは、 フーリエ解析するのと ほぼ同じ結果になる。 主成分分析とフーリエ解析 の定義は全く異なる。 しかし 主成分分析(PCA)での 第一主成分、 第二主成分、 第三主成分、 ・・・・ は、フーリエ解析での、 sin(x) sin(2x) sin(3x) などのフーリエ成分とだい たい 同じになる。 31 MIFの活性化合物・不活性化合物の主成分解析(DSI method)。 既知HIT化合物を中心に、化合物を選択 すると、RS法と同等性能のdatabase enrichmentが得られる。 → 有用なFocused Libraryが作れる DSI法:全蛋白質(MIF含む) MASC法:全蛋白質(全蛋白質) DSI法:25蛋白質:MIFなし MASC法:26蛋白質 DSI法では、標的蛋白質を用いても、 用いなくても同等の結果が得られる page63 GPCRの活性化合物・不活性化合物への応用。 GPCRでの検証:アステラス製薬 100 6 90 2 80 0 PCA 2 -10 -5 -2 0 5 -4 -6 -8 -10 -12 -14 -16 PCA 1 10 Number of hits(%) 4 70 60 10m_4axis 30m_4axis 30m_6axis 50 40 30 20 Negative 特許 Active(30m+10m) 10 0 0 20 40 60 80 100 Number of compounds(%) 特許化合物(・)を中心にしてスクリーニング 購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 < 10μM)と 残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパ クに対してドッキング計算し、PCA解析を行った。 page64 32 主成分分析と情報エントロピーを用いたノイズ低減方法 データを主成分解析: これはフーリエ変換ににている。 大ざっぱな情報(元データの多くを表現する)から、 詳細情報(ノイズに相当する)までの成分に分解する。 Chemical Physics,177,993, 85-90 Y. Fukunishi, T. Kasai, K. Kuwata PCAでの寄与の低い成分を中心 にデータを誤差範囲内で修正す る。 このとき、復元後のデータの情報 エントロピーを、最大化するよう にする。 主成分からのデータの復元 情報エントロピー 情報エントロピー=Σpi log(pi) = ∫p(x)log(p(x))dx Piは、事象の起こる確率や頻度。総和が1になるように規格化する Σpi = ∫p(x) dx = 1 2.5 2 1.5 1 0.5 0 0 5 10 15 20 25 30 35 -0.5 -1 -1.5 -2 -2.5 情報エントロピー ノイズ成分 :-3.385 情報エントロピー:-3.049 情報エントロピー:-2.003 薬物ドッキングスクリーニングのとき、ドッキングスコアに適用しノイズ低減を行うこと で、ヒット率を高めることができる。 33 元データ スムージング ノイズ低減後のデータ パワースペクトルのフィルターリング フーリエ変換 逆フーリエ変換 各成分のフィルター (復元後データのエントロピー最大化) 主成分分析 逆変換 データ整形 主成分回帰 (PCR) 回帰分析 回帰後のデータに与える成分を 分析(フーリエ変換、PCAにほぼ類似) PLS回帰 フーリエ成分、主成分に類似 Y = a + c1 * x1 + c2 * x2 + c3 * x3 +…… Non-linear PLS、 カーネルPLS, SVMなど Y = a + c1 * x1 + c2 * x2 + c3 * x3 +… + d1*x1*x1 + d2 * x1*x2 + d3*x2*x2 +….. 回帰分析・モデル構築・予測 スコアの修正 : Machine-learning DSI (ML-DSI)法 既知活性化合物が存在する場合、ドッキングスコアを他のドッキングスコアの線形結合 で補正する。 機械学習法により、最適なデータベースエンリッチメントを与えるように、 主成分軸の選択とドッキングスコアの線形結合係数を調整する。 データベースエンリッチメントが最適化されるまで反復する s new i a s M i b b a b 線形結合係数の調整 protein set A Number of hits (%) 100 80 1 2 3 4 5 6 7 8 9 10 11 12 1 2 ○ ○ ○ ○ 3 ○ 4○ ○ 5 ○ 6 ○ ○ ○ ○ ○ ○ ○ 7 8 ○ ○ ○ 9 ○ 10 11 ○ ○ 12 ○ ドッキングスコアの修正 60 40 DSI FR-DSI ML-DSI 20 DSI法でスクリーニング 0 0 20 40 60 80 100 Number of compounds (%) データベースエンリッチメントの計算 page68 34 DSI/FS-DSI/ML-DSI法の結果 protein set A Number of hits (%) Number of hits (%) 80 60 40 DSI FR-DSI ML-DSI 20 protein set E 100 100 0 80 60 40 DSI FR-DSI ML-DSI 20 0 0 20 40 60 80 100 Number of compounds (%) 0 180蛋白質使用 24蛋白質使用 20 40 60 80 100 Number of compounds (%) ML-DSI法では上位1%化合物を選択した場合、約70%の活性化合物 が選択される。 page69 標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合 MTS法の結果 DSI法の結果 コンセンサスをとる ヒット化合物候補 積集合が最も ヒット率は高い。 分子構造の多様 性では、和集合 が高い。 目的に応じて両 者を使い分ける。 (構造のホッピン グ、新規骨格を 入手したいか、 活性を伸ばすこ とに重点を置く か) X線結晶構造 MDシミュレーションをした構造 ○:MTS,●:DSI,■:和集合(∪)、■:積集合(∩) page70 35 実証実験:AIST,塩野義製薬(TACE) MTSでの予測化合物 DSIでの予測化合物 JBIRC 共通集合(3000化合物) 塩野義製薬 うち、ただちに購入できるもの900を購入、活性測定 手法 対象化合物 購入化合物数 Random screening 10万 10万 ヒット数 ヒット率 Enrichment Glide (Schrodinger) 40万 700 0 0% x0 myPresto 100万 900 35 3.60% x460 7 0.01% x1 100万化合物中にはヒット化合物が~100程度あると予想されるが、MTS/DSIで は、それらがだいたい予想の範囲に入っていると考えられる。 数十化合物を予測→数化合物がヒット(ヒット率10%)の場合 それ以上のヒット化合物を得るためには、結局ランダムスクリーニングを しないといけない。 page71 実証実験:AIST,創薬バリューチェーン MTSでの予測化合物 DSIでの予測化合物 JBIRC 共通集合(3000化合物) 化合物を類似性でクラスタリング、代表化合物を選抜 うち、ただちに購入できるもの108個を購入、活性測定 京都大学 大阪大学 酵素阻害剤 108個の化合物のアッセイ(1次:100μMでの活性)の測定結果 ・100%阻害 23個 (21%) ・50%以上阻害 11個 (50%以上阻害は合計で31%以上) ・50%未満阻害 34個 創薬バリューチェーン:坂田恒昭、井上豪、他 関西を中心に、大学・企業の有志で結成した仮想創薬受託研究機関 その他、1次ヒットでヒット率10-50%の実施例が複数例あり。 page72 36 副作用の予測 蛋白質構造を基に、ドッキング計算で標的蛋白質を探すと、余り当たらない。 これは、薬物スクリーニングの精度に比べて、相当悪い。 ドッキングによる標的蛋白質の探索 薬物スクリーニング Noise Reduction Method for Molecular Interaction Energy: Application to in Silico Drug Screening and in Silico Target Protein Screening Yoshifumi Fukunishi,*,† Satoru Kubota,‡ and Haruki Nakamura, J. Chem. Inf. Model. 46, 2071-2084 (2006) 73 DSI法による副作用予測 薬物を代謝するCYP(P450)は、体 内に数十種類ある。2つの薬物が同時 に同じCYPで代謝されると、代謝が遅 れて、薬の濃度が高まるなどの「薬物 間相互作用」が生じる。 No of ligands (%) 100 80 60 標的発見率 40 20 薬物が、どのCYPで代謝されるか をDSI法で予測できた。 0 0 20 40 60 80 No of compounds (%) 100 P450での代謝は、タンパク質との相互作用 page74 37 副作用の予測: Similarity Ensemble Approach (SEA) “似ている2つの蛋白質は、似た化合物を結合しやすい“:化合物類似性で標的を探す ChEMBLには、150万種類の活性化合物の 1万蛋白質との相互作用が収録されている Large-scale prediction and testing of drug activity on side-effect targets Eugen Lounkine, Michael J. Keiser, Steven Whitebread, Dmitri Mikhailov, Jacques Hamon, Jeremy L. Jenkins, Paul Lavan4, Eckhard Weber4, Allison K. Doak3, Serge Coˆte´4, Brian K. Shoichet3 & Laszlo Urban1 2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1 75 DSIの代わりになる手法:サポートベクターマシン:Support vector machine 化合物にfeature vectorを割 りあて、ニューラルネットワ ークに相当するベクトルの 内積などの計算で、判別関 数fを計算することで、判定 する。 w1 f(x) Hit(f(x)>0)か、non-hit(f(x)<0)か? Output layer g(x) wk wd K(xk,x) X= { X1, X2, X3, Xk, …….. Kernel layer Xd } Input layer 化合物 → { X1, x2, x3, x4, ….Xd} : feature vector page76 38 DSIの代わりになる手法:サポートベクターマシン:Support vector machine 単層(パーセプトロン)なら: チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK w1 f(x) 旨いか、不味いか? 非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG g(x) wk wd K(xk,x) X= { X1, X2, X3, Xk, …….. Kernel layer Xd } Input layer 化合物 → { ラーメン、チャーシュー、アイス、フルーツ} : feature vector page77 Support vector machine DSIの代わりになる手法:サポートベクターマシン:Support vector machine active wt・w f inactive Feature vectorの空間 射影された高次元のfeature vectorの空間 page78 39 Support vector machine DSIの代わりになる手法:サポートベクターマシン:Support vector machine f(x) Output g(x) . ... f(x)・f(x1) f(x)・f(xk) Kernel Input f(x) f(x1) ........ f(xk) X X1 ........ Xk Input vector Support vectors page79 Support vector machine DSIの代わりになる手法:サポートベクターマシン:Support vector machine f ( x) sign( g ( x)) m g ( x) wk K ( xks , x) b k 1 xは入力ベクトル, wkおよびb は識別関数を決定するパラメータ,xks は SV, mはSVの数である.K はベクトルxks およびx を引数とする関数で, カーネル関数と呼ばれる. K ( x1 , x2 ) exp( x1 x2 2 2 ) δ はガウシアン型カーネル関数の拡がりを決定するパラメータで,ユーザが 事前に値を定義する. page80 40 分子の構造から、その一般的な性質を知る手法:ベイズ統計法 たばこを吸うと癌になる確率は? Feature:タバコを吸う(吸わない) Active: 癌になる 人口に対する癌患者数 タバコを吸うと癌になる確率 P(active | feature ) P( feature | active) 癌になった人がタバコを吸っていた割合 P(active) P( feature ) 喫煙率 調べやすい統計データから、調べにくい確率を求める手法 page81 分子の構造から、その一般的な性質を知る手法:ベイズ統計法 「ある部分構造をもつ」など 右辺は、データベースから計算可能 P(active | feature ) P( feature | active) P(active) P( feature ) 複数のfeatureが、1分子に適用できる場合。 (ただし、各featureの寄与は、結果に対し独立に作用するとする) P(active | feature ) P( feature1 | active) P( feature 2 | active) P( feature n | active) P(active) P( feature ) page82 41 機械学習法のin silicoスクリーニングへの応用 蛋白質ー化合物 相互作用行列 In silicoスクリーニング 主成分分析 Dockingスコア 計算 DSI法 (kNN) 上位の結果を選択 2D記述子 計算 FlexXの結果 DSI-SVM 100 Number of hits(%) 80 上位化合物の特徴抽出(ベイズ統計法) Re-ranking 60 P180_org P180_SVM 40 20 A.E.Klon, et al., J. Med. Chem. (2004) 47:2743-2749. 0 0 20 Sievgene(福西) 40 60 80 Number of compounds(%) 100 page83 大規模スクリーニングの後の化合物順位付け:場面で違う手法の効果 PGDSについて200万化合物をMTS+DSIでスクリーニング、100化合物を購入,20ヒットを得た。 DB enrich by MMPBSA MTS DS I 90 80 80 70 70 60 50 40 30 80 No of hits(%) 100 90 No o f h its (% ) No of hits (% ) 100 100 60 50 40 30 20 20 10 10 0 20 40 60 No of compounds(%) 80 100 40 20 0 0 0 60 0 20 40 60 No of compounds(%) 80 100 0 20 40 60 80 No of compounds(%) 100 MMPBSA by NEC:佐久間 後で購入化合物のスクリーニング結果を整理してみると、MMPBSAの活性評価 が優れていることが分かる。 DSIは、ヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけで はない。MTS法は、用いたタンパク質数までしか効果がない(上位1%を選ぶの には効果的)。MMPBSAは最後に絞った1万化合物の順位付けに強い。 page84 42 実験でヒットがでたら、次のスクリーニング計算の準備をする Cl Cl 分子の類似性でヒット化合物をグループ分 けする。 O O Cl O OH Me O Me N HO HO 数十%は、 擬陽性! 捨てる O O S O NH2 HO O O N Cl Me N Me N グループ1:機械学習DSIへかける。 グループ1&2:機械学習MTSへかける 共通集合をとる グループ2:機械学習DSIへかける 共通集合をとる page85 Evaluation of chemical compound library 化合物データベースの評価:化合物空間を 描いてみる。 -we can evaluate the diversity of a series of compounds or combinatorial library by the PCA of affinity matrix蛋白質ー化合物相互作用行列を用いて、主成分解析によって、ヒット化合物探索が可 能なことが示された。 これは、同時に、類似の化合物を分類できることを示している。 したがって、コンビナトリアルに合成される化合物ライブラリーの多様性の評価など、ライ ブラリーの多様性、指向性の評価に用いることができる。 page86 43 類似の化合物が、空間中で固ま っている(クラスター)のが分かる。 創薬では、幅広く探索することも 必要なので、まんべんなく、広く分 子の分布した集団を作成したい。 DSI法による化合物空間の例 親水的 疎水的 大きな分子 小さい分子 page87 市販化合物の作る世界 数の多さ 一人ぼっち の化合物 類似化合 物が多い 市販化合物を、類似度の高いもの同士を線で結んで図にした。 ごく一部(10万化合物程度)から、多数の誘導体が合成されている。 一部の原料となる試薬は、原料そのままで売られている。 → Small-world network Small-World Phenomena in Chemical Library Networks: Application to Fragment-Based Drug Discovery Naoki Tanaka, Kazuki Ohno, Tatsuya Niimi, Ayako Moritomo, Kenichi Mori, and Masaya Orita J. Chem. Inf. Model. 2009, 49, 2677–2686 page88 44 コンビナトリアル合成への応用 :N種類原料xM種類原料=N*M種類の分子を作る場合。 化合物A={ a0, a1, a2, a3, a4, …….} 化合物B={ b0, b1, b2, b3, b4,…….} 3.0 2.0 Act Combi_in Inactive Combi_act Sanofi 1.0 PC2 コンビナトリアル合成で生 成する化合物ライブラリ ーを、事前にDSI法で評 価することができる。 例は、V1b受容体に対す るコンビナトリアル合成の 例。 0.0 -1.0 -2.0 -3.0 -4 -3 -2 -1 0 1 2 3 4 PC1 page89 化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で、 出来上がり化合物群の多様性が変わる。 Small-World Phenomena in Chemical Library Networks: Application to Fragment-Based Drug Discovery Naoki Tanaka, Kazuki Ohno, Tatsuya Niimi, Ayako Moritomo, Kenichi Mori, and Masaya Orita J. Chem. Inf. Model. 2009, 49, 2677–2686 page90 45 薬理活性をもつ金属錯体の評価 金属錯体の薬もあるが、その扱いは、計算でも可能 金属錯体は、医薬品として最も古くから 使われてきた。 ラピスラズリ しかし、現代ではその毒性から、ごく少 page91 数派に過ぎない。 薬理作用をもつ金属錯体の占める化合物空間 O O N N N B N H3N N N Zn N Cl Pt Cl H3N N S Cl STAT3 inhibitor O b-lactamase inhibitor P N N H O Br O O F O O Au O Pt N S O N N OH O O O Cathepsin B inhibitor HO Kinase inhibitor N N N N H O N Cu Cu O N N N N Chemokine receptor (GPCR) 金属錯体の占める空間は、意外に antagonist Drug-likeになっている。 page92 Glycogen synthase kinase 3 inhibitor N N Ru C O 46 蛋白質のMD計算によるモデリング:多数の 構造を発生すると適当な構造が含まれる :ensemble docking タンパク質は揺らぐ。 タンパク質の立体構造ごとに、異なるスクリーニング結果が得られる。 ↓ どのタンパク質構造(スクリーニング結果)を選べば良いのか? ↓ 本当のヒットでなくても良い、今までの何かの医薬品をドッキングしてみ て、「薬っぽい化合物」を結合する構造が、ヒットの出る「良い構造」であ る。 ↓ その結果、MD計算で複数の蛋白質構造を準備することで、完全なホモ ロジーモデリングでも、ヒット率12%程度(GPCR 2標的両方とも)を出 せた。 page93 多数のスクリーニング結果から、信頼性の高い計算結果を抽出する方法を開発する ー計算結果の信頼性尺度の開発ー Structure-based in-silico drug screeningでは、 標的タンパク質構造に結合する物質を探索す る。しかし、標的蛋白質構造は、計算によって 様々な形がサンプルされるし、現実、構造は 揺らいでいる。 そのため、計算に用いる構造の数だけ、スク リーニング結果が得られる。 膜蛋白質GPCR μオピオイド受容体 おおよそ、多数の構造に対し、 ・極めて良好なスクリーニング結果が得られる場合は、10%以下、 ・まあまあ良好なスクリーニング結果が得られる場合は50%、 ・悪いスクリーニング結果が得られる場合が40%、 といったところである。 構造毎の多数の スクリーニング結果 信頼性の高いスクリーニング結果を得る手法の開発とは別に、 多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要。 データ提供 和田(富士通)、 酒匂(塩野義製薬) page94 47 作業の流れ 蛋白質の結晶構造 タンパク質の分子動力学シミュレーション:1-3nsec程度 多数の蛋白質構造 それぞれの構造に対して薬物スクリーニング計算 計算結果1 計算結果2 良い結果:1割 計算結果3 計算結果4 まあまあ良い結果:5割 悪い結果:4割 page95 モデリングされた多数の構造に対する、スクリーニングテストでのΜ受容体でのAUC(q値) qvalue_MTS moe prime 1 2 3 4 5 6 7 8 9 10 ini. 79.2 63.3 47.6 62.6 56.5 50.5 64.3 47.7 35.5 63.3 49.3 min. 54.3 48.0 50.1 65.6 64.4 69.2 60.7 47.7 51.6 71.9 62.3 2100 ps 76.6 69.4 61.8 59.1 56.1 60.0 60.1 45.7 65.0 73.4 59.2 2300 ps 66.7 63.2 35.2 57.2 50.2 49.2 82.8 34.9 66.7 48.7 60.3 2500 ps 68.8 71.1 51.9 66.2 64.8 36.2 75.6 54.7 65.8 63.9 59.7 2700 ps 48.8 60.3 44.5 62.7 65.8 47.5 63.0 61.2 60.9 54.1 58.0 2900 ps 74.2 64.8 56.7 62.2 71.9 56.9 53.6 57.2 62.4 37.3 50.7 3100 ps 87.7 65.4 70.9 57.2 60.1 63.7 67.3 53.3 53.0 58.6 46.3 3300 ps 73.7 68.8 57.9 52.6 56.8 59.1 65.2 54.3 41.2 64.6 3500 ps 64.7 40.4 36.8 57.8 58.0 58.2 57.1 53.2 55.7 49.0 60.6 3700 ps 76.9 61.9 48.9 56.1 57.5 37.3 70.0 60.9 66.2 32.5 55.2 3900 ps 75.8 64.3 54.6 45.0 52.2 49.3 69.6 47.3 63.3 44.9 60.4 非常に良い結果 塩野義製薬:酒匂氏提供 60.3 富士通:和田氏提供 page96 48 Universal active probe (UAP)の導入による、スクリーニング 結果の選択 ドッキングスクリーニングは、蛋白質構造が多数あれば、その 数だけ結果を生成できる。 蛋白質構造は、MDシミュレーションでいくらでも生成できる。 問題は、どのスクリーニング結果を選ぶか、である。 標的蛋白質には結合しないはずの、drug-likeな化合物の集 団を作成した(UAP)。 これをスクリーニング計算に混ぜておく。 すると、標的に対する真の化合物がヒットする割合は、UAPが 発見される割合に比例する結果となった。 つまり、標的の活性化合物が未知であっても、UAPを目印に、 もっともらしいスクリーニング結果を選ぶことができる。 97 Protein structure 1 Decoy set Active compounds UAPs Compound library Target protein structures Structure-based Drug screening Screening result for each structure AUC of Active compounds AUC of UAPs Compare Protein structure 2 AUC of Active compounds AUC of UAPs Compare 98 49 UAPがスクリーニング結果 の上位にくる 100 100 90 90 80 80 70 70 60 Number of hits(%) Number of hits(%) 真の活性化合物がスクリーニ ング結果の上位にくる (a) 50 40 Data with the highest AUC_UAP Data with the lowest AUC_UAP 30 20 60 40 30 10 0 0 20 40 60 80 Highest UAP enrichment curve 20 10 0 (b) 50 100 Number of compounds (%) 真の活性化合物がスクリーニ ング結果の下位にくる Lowest UAP enrichment curve 0 20 40 60 80 100 Number of compounds (%) UAPがスクリーニング結果 の下位にくる 99 テストに用いた標的タンパク質:水中のMDシミュレーションで120構造を発生した COX-2, ACE, AMPC, factor-Xa (FXA),thrombin;(1pxx, 2pks, 2pu2, 2r9x, 2w26, 2zgp, 3ens, 4cox, 5cox, 6cox)など 100 50 UAPが発見される ヒット率(AUC) min 80 y = 0.5559x + 13.048 R² = 0.4799 70 60 50 40 30 20 10 0 0 10 20 30 botom 40 50 avg 10 20 30 50 top 31.79 33.005 34.90333 36.19133 60 70 avg 76.42884 73.40842 72.46901 69.35661 10 20 30 50 80 90 100 真の活性化合物が発見される ヒット率(AUC) 101 UAPのヒット率と、真のヒット化合物のヒット率の相関係数(R)。 R=0.5~0.7と、比較的良い結果になった。 各デコイセット・各UAPでの性能(真のAUCとAUC_UAPとの相関係数R) UAP_minのコンセンサスが優れている。 単純には、3種類のUAPを混ぜた平均でも良い。 UAP Correlation coefficient ( R )平均 R for lig0 decoy R for c001 R for DUD UAP_GPCR 0.6295 0.6981 0.5295 0.5834 UAP_DUD 0.5151 0.6173 0.3622 0.4477 UAP_PDB 0.4165 0.7468 0.6161 0.6347 UAP_min 0.6927 0.7582 0.6190 0.6386 UAP_avg 0.6608 0.7297 0.5723 0.6072 UAP_max 0.6040 0.6753 0.5001 0.5529 102 51 生理活性ペプチドからの低分子探索のた めの類似化合物探索 生理活性ペプチドは、発見もしやすく、実験も簡単。 しかし、ペプチドは、一般に 飲めば胃腸で分解され、吸収されない。 注射すれば1分程度で、血液中で分解される。 だから、生理活性ペプチドを見出した場合、同じ作用をする低分子 を探して、置き換えないといけない(ペプチドミメティクス) myPresto/MD-MVO (molecular dynamics maximum volume overlap) myPrestoのドッキングソフトsievgeneは、低分子用に開発されており、ペ プチドのドッキングがうまくいかない。その結果、ペプチドをシードとした DSI法でのヒット率は、ランダムスクリーニングよりは高いが、通常の低 分子シードの場合より低下せざるをえない。 page103 Molecular dynamics maximum volume overlap (MD-MVO)法 MVO法のポ テンシャルを アンブレラポテ ンシャルに用 いる。 スコアは、分 子の重なりを とる。 既知活性化合物 化合物データベース MDによる分子の重ね合 わせと、スコア評価 ヒット候補化合物 分子重ね合わせと配座探索が、 MDで同時に行える。 page104 52 MD-MVO法での計算:分子シミュレーションによって、2つの異なる分子の体積・電荷の重なりの 大きいものを類似化合物とする。 分子内相互作用は普通に計算し、 分子間相互作用は、分子の重なりを 拘束ポテンシャルに用いる。 分子の重なりは、 原子を電荷で分類し、 同種原子の体積重なり を計算する。 NB 分子A 分子B 分子C その他(蛋白質、 水) 分子A 系内 MVO MVO 系間 分子B MVO 系内 MVO 系間 分子C MVO MVO 系内 系間 その他(蛋白 質、水) 系間 系間 系間 系内 S ( A, B) j 1 NA w(i, j) exp(c(( x i 1 i A x Bj ) 2 ( y iA y Bj ) 2 ( z iA z Bj ) 2 ) 1; qiA q Bj qthr w(i, j ) A B 0; qi qi qthr page105 COX2 HIV HIV ROCS AUC AUC ヒット率 ヒット率 1cx2 85.8 28.6 52.8 23.1 1pxx 98.5 50.0 64.5 30.8 3pgh 85.3 33.3 64.8 30.8 4cox 74.0 33.3 68.5 15.4 1aid 59.8 5.0 29.2 4.5 1bv7 93.3 40.0 75.8 36.4 1hte 70.3 5.0 59.3 13.6 1mes 88.2 35.0 77.0 36.4 Average 81.9 28.8 61.5 23.9 MD-MVO 上位 COX2 MD-MVO法 Number of hit compounds (%) 100 他の手法:ROCS, ChemFinderとの比較。 MD-MVOが優れている。 80 60 40 20 0 0 20 40 60 80 Number of selected compounds (%) 100 MD-MVOの結果 ChemFinder 9% 38.20% 9.80% 22% 51.40% 47.50% ROCS(OpenEye)の結果 page106 53 sievgeneMVOの概要:ドッキングと同時に化合物類似性も考慮する。 入力分子:DBより 配座の発生 蛋白質への結合と同時に、 既知リガンド座標との重ね合わせ 既知活性化合物との タンパク質ーリガンド複合体 静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザイン→似た化合物を探す) 相互作用の見積もり 最適な複合体モデルの選択 タンパク質との相互作用が最適で、 かつ既知リガンドの座標と近い複合体構造 を選択する ①タンパク質‐化合物間の 疎水性相互作用、vdW力、クーロン力を見積もり ②化合物‐既知リガンド間の 原子の種類ごとの原子座標の重なりを見積もり、 page107 総合スコア = ① + ② ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証 研究(塩野義製薬と共同研究) ①既知GPCR構造を元に した、半自動GPCRモデリ ング手法によるμオピオ イド受容体の動的モデリ ング ②多数のGPCR構造からの効 率的アンサンブルドッキング・ スクリーニング手法で、既知化 合物やDrug-like化合物がヒッ トしやすい最適モデル構造を 選択 Wada et al., J. Chem. Inf. Model. 51, 2398-2407 (2011) ③生理活性ペプチド(上記 例では緑色: エンドモルフィン) に置き換わる低分子化合 物(白、赤、青色)の探索: Scaffold Hopping Fukunishi & Nakamura, J. Mol. Graph. Model. 27, 628-636 (2008) ・最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 → IC50 = 0.25 μM, 0.43 μM を示す化合物など、多数の有望な候補化合物を取得 ・10化合物に対して細胞機能評価実験 → 4ヶのアゴニスト、2ヶのアンタゴニストを同定 ・μオピオイド受容体・ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開 → IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性:IC50 = 0.087 μM) 54 結果 モデル X線構造 (4dkl) 計算モデル構造と、 X線構造解析の比較 薬物結合ポケット周 辺での原子のずれ は、約2.5Å。 薬物結合に重要な アミノ酸残基の位置 は、再現されていた。 モデル (1) UAP法を用いた正 確なモデル作成 X線構造 (4dkl) アミンを 結合Asp アミンを 結合Asp (2) MD-MVO法を用 いたペプチドミメ ティクス探索 Φを保持Phe Φを保持Phe (3) 新規活性化合物発見 底のAsp 底のAsp 結果 EM-1との類似度/ 活性値(nM) CH3 N N O O CH3 H O N N O HC Cl C l O C H3 N l N H NH O O S O H_20 (0.197/2.0nM) Loperamide (0.254/1.5n M) 0.309/ 0.314/ Tifluadom(0.304) 740M 666nM N H N H2N N F 0.186/ 430nM 0.211/ 250nM 0.245/ 457nM 0.320/ 0.326/ 391nM 86nM NH2 N H O O HN HO EM-1 JOM-6 CH3 N O O N H O CH3 H2N F H3 C O H NH2 N H O N O H DPI-3290(0.266) l H N O H O H N O CH2 HC O3H2 O CH3 N H CH3 O H3C Morphine (0.222/1.0nM) F Frakefamide(0.323) N OOC H N O H OOC H Fentanyl(0.228/1.3nM) OOC H 55 Fragment Screening by Replica Generation (FSRG) method: In Silico Fragment Screening “レプリカ分子”を生成して行う 超低分子量化合物の計算機スクリーニング 大きな分子は、多様性があり、化合物空間が広くなりすぎて、探索しきれない。 小さな分子なら、多様性に限りがあり、全てのバリエーションをテストすることも 可能。 ただし、小さい分子(フラグメント)は、活性も弱いので、ヒットを見つけてから、 分子をかなり大きく伸ばす。 Y. Fukunishi, Tadaaki Mashimo, Masaya Orita, Kazuki Ohno, Haruki Nakamura, In silico fragment screening by replica generation (FSRG) method for fragment-based drug design, Journal of Chemical Information and Modeling, 49, 925-933 (2009). page111 page111 fragment-based drug development(FBDD)とは? 通常の lead generation “drug like”な化合物を対象. The MW is < 500 Da. (rule of 5) 化合物が大きい ヒット率は低いが (0.01%)、ヒットの活性 は強い Lead optimization 不必要な部分を除き、 必要な側鎖を追加する Fragment-based drug development 分子フラグメントを対象. The MW is < 300 Da. (rule of 3) 化合物が小さい ヒット率は高いが (1%)、ヒットの活性は弱い ヒットフラグメントに、 側鎖をつけたり、2つのフラグメントを連結する page112 page112 56 なぜ FBDDがいいのか? 化合物空間の広さ(多様さ)が問題だ 大きい 小さい 分子量 MW<160Da For FBDD, MW < 300 Da 分子量 < 160Daで実現可能な分子 の種類は 107. MW<500Da (Rule of 5) 分子量 < 500Daで実現可能な分子の種 類は 1060. (太陽系の原子の数と同じ) 化合物空間が広すぎて、探索不可能 FBDD: なんとか、化合物空間全域をだいたい探索できる。 1000万でも、実験するにはまだ多い。 計算機で、絞り込む必要がある。 page113 FBDDの可能性: 断片の組み合わせで無数の分子が生成できる. 市販化合物は、たかだ か数百万種類 億を越える分子の バリエーションが 得られる。 市販のフラグメントは 600,000種類. これらの組み合わせで億単位の化合物を生み出せる page114 57 標的蛋白質 COX2でのテスト計算 COX2阻害剤と、フラグメント 9 active compounds of COX2 were prepared. これらの阻害剤を2分割して “active fragments”を用意する. Br H2N O O Me - O O2 S O N O2S N F O F Cl O Me HN - SO2 F O O O- Cl O- N+ HN Me O Me S O2 Me Cl O OH O2S N O O O Me O O N Me -O S HN Me - Me O F page115 O N 結果:In silico screening by the MTS method: 通常のスコア関数 Fragment set A Fragment set B Number of hits (%) 100 Active compound random Coe_12 DUD_12 Coe_34 DUD_34 Whole whole_DUD 80 60 40 20 0 0 20 40 60 80 Number of compounds (%) 100 Docking score = (van der Waals interactio) + (Accessible surface term) + (Coulombic interaction) + (Hydrogen bonding interaction) 計算では小さな “active fragment“は見出せない。 大き目の“active compounds”は見出せる. page116 58 replicas of fragmentの準備 CH3 X X R H Side chain 1 N S Side chain 2 O N HO X X H2 C N H Original fragment Side chain 4 Side chain 3 X CH3 H X N N N S O N H N H Side chain 6 Side chain 5 HO 6種類の側鎖を準備し、これらを元のフラグメントに導入して、 レプリカを6種類作成する。 Replica_1 page117 replicas of fragmentー”レプリカ“分子の準備 Cl O HN - O Cl O Cl O R - O R Cl HN - HN O HN O R O Cl Fragment set A R Cl Fragment set B We prepare the replicas for fragment set A and set B. page118 59 結果:In silico screening results by the MTS method : 電荷無視 + レプリカフラグメント生成法 100 Fragment set A Number of hits (%) 80 Fragment set B random DUD_12 Coe_12 DUD_34 Coe_34 60 40 20 0 0 20 40 60 Number of compounds (%) 80 100 Docking score = (van der Waals interaction) + (Accessible surface term) replica fragmentのヒット率は、非常に改善した。 page119 FSRG :人工的にフラグメントを大きくした仮想分子を発生してドッキングスク リーニングを行う。ヒットが出たら、原料のフラグメントをヒットとする。 FSRG 法の流れ フラグメントライブラリー (100,000 fragments) X レプリカ生成 X CH3 X H2 C X N N X N X N H レプリカフラグメントライブラリー (6 x 100,000 fragments) 標的蛋白質 [ protein pocket library ] In-silico screening (MTS 法) [ Replica fragment library ] 3 4 5 ○ ○ ○ ○ ○ ○ 6 7 8 9 10 11 ○ ○ 12 ○ ○ ● Active fragments ○ ○ ○ ○ N H 側鎖セット 原子電荷無視 1 2 1 2 ○ 3 4 ○ 5 6 ○ 7 8 ○ 9 10 11 12 13 N H MTS 法 ○ ○ ○ 化学合成 (fragment evolution / linking, etc) ○ ● ● Lead compounds page120 60 分子構造をグラフであらわす:myPresto/substructure_search 1 3 0 1 0 S= 2 1–2 2-3 5 2 4 1 -2 2- 3 2-4 1-5 1 1 0 1 0 1 0 SxS= S= 0 1 0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 2 0 1 0 1 1歩あるいて たどりつける原子 S: 隣接行列 3 1 0 1 1 0 0 0 0 2歩あるいて たどりつける原子と、 その経路の数 SxSxS= 3歩あるいて たどりつける原子と、 その経路の数 原子i と原子jがどれだけ離れているか、特定の分子構造の存在、 分子形状の計算などに用いられる。 電子回路設計などあらゆる回路、経路の問題に適用される。 page121 電子回路のシミュレーションにも用いる 0 1 0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 電子が、どの素子を出発し、 何ステップめでどの素子に到達 するかを行列の積で計算できる。 分子構造の中で、結合をたどれる 最長の長さ、は重要な指標の1つ。 行列の積で、簡単に計算できる。 6 3 5 2 4 1 S4= 0 1 0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 page122 61 同じ構造を含む分子を探す (部分グラフ同型問題) page123 分子構造の一致は、行列計算で高速に行える。 1 3 S= 2 3 5 2 1 M= 0 1 0 1 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 Ullmanの定理 A(AM)t = S S: サブグラフの隣接行列 M: 分子の隣接行列 A: サブグラフから分子への対応行列 (横列には1か所のみ1がある) 4 A= 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 t 0 1 0 0 1 0 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 = 0 1 0 1 0 1 0 1 0 62 H N O H O C N C H H 1 2 2 4 5 1 5 H 二重結合、芳香族結合が 扱えるようにした 4 3 3 探索する分子構造の原子を並べ替えた。 i+1番目の原子は、1~i番目の原子までのいずれかに連結しているようにした。 1番の原子は出現頻度の少ない原子(ハロゲン→S→N→O→C→H)を選ぶ。 2 2 2 1 1 3 2 1 3 5 1 4 4 3 最初に2原子ペアを探索し、入力分子から見つけ出したパターンを記録。 その中から、3原子組を探索、その結果から4原子組を探索するようにした。 63
© Copyright 2024