論文読み(2):Ultrafast protein structure-based virtual screening with Panther

Title

Ultrafast protein structure-based virtual screening with Panther

なぜ読もうと思ったのか?

研究として、非常に近しいので。これに勝る理由はないでしょう。 最終目的がだいたい似たようなところにある気がするのが、とてもコワいですね。

Abstract

Pantherという"ulutrafast"で"multipurpose"なドッキングツールを示す。Pantherの特徴は以下の通り。

  • タンパク質結晶構造から得た、タンパク質のligand結合部位のshape-electrostatic model(形状と静電の情報からなるモデル)を用いる
  • 前述の「モデル」と「リガンドの特徴量」を、similarity searchアルゴリズムを用いて比較する
  • 一般的なドッキングツールは1つのリガンドに数分の計算時間を要するが(比較対象すこし時間かかりすぎでは?)、このツールは1秒以下しか要しない

このツールを用いることで、創薬の初期段階の高速化や、臨床試験段階での開発中止率の低減を達成することができる。

introduction

shape complementarity(形状相補性)はリガンド探索において重要だが、electrostatic interactions(静電相互作用)もまた重要であることが知られている。 そこで、Pantherではリガンド結合部位の形状および物理化学的な特徴を見ている。

また、一般的に計算コストのためにタンパク質の構造は剛体とみなしてドッキングを行うが、 Pantherでは複数のタンパク質結晶構造を利用することで計算コストの増大なしに柔軟性を許容することができる(これは普通にやられている気がする)

Pantherに求められるものは以下の通りである

  • virtual screeningに対応できるような速度
  • activeとinactiveを分離する分離能
  • 正しい結合様式(複合体)の生成
  • 現実的な結合エネルギーの見積もり

Pantherhttp://www.jyu.fi/pantherからダウンロードできる

shape-electrostatic modelの作り方

多数のステップに分けて行われる。

  1. 結合部位の形状の決定…リガンド結合ポケットが既知であるとして、その範囲内にある全ての原子を用いて結合部位の形状を決定する。ポケットの中心点を定義し、そこから30度の円錐を各方向に出すことで空間を分割、各々の空間で最も中心点に近い原子の属するアミノ酸残基を、ポケットの壁を構成するものとする。
  2. 上記1. では形状によって取り切れないことがあるので複数の中心点を定義しては同様のことを行う(どうやって中心点を複数定義するのか?)まだ読み中(Different sized cavities) これによってポケットの壁を構成するアミノ酸残基を全て列挙する。
  3. 結合部位に含まれる補因子やアミノ酸電荷部分(水素結合のみ?)に対する静電情報付きのモデル原子球を配置する。この配置の際には、非共有電子対の角度/距離などを用いる。
  4. 入力したタンパク質に水素原子が付加されていない場合は、複数のイオン化状態を考慮してポケット形状を作る。
  5. ポケット形状の空間をモデル原子球で埋める。埋め方はグリッド様にし、手順3. で配置された静電情報付きの原子球の近くには配置しない(グリッド様に置いたものを静電情報付きのもので置き換えた、と考える)
  6. モデル原子球群をmol2ファイルとして保存する。

similarity searchのやり方

ShaEP(Vainio et al., 2009)という既存ツールを用いて行う。

結果

予測精度

DUDのデータセットについて、AutoDock4.2, AutoDockVina1.2やRosettaLigand3.4などにはROCでおおむね勝っている。 DUD-Eのデータセットに対しては、多くのターゲットに対してDOCK, VinaLCなどに優っている。 ただし、DUD、DUD-Eのごく一部のターゲットであることに注意

eHITSはAUROCでは明らかに強いが(DUDデータセット)、Enrichment factorになるとPantherが勝つようなケースも多くみられる。

計算時間

デスクトップパソコンを用いて実験しているにも関わらず(スペックが記載されていない)

  • タンパク質のポケットモデル構築 数秒
  • 1個のリガンドの重ね合わせ 平均0.1秒、サイズによって0.025-0.32秒程度

で計算が終了する。これは、AutoDockVina(190ドッキングで500秒)よりも速く、現在最も速いであろうFRED(190ドッキングで18秒)と同程度だ。

感想

高速に構造まで示す、という手法であり、この点に関しては好感をもてる。ただ、手法の説明が不十分でかなりあやふやにしか理解できなかった。。。

FREDは小さな化合物のドッキングをベースにタンパク質のポケットの形状を見積もってnegative imageを構成し、その中でのみドッキングを行う、という意味で、ドッキングとsimilarity searchという、やり方は違うものの、高速化の手法という意味では同じ方向性を感じる。

Similarity searchについて、知らなきゃいけない気がするぞ・・・。