【論文メモ】Benchmarking Commercial Conformer Ensemble Generators

  • N-O Friedrich, CB Kops, F Flachsenberg, K Sommer, M Rarey, J Kirchmair
  • Journal of Chemical Information and Modeling (in press)

そうそうたるメンバーだなって感じ。RareyとKirchmairは少なくとも聞いたことある。

Abstract

  • 無料ツールの比較論文は最近出ている (PCD Hawkins, JCIM, 2017) 。
  • ConfGen, ConfGenX, cxcalc, iCon, MOE LowModeMD, MOE Stochastic, MOE Conformation Import, OMEGAの8種類の商用ツールの比較を行った。RDKit (無料で利用可能)も比較に含めた。
  • 商用ツールの強みは99%の化合物についてちゃんと構造を出力できた、という安定性にある。
  • RDKitのdistance geometry algorithm (with minimization enabled) は比較的良い成果を残している。

ちなみにPCD HawkinsはOMEGAの開発関係者。この論文も気になりますなあ。

Introduction

  • ドッキング計算とかファーマコフォアで化合物の立体配座は重要。これをうまく生成できるツールを作ろうと多くの研究者が努力を重ねている。
  • ベンチマークのデータセットもこれまでいろいろ作られてきて、最近では我々がPDB構造から選択された4626件の化合物立体配座からなるPlatinum Datasetというものを作った。 (N-O Friedrich et al., JCIM, 2017)
  • この論文の中では数種類の無料で利用できるツールの比較を行い、RDKitのDGとETKDGが最も良いという結果を得た。これらは、80%以上の化合物について、タンパク質と結合している立体配座とRMSD 1 Å以下の構造を生成することに成功していた。
  • この比較は無料で利用できるツールのみにしていたが、この論文では商用ツールの比較を行う。

それがこの論文の理由かー!ってなった。

Results

Benchmarking Dataset (Platinum benchmarking dataset)

  • (N-O Friedrich et al., JCIM, 2017) で作成した化合物セットは2016/2/12のPDBに基づいていたが、これを2017/2/16のPDBに基づいたものに更新した。これにより、立体配座数は4548件に変化している(減った理由も書かれている)。
  • 最大配座発生数を50、250にした場合の評価を行った。実際の発生数はこれにより少ないことがある。
  • 表2に最良RMSDについてデータセット全体の平均値と中央値が記載されている。それによれば、OMEGAが最も高性能だが、ConfGenXも同程度に良い。
  • 実行速度についても、図1や表5にある通りOMEGAが最も高速である。ConfGenXはこの点OMEGAに劣っている。
  • すべてのツールは99%以上の化合物について立体配座を生成することができた。
  • 出力結果について、結合次数などを間違えた化合物を出すことも非常に少なかった。ConfGen, ConfGenX, cxcalc, MOEがたまに結合長を間違えた程度。iConとOMEGAはエラー発生させなかった。

要するにOMEGAが最強。

Conclusion

  • 商用ソフトはエラーの発生件数が少ない。これは無料で利用できるツールと大きく異なる。
  • OMEGAが最も良い性能をだした。OMEGAは250配座を出力することを許しても中央値で74配座しか発生させないが、それで非常に良い構造を出力する。
  • MOE Import, cxcalc, RDKit DGは250配座を出力するので、配座数が重要な場合にはこれらを使うのが良い。
  • RDKit DGは商用ツールの中でもそれなりに健闘した。
  • Platinum Datasetは配座発生ツールの比較に使えるよ。

最後はちゃんと宣伝で締められていた。

感想

OMEGAを使おう、以外の感情がなかった。