【論文メモ】Benchmarking Commercial Conformer Ensemble Generators
- N-O Friedrich, CB Kops, F Flachsenberg, K Sommer, M Rarey, J Kirchmair
- Journal of Chemical Information and Modeling (in press)
そうそうたるメンバーだなって感じ。RareyとKirchmairは少なくとも聞いたことある。
Abstract
- 無料ツールの比較論文は最近出ている (PCD Hawkins, JCIM, 2017) 。
- ConfGen, ConfGenX, cxcalc, iCon, MOE LowModeMD, MOE Stochastic, MOE Conformation Import, OMEGAの8種類の商用ツールの比較を行った。RDKit (無料で利用可能)も比較に含めた。
- 商用ツールの強みは99%の化合物についてちゃんと構造を出力できた、という安定性にある。
- RDKitのdistance geometry algorithm (with minimization enabled) は比較的良い成果を残している。
ちなみにPCD HawkinsはOMEGAの開発関係者。この論文も気になりますなあ。
Introduction
- ドッキング計算とかファーマコフォアで化合物の立体配座は重要。これをうまく生成できるツールを作ろうと多くの研究者が努力を重ねている。
- ベンチマークのデータセットもこれまでいろいろ作られてきて、最近では我々がPDB構造から選択された4626件の化合物立体配座からなるPlatinum Datasetというものを作った。 (N-O Friedrich et al., JCIM, 2017)
- この論文の中では数種類の無料で利用できるツールの比較を行い、RDKitのDGとETKDGが最も良いという結果を得た。これらは、80%以上の化合物について、タンパク質と結合している立体配座とRMSD 1 Å以下の構造を生成することに成功していた。
- この比較は無料で利用できるツールのみにしていたが、この論文では商用ツールの比較を行う。
それがこの論文の理由かー!ってなった。
Results
Benchmarking Dataset (Platinum benchmarking dataset)
- (N-O Friedrich et al., JCIM, 2017) で作成した化合物セットは2016/2/12のPDBに基づいていたが、これを2017/2/16のPDBに基づいたものに更新した。これにより、立体配座数は4548件に変化している(減った理由も書かれている)。
- 最大配座発生数を50、250にした場合の評価を行った。実際の発生数はこれにより少ないことがある。
- 表2に最良RMSDについてデータセット全体の平均値と中央値が記載されている。それによれば、OMEGAが最も高性能だが、ConfGenXも同程度に良い。
- 実行速度についても、図1や表5にある通りOMEGAが最も高速である。ConfGenXはこの点OMEGAに劣っている。
- すべてのツールは99%以上の化合物について立体配座を生成することができた。
- 出力結果について、結合次数などを間違えた化合物を出すことも非常に少なかった。ConfGen, ConfGenX, cxcalc, MOEがたまに結合長を間違えた程度。iConとOMEGAはエラー発生させなかった。
要するにOMEGAが最強。
Conclusion
- 商用ソフトはエラーの発生件数が少ない。これは無料で利用できるツールと大きく異なる。
- OMEGAが最も良い性能をだした。OMEGAは250配座を出力することを許しても中央値で74配座しか発生させないが、それで非常に良い構造を出力する。
- MOE Import, cxcalc, RDKit DGは250配座を出力するので、配座数が重要な場合にはこれらを使うのが良い。
- RDKit DGは商用ツールの中でもそれなりに健闘した。
- Platinum Datasetは配座発生ツールの比較に使えるよ。
最後はちゃんと宣伝で締められていた。
感想
OMEGAを使おう、以外の感情がなかった。