化合物やタンパク質などなどのデータセットについてまとめてみる

この記事は大体自分の最近の論文を見ているときに見かけたものの備忘録です。

最近DeepChemとか、化合物やタンパク質の世界にもDeep Learning、流行ってますよねぇ（最近って何年前からの話だよ…）。 Deep Learningをする上で（機械学習をする上で）、どんなデータセットがあるの？というところは結構重要で、それをまとめるのは自分のためにもなるし他の方々にとっても知りたい情報なのでは？と思い、随時更新でやっていこうと思います。

hogehogeらしい、という記述も多いですが、それは要するに私がまともにデータを見ていないということで、嘘を書いている可能性が十分にあります。間違っていたら教えてください。

（一部の情報は https://github.com/arXivTimes/arXivTimes/tree/master/datasets からお借りしました。こんなのあるのねー、すごい）

化合物＆タンパク質系

データ名	種類	説明	研究例
PDBbind	2次データ (PDB)	PDBに登録されている、阻害率などが判明しているPDBエントリがまとめられている。2019/4/6現在、アクセス不能？？
PubChem BioAssay	1次データ	タンパク質に対する化合物のAssay結果がまとめられている。各々のデータエントリを登録する人がActive/Inactiveなどを判定したりしているため、データの整形が必要なことが多い。	多数。DeepChemにはこのデータの一部を処理しやすくしたデータが公開されている。ほかにもPromiscuityの予測のためのデータセットなどとしても利用されている 1 2
ChEMBL	2次データ (PubChem BioAssay)	タンパク質から化合物まで、総合的なデータを構築しており、PostgreDBのデータなどが公開されている。PubChem BioAssayのデータを少しきれいにしたものが含まれており、pChEMBL Valueという値でIC50やKi, Kdなどの値がまとめられている。
DUD, DUD-E	2次データ (PDB, ChEMBL, ZINC)	タンパク質構造と、それに対応するactive/inactivesがまとめられているデータセット。タンパク質化合物ドッキング計算のベンチマークデータセットとして主に利用されているが、機械学習に用いられることもある。	Interaction Fingerprint系の学習3や、純粋なDeep Learning 4などがある
BioLip	2次データ (PDB)	I-TASSERで（その界隈には）有名なZhang Labが作っているタンパク質-化合物のbinding database。PDBのデータから、結合に関与している残基などを推定したり、UniProtへのリンクをしたりしている。	タンパク質-化合物の結合残基を予測する手法*5に利用されたりしている
[Ingle+2016] *6	2次データ	1,500件以上の化合物について、血漿タンパク質との結合率をまとめ、それを利用して機械学習を行った論文。supplemental infoとしてデータセットが公開されている。
ATPbind	2次データ	ATP binding siteについて、予測を行うウェブサーバ。ベンチマークデータセットも併せて公開している。	*7

化合物系

化合物単体系

データ名	種類	説明	研究例
COMDECOM	1次データ	化合物を長時間保管したときにどの程度化合物が安定していたかが0~1の実数値で表現されている。#Compound=10,000	Attention-Based Graph Convolution Networkで不安定部分予測*8
QM dataset	1次データ	小さな分子に対する量子化学計算結果がまとめられたデータセット。QM7 (QM7b) #Compound=7,000、QM8 #Compound=20,000、QM9 #Compound=130,000あるそうな。	DeepChem関係に多数。その他の量子化学計算の高精度化にも利用されており9、データセット内ではDFTよりも精度が良いという話もある。10
ANI1	1次データ	DFT計算による値がまとめられているデータセット *11。570,000化合物に関する原子ごとのエネルギーなどが存在しているらしい。簡単にpythonでデータを読み込むためのgithub repositoryも存在
ISO17	1次データ	これもQM datasetで公開されている。C7O2H10からなる129種類の化合物について、それぞれMD計算を通して5,000種類の構造を作り、それをDFT計算したデータがあるらしい。このMD計算のトラジェクトリもMD17として公開されている。
Tox21	1次データ	化合物構造からその毒性を推定するタスクのデータセット。#Compound=12,000、#Class=12	DeepChem関係に多数。
ZINC, ZINC15	1次データ	数千万～数億件という膨大な（購入可能とうたっている）化合物の構造が登録されている。

化合物＆その他

データ名	種類	説明	研究例
SIDER	1次データ	薬剤-副作用の関係がまとめられたデータセット。副作用と薬剤のmatrixになっており、ver4.1では140,000件ほどの薬剤-副作用ペアがまとめられている	*12
LINCS		化合物を細胞に入れたときのgene expression profileなどがまとめられている。	*13
[He+2019] *14	2次データ？	DILI (drug-induced liver injury) を引き起こすかどうかについて、1,500件余りのデータをまとめて学習して精度を高めた論文で、supplemental infoとしてデータセットを公開している。
[Furukawa+2016] *15	1次データ	6残基からなる環状ペプチドについて、膜透過を実験した論文。実験結果がPDFで公開されている。

タンパク質系

タンパク質立体構造系

データ名	種類	説明	研究例
Protein Data Bank (PDB)	1次データ	タンパク質の立体構造データがまとめられている。タンパク質単体、タンパク質-化合物複合体、タンパク質-タンパク質複合体、DNA, RNAなどなど、様々な立体構造データがまとまっている。	例えばタンパク質-タンパク質複合体の相互作用表面を予測する手法16、あるいはNetSurfP-2.0というタンパク質構造に関する特徴量を作るツールの学習データとしても利用されている17。
CASP	1次データ	タンパク質構造の予測コンペだが、予測問題とその答えがあるので構造予測界隈ではよく用いられるデータセットになっている。	例えば*18 など。
EMDataResource	1次データ	タンパク質の電子顕微鏡画像のデータがまとめられている。

タンパク質配列系

データ名	種類	説明	研究例
UniProt		タンパク質配列と、それに対する多くのannotationが存在する。

その他

医療画像

データ名	種類	説明	研究例
TCIA	1次データ	ガンのCTやMRIによるイメージングデータがまとまっている。3Dデータも2Dデータｍあるっぽい。	画像なのでCNNの手法が存在。例えば*19など。