学振PDの身分について(2)
その後の話を書きます。
2019年5月22日に日本学術振興会 特別研究員の証明書(プラスチックのカード)が届いたとの事務からの連絡があり、ここで初めて正式に採用されていることが確認できました。
併せて頂いた採用通知は4月25日付けになっており、これは特別研究員奨励費の内定通知日と同日でした(なお採用通知は全くなかった)。科研費の内定通知日と採用通知日が同じなのは偶然なのか、それともそうなっているのか、これは何とも言えませんが、2019年はそのようになっていました。
これによって、2か月近く続いていた「私はどこに所属しているんだ」問題が解決することになるわけですが、、、個人的には、やはり4月1日の時点で採用が決定していない、あるいは身分証がないということは問題かなと感じました。大学側の理解が大きかったためにほとんど大学での研究生活において困ったことはないのですが、これが東大ではなければどうなっていたか、は自明ではありません。
化合物やタンパク質などなどのデータセットについてまとめてみる
この記事は大体自分の最近の論文を見ているときに見かけたものの備忘録です。
最近DeepChemとか、化合物やタンパク質の世界にもDeep Learning、流行ってますよねぇ(最近って何年前からの話だよ…)。 Deep Learningをする上で(機械学習をする上で)、どんなデータセットがあるの?というところは結構重要で、それをまとめるのは自分のためにもなるし他の方々にとっても知りたい情報なのでは?と思い、随時更新でやっていこうと思います。
hogehogeらしい、という記述も多いですが、それは要するに私がまともにデータを見ていないということで、嘘を書いている可能性が十分にあります。間違っていたら教えてください。
(一部の情報は https://github.com/arXivTimes/arXivTimes/tree/master/datasets からお借りしました。こんなのあるのねー、すごい)
化合物&タンパク質系
データ名 | 種類 | 説明 | 研究例 |
---|---|---|---|
PDBbind | 2次データ (PDB) | PDBに登録されている、阻害率などが判明しているPDBエントリがまとめられている。2019/4/6現在、アクセス不能?? | |
PubChem BioAssay | 1次データ | タンパク質に対する化合物のAssay結果がまとめられている。各々のデータエントリを登録する人がActive/Inactiveなどを判定したりしているため、データの整形が必要なことが多い。 | 多数。DeepChemにはこのデータの一部を処理しやすくしたデータが公開されている。ほかにもPromiscuityの予測のためのデータセットなどとしても利用されている *1*2 |
ChEMBL | 2次データ (PubChem BioAssay) | タンパク質から化合物まで、総合的なデータを構築しており、PostgreDBのデータなどが公開されている。PubChem BioAssayのデータを少しきれいにしたものが含まれており、pChEMBL Valueという値でIC50やKi, Kdなどの値がまとめられている。 | |
DUD, DUD-E | 2次データ (PDB, ChEMBL, ZINC) | タンパク質構造と、それに対応するactive/inactivesがまとめられているデータセット。タンパク質化合物ドッキング計算のベンチマークデータセットとして主に利用されているが、機械学習に用いられることもある。 | Interaction Fingerprint系の学習*3や、純粋なDeep Learning*4などがある |
BioLip | 2次データ (PDB) | I-TASSERで(その界隈には)有名なZhang Labが作っているタンパク質-化合物のbinding database。PDBのデータから、結合に関与している残基などを推定したり、UniProtへのリンクをしたりしている。 | タンパク質-化合物の結合残基を予測する手法*5に利用されたりしている |
[Ingle+2016] *6 | 2次データ | 1,500件以上の化合物について、血漿タンパク質との結合率をまとめ、それを利用して機械学習を行った論文。supplemental infoとしてデータセットが公開されている。 | |
ATPbind | 2次データ | ATP binding siteについて、予測を行うウェブサーバ。ベンチマークデータセットも併せて公開している。 | *7 |
化合物系
化合物単体系
データ名 | 種類 | 説明 | 研究例 |
---|---|---|---|
COMDECOM | 1次データ | 化合物を長時間保管したときにどの程度化合物が安定していたかが0~1の実数値で表現されている。#Compound=10,000 | Attention-Based Graph Convolution Networkで不安定部分予測*8 |
QM dataset | 1次データ | 小さな分子に対する量子化学計算結果がまとめられたデータセット。QM7 (QM7b) #Compound=7,000、QM8 #Compound=20,000、QM9 #Compound=130,000あるそうな。 | DeepChem関係に多数。その他の量子化学計算の高精度化にも利用されており*9、データセット内ではDFTよりも精度が良いという話もある。*10 |
ANI1 | 1次データ | DFT計算による値がまとめられているデータセット*11。570,000化合物に関する原子ごとのエネルギーなどが存在しているらしい。簡単にpythonでデータを読み込むためのgithub repositoryも存在 | |
ISO17 | 1次データ | これもQM datasetで公開されている。C7O2H10からなる129種類の化合物について、それぞれMD計算を通して5,000種類の構造を作り、それをDFT計算したデータがあるらしい。このMD計算のトラジェクトリもMD17として公開されている。 | |
Tox21 | 1次データ | 化合物構造からその毒性を推定するタスクのデータセット。#Compound=12,000、#Class=12 | DeepChem関係に多数。 |
ZINC, ZINC15 | 1次データ | 数千万~数億件という膨大な(購入可能とうたっている)化合物の構造が登録されている。 |
化合物&その他
データ名 | 種類 | 説明 | 研究例 |
---|---|---|---|
SIDER | 1次データ | 薬剤-副作用 の関係がまとめられたデータセット。 副作用と薬剤のmatrixになっており、ver4.1では140,000件ほどの薬剤-副作用ペアがまとめられている | *12 |
LINCS | 化合物を細胞に入れたときのgene expression profileなどがまとめられている。 | *13 | |
[He+2019] *14 | 2次データ? | DILI (drug-induced liver injury) を引き起こすかどうかについて、1,500件余りのデータをまとめて学習して精度を高めた論文で、supplemental infoとしてデータセットを公開している。 | |
[Furukawa+2016] *15 | 1次データ | 6残基からなる環状ペプチドについて、膜透過を実験した論文。実験結果がPDFで公開されている。 |
タンパク質系
タンパク質立体構造系
データ名 | 種類 | 説明 | 研究例 |
---|---|---|---|
Protein Data Bank (PDB) | 1次データ | タンパク質の立体構造データがまとめられている。タンパク質単体、タンパク質-化合物複合体、タンパク質-タンパク質複合体、DNA, RNAなどなど、様々な立体構造データがまとまっている。 | 例えばタンパク質-タンパク質複合体の相互作用表面を予測する手法*16、あるいはNetSurfP-2.0というタンパク質構造に関する特徴量を作るツールの学習データとしても利用されている*17。 |
CASP | 1次データ | タンパク質構造の予測コンペだが、予測問題とその答えがあるので構造予測界隈ではよく用いられるデータセットになっている。 | 例えば*18 など。 |
EMDataResource | 1次データ | タンパク質の電子顕微鏡画像のデータがまとめられている。 |
タンパク質配列系
データ名 | 種類 | 説明 | 研究例 |
---|---|---|---|
UniProt | タンパク質配列と、それに対する多くのannotationが存在する。 |
その他
医療画像
データ名 | 種類 | 説明 | 研究例 |
---|---|---|---|
TCIA | 1次データ | ガンのCTやMRIによるイメージングデータがまとまっている。3Dデータも2Dデータmあるっぽい。 | 画像なのでCNNの手法が存在。例えば*19など。 |
*1:https://pubs.acs.org/doi/10.1021/acs.jcim.8b00104
*2:https://pubs.acs.org/doi/10.1021/acs.jcim.8b00677
*3:https://pubs.acs.org/doi/10.1021/acs.jcim.8b00673
*4:https://link.springer.com/article/10.1007/s10822-016-9938-8
*5:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2672-1
*6:https://pubs.acs.org/doi/10.1021/acs.jcim.6b00291
*7:https://pubs.acs.org/doi/10.1021/acs.jcim.7b00397
*8:https://pubs.acs.org/doi/10.1021/acs.jcim.8b00672
*9:https://pubs.acs.org/doi/10.1021/acs.jctc.8b00832
*10:https://pubs.acs.org/doi/10.1021/acs.jctc.7b00577
*11:https://www.nature.com/articles/sdata2017193
*12:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2544-0
*13:https://pubs.acs.org/doi/10.1021/acs.jmedchem.8b01044
*14:https://www.mdpi.com/1422-0067/20/8/1897
*15:https://pubs.acs.org/doi/abs/10.1021/acs.jmedchem.6b01246
*16:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2627-6
*17:https://onlinelibrary.wiley.com/doi/full/10.1002/prot.25674
*18:https://onlinelibrary.wiley.com/doi/abs/10.1002/prot.25697?af=R
unwrapはcpptraj専用、pytrajではできない
最近MDシミュレーションをはじめて、はえー結構ちゃんと整備されてるのねぇーとか思いつつ。
amberのツールを使って、MDの結果を解析しようと思ったところ、pytrajというpython notebook形式でMDの結果を解析できるツールを発見したものの、cpptrajでいうunwrapの操作ができない。。。
MDシミュレーションでは(事実上)無限に広がる空間を再現するために、1つのboxを定義して、そのboxが縦横奥行きに無限に繰り返されていることを仮定する「周期境界条件」(PBC)というのがありまして、 その都合でboxの左端と右端に1つの分子の構造が分離しちゃうことがあります。これを回避する(どちらかの場所にまとめる)のがcpptrajのunwrapというコマンドなのですが、これがpytrajにない。
しかも、ググってもなかなか出てこない。コマンド名が変わってしまっているのかな?と調べていた所、以下のgithub issueを発見。
Periodic boundary conditions · Issue #956 · mdtraj/mdtraj · GitHub
これによると、「unwrapはpythonで効率的に実装にするのがかなり難しい」そうで、だから用意されていないっぽいですね。たぶん「効率的に実装」というのはnumpyの関数1つとかで処理できるものではなくて、原子ごとにpythonのloopを回さなきゃいけないとかそんな感じなんだと思います。
一応、pytrajからcpptrajを呼び出す関数はあるので、それを使って疑似的に作業することはできますが、結局一度はunwrapしたデータをディスクに書き出す必要があるということで。
そんなわけで、cpptrajを使ってunwrapとか、大まかな操作をしてからpytrajを使ってグラフを出したりすると良いのではないでしょうか。という話でした。
学振PDの身分について
4/1から学振PDで東大に着任することになったわけですが、行っても辞令を交付されるわけでもなく、雇用を証明するものもなく。 3月末まで所属していた東工大は「特別研究員」という肩書を得ることで様々なものにアクセスできるようにしているようなのですが、東大はそういうものもない?ようです。*1
そんな身分でなにができるのか!ということを書き出してみたいと思います。
- UTokyo Accountはもらえます。4/2の夜に学振特別研究員の事務手続きを行っている部署から連絡がありました。ただ、カードがもらえるわけではないのでそこは注意。あくまで10ケタのIDがもらえる、という感じ。「2年前の学振PDの方はUTokyo Accountをもらえなかった」という話を聴いたので、待遇は改善されているようですね。
- 生協の加入は「学振PDであることを述べた上で運転免許証等身分証明を見せればOK」。教職員扱いで処理していただけました。
- 図書館は申請時に「特別研究員審査結果通知書」を提示することで利用証の作成ができました。これは2014年のブログ*2で記載されている顛末と異なっていたので、これも待遇が改善したのかな。
- 健康診断は在学生と同じ扱いで受診できます。採血はなし。
というわけで、思ったよりはいろんなことがOKになっていて、待遇の改善がある程度は見えるという状態になっています。
*1:間違っていたら誰か教えてください、少なくとも受入研究室の先生方は知りませんでした
IQ1な頭の中身を軽くして生きよう
この記事はIQ1 Advent Calendar 2018の14日目の記事になります。
(※1 前もって記事を書いてたらアドベントカレンダーのこと忘れてた…)
(※2 最近 意識高そうな 本があんまり読めてないのでタイトル変えましたテヘペロ)
この記事の概要
人間の記憶に頼ることを止めて、PCやスマホなどを活用して記憶を実質無限にしようという話です。 私がやっていることをベースにするためEvernoteの利用を仮定しますが、その他のツールでも実現可能な話だと思います。
はじめに - 問題提起
IQ1だと記憶力もたないんです。
- 「メール打たなきゃ」と思い出しても次の瞬間には忘却の彼方。申し込み忘れたぁぁぁ
- あのメールはどこだ?あのデータは?え、もしかして削除した!?
- 過去の自分は何をしていたのだろう(哲学)
こういう記憶の探索って、すごく虚無だし、せっかく調子よく作業しているのを邪魔されるのでとてもイヤなんですよね。 だからといって、付箋やノートに物理的に書き溜めると、IQ1なのでどこに置いたか忘れて今度は物理探索作業になるという。
定量的に考えてみましょう。「探し物」にかける時間について、いくつか調査報告があります。
- 日本人は年間 約15時間探し物に費やしている(米Zippo社 2014年頃の調査、1次ソースリンク切れ)
- 勤務中に探し物をしている時間は年間150時間(大塚商会 2014年の記事、記事リンク切れ)
- 「探し物をするためだけに1年間に150時間も浪費している」(リズ・ダベンポート『気がつくと机がぐちゃぐちゃになっているあなたへ』)
- 日本人が探し物に費やす時間は年間で約145時間(米TrackR社 2017年11月の調査、概要)
…Zippo社のデータの値が非常に少ないのが気になりますが、まあとりあえず年間で約150時間、1週間弱の時間を浪費しているそうです。*1
そんなわけで、物理的に、ではなく、電子的に、しかも適切な方法でメモを取ることで 無駄な時間を削減し、効率的に作業を進めることで気持ちよく、ささっと作業を進めようというのが この記事の本旨になります。
この記事に期待される効能
- 外部記憶としてメモを残すことで、記憶保持の時間を延長させ、記憶の改ざんを防ぎます。
- なるべくテキスト形式で保存することで極力検索を可能にし、記憶の探し物の時間を削減します。
- 記録方法、検索方法案を示すことで、面倒になってやめてしまう可能性を減らします。
手法
1. 基礎編:とりあえずやろう
とりあえず困ったことはあるし改善はしたい。でも面倒なことはしたくない。 そんな人に向けた、必要最低限のやり方を記述します。
1-1. メモは1箇所にまとめよう
物理的に紙とペンでメモを取ることをイメージしてほしいのですが、 さまざまな場所にメモを取ると「あれってどこに書いたっけ??」となったりしますよね。 それを避けるためにも、メモを取る場所は1箇所にまとめましょう。
最近はクラウドサービスのおかげでPCとスマホ、さらにはiPadみたいなタブレットと、複数の端末から単一の場所へアクセスすることができます。 これをなるべく活用して、どこからでも書き込める「とりあえずあそこを探せばいいはず」という場所を決めましょう。
私はこのメモシステムとしてEvernoteを利用していますが、これにより探す場所は基本的には 適切なツール(予定であればGmailとGoogle calendar、論文であればMendeley、…)と Evernoteだけになっています。
1-2. とにかく「すべて」を「その場」でメモしよう。
綺麗にまとめるとか、下書きと清書を分けるとか、表現の言葉を統一するとか、どんなタグをつけようとか、 こんなことをメモする必要あるのかなとか、そんなことにくよくよ悩む暇はありません。 思いついてしまったことは全部全部、その場でメモしてしまいましょう。
トイレでふと気づいたことを15文字だけスマホに書き込む。絵を描いて写真を取る。 くだらない(と感じる)落書きをする。今ハマっているゲームの攻略法が見えた。 どういう方法でも、どんな情報でもいいんです。
そして、これらの情報を後から書き直さないことが重要です。一度書いた情報を削除するのはNGです。 書き足すだけで、一度書いた情報はread onlyにできるのが最良です。 今必要ないと思った情報があとで必要になることも多く、自分のためのメモであれば文章量が多いことのデメリットも小さいからです。 まあそんなシステムに出会ったことないので、運用でカバーするしかないですけどね…
1-3. 今からやろう
ここまで読んで「まあそうかな」と思ったなら今からやってください。今です。
(IQ1の皆さんならそんな考えるほどの頭は持ち合わせてないですよね?^^) という煽りは冗談にしても、 結局、一番の障壁はメモを取る習慣を身につけることです。 形式にとらわれて面倒になってしまうよりは、雑でもやることが大切なのです。
脊髄反射でメモが取れるようになるまで頑張れば、物事を完全に紛失することは無くなります(容易に取り出せるかどうかは別ですが)。
2. 応用編:検索をうまく使う
基礎編では「とりあえずメモを取れ、つべこべ言わずに」ということを述べました。 この応用編では、脊髄反射感を失うことなく、しかしなるべく検索容易にすることに関するtipsを述べていきたいと思います。
2-0. 検索機能を使おう
前提として言いたいことがあります。「検索機能はすごい」。 本当に大切なのでもう一度書きます。「検索機能はすごい」のです。 検索機能を使わなければ紙の一冊のどでかいノートにメモを取っているのと変わりません。
過去1年、毎日1つのメモを取っていればメモの量は365件になります。それら全てに対して2秒ずつかけて探していたら、 それだけで10分以上もの時間を使ってしまいます。集中が途切れてしまう。
検索機能を活用すれば、探すのは機械の仕事になり、 それっぽいよ!とヒットしたものについてのみ さらさらと眺めれば良いことになるので大幅な時間短縮です。すごいすごーい!
ということで、メモと検索機能は相性が良い。覚えておきましょう。
2-1. 可能なら手書き文字ではなくテキスト化しよう
1-2では、どんな形でもいいからメモにしよう、と言いました。画像でも良いと。 しかし、検索容易性から考えた時には、なるべく手書き文字の画像よりもキーボードで打った文章が望ましいです。
Apple pencilやsurface penなどのペン型の入力デバイスはきわめて使いやすいのですが、
日本語とかいう言語は漢字というクソバリエーションに富んだ文字のせいで手書き文字の認識率が非常に悪く、
まず手書き文字は文字認識したところで検索にヒットしてくれるようにはなりません。
そのため、キーボードやフリック入力できる環境でのメモはなるべくテキスト化することが検索の上で重要になります。 優先順位としては、メモを残さない <<< 手書き文章を残す < テキスト化した文章を残すと思いましょう。
2-2. 印刷物は全て文字認識させよう
2-1.で手書き文字の認識率は非常に悪い、と述べましたが、逆に印刷された文字の認識率は非常に高いです。 配布資料等の印刷物はどんどん文字認識させて、検索にヒットさせるようにしましょう。 (これに付随して、紙の資料は文字認識させるもの、という習慣をつけるために、 手書き文字についても一応文字認識させることをお勧めします)
また、「印刷物」はスキャナに通せるものに限定しません。実験をされる方であれば、 薬品のラベルなども重要な情報です。印刷された文字でできていますので、写真を撮って文字認識させてみると良いでしょう。
ちなみに、スキャンしたPDFデータなどを文字認識するためのソフトウェアはググってみると良いと思います。比較記事など、参考になります。 また、Evernoteは画像を貼り付けると勝手に文字認識してくれるので便利です。すごい。
2-3. ディレクトリ構成やタグ付けなどは無理しない
整理したがりの人だと、ディレクトリ構成を考えたり、タグ名を考えたりすることに時間を使うこともあると思います。 しかし、その頭を使った時間に見合うメリットは得られないことがほとんど、と思った方が良いです。
タグ付けなどは基本的には「今見てる記事に関係する記事をアレコレ見たい」ための機能なのですが、 メモの検索においては「メモからメモへの横移動」は少なく、「検索ワード⇄メモの縦移動」がほとんどです。
そんなわけで、メモ間の関係性は深く考えず、乱雑に1つのフォルダにぶち込むようなことをしてしまいましょう。 その方が楽なのです。
2-4. テンプレートを積極的に使おう
1-2で「すべて」の情報を記述しよう、と書きましたが、入り組んでいる物事をメモする場合、網羅性を担保するのって案外大変だったりします。 そんな時、先持ってテンプレートを作っておくことで漏れを最小限に止めることができます。
例えばあるデータの解析を行う場合、解析を行った手順はもちろん、その解析を行った時のディレクトリをメモすることも、「あのファイルどこにおいたっけ」を防ぐ良い方法です。 であるならば、以下のような要素はテンプレートに必要でしょう。
作業目的
作業ディレクトリ
手順とその結果
考察
気づいたこと・その他
唐突に思いついたことをメモするには適していませんが、じっくりメモを取りながら作業を進める場合にはテンプレートは便利なツールです。
終わりに
たくさんの物事を記述した結果、4,000文字を超える文章になり、そんな長ったらしい文章をここまで読んでいただきありがとうございます。
私も過去の自分の思考にアクセスする方法をいろいろ試行錯誤している段階ではあるのですが、 現時点でのアイデアなどを一度公開しておくのは良いかなと思い、この記事を書いた次第です。
様々な意見を取り入れて、より良いIQ1 lifeを過ごしていただければ幸いです。以上!
*1:これらの調査は物品(財布など)の落とし物も含まれていることに注意
「自分の時間」をコストとして考える
今日、書籍を買うときに、はて、中古品を探そうか、と一瞬悩んだ。 しかし、Amazonだと即日で入手できないし、ブックオフにわざわざ足をのばすのも時間がかかる。置いてあるとも限らない。
そんなわけで、結局その場で購入してしまった。
安く品物を手に入れるために、さまざまな努力をすることがあると思います。 複数のスーパーをはしごして安売り品を集めることなど、最たる例だと思いますが、 果たしてどれだけの時間を消費して、どれだけのお金を節約できたでしょうか。
500円節約できた!と、チラシを見比べる時間まで含めて1時間くらい余計な時間を使って喜んでいてはいけないのではないかと。
節約するな、ということを言いたいのではありません。 ただ、お金と時間のトレードオフを考えるべきじゃないか?ということです。
自分の時間は有限です。それを適切に使ってこそ、自分にとっても社会にとっても、有益な生活が過ごせると思うのです。
体験メモ : 渋谷 名曲喫茶 ライオン
しばらく極端に忙しかったりしたので、お久しぶりですの状態に。
——-
ふと思い立ち、渋谷の道玄坂から、ラブホが多く存在している地区に入ったところにある名曲喫茶 ライオンに行ってみることに。
外の騒がしさからは完璧に隔離された空間。携帯利用禁止、スピーカーのある方向にしか座席が向いてない、おしゃべりは基本NG、撮影も禁止というかなり徹底したところで、とても良い環境で音楽を楽しめる。 従業員もかなり音量控えめの接客、雰囲気にあった従業員という様相で好感が持てた(普通のお店なら、あまり褒められたものではないのだが、場所にあまりにマッチしていた)。
毎日15時、19時からは流すレコードが決まっており、私はその15時の回に偶然当たった。 コダーイの混声合唱曲集のレコードがかかっており、宗教曲らしさのある、美しい響きの中で過ごす、そんな空間。
友だちと来る場所ではないかもしれないが、ただただぼんやりとしたい、喧騒から離れたいという時に適した空間であることは間違いないと感じた。