気づいたら4月も半ばになっていた(雑談)

4月1日から東工大助教になり、4月3日から許可を取った上で完全在宅勤務をしている。おかげ様で自分の身分が変わった感覚があまりない。

そんなことよりも(いや、関係しているのだが)、最近はコロナウイルスによる緊急事態宣言により、世の中がかなり騒がしくなり、それに伴って、自宅の近くではだいぶ人口が減った。 個人的には、おいしいものを食べたり、人とおいしいお酒を飲んだりできないのは、寂しいものだ…と思いつつ、とは言え、在宅勤務が許されている人間として、仕事ができることで収入が保証されている(と信じている)人間として、しっかり国民としての責務も果たさねばならぬと感じていて、散歩やスーパーへの買い物以外は外出を100%カットしている。

自宅の仕事環境は良いとはなかなか言いにくく、特に椅子が厳しい。自宅の椅子は掃除しやすさやらスペースやらの都合で、パイプ椅子なのだ。普段、座りなおしまくる、椅子の可動域が狭くなるだけで腰痛をしたことのある人間として、結構困っている。まぁ、これを機に、姿勢を直すのも良いかもしれない(普段、かなり猫背なのだ)。

助教職に応募してから、あるいは助教の内定を通知されたときから、教えるとは?自分は何が伝えられるだろうか、とより一層考えることになった。このブログでは、変わらず、その様々なを考えて、表現を試みたシルシとして、これからも記述できていけたら良いと思う。もちろん、それに合わせて、自分の研究に関連した論文の読み記事などが混在することにはなると思うのだが。

変更は1つずつ

「変更が2つ以上」とはどういうこと?

コードの修正を行っていると、「あれ、ここもイケてない…直さないとな…」と気づくことがある。このこと自体はとても良いことなのだが、「一緒に修正してしまえ」とやろうとすると、結構な確率で何をやっているのかわからなくなり、「…想定通りに動かない。 git checkout して一回戻すか…」となってしまうことがある。

あるいは、「機械学習の結果が芳しくないな。データセットのココが改善できるのと、特徴量もこれはいらないな」と同時にやってしまうと、「結果が良くなったけど、データセットの作り直しが効いたのか、それとも特徴量の選択が効いたのかわからない」ということになってしまうこともあるだろう。

全く別の観点からは、「今年は読書と英会話と、あとランニングを頑張るぞ」と言って全て同時に始めたところで、全てを続けることは難しいものだ。

「変更は1つずつ」にすることで、物事を整理する

これまで記述してきた3つをまとめて、単一の観点で述べるのは難しい。1つ目は、人間のマルチタスクの難しさを示しており、2つ目は因果関係が不明瞭になってしまうという問題を抱え、そして3つ目は人間の現状維持バイアスの強さが関係している。しかし、これらに対する共通の解決策は、「変更は1つずつ」にしろということだ。

コード修正であれば、気付いたらどこかにメモしておいて、今やっているコード修正を終えてから取り組めば良い。機械学習なら、とりあえずどのポイントが修正できるかをリストアップして、優先順位をつけて取り組めばいいだろう。新しい習慣を身につけるのなら、1つずつ、一番身につけたい習慣から取り組めば良い。

そんな時間はないのだけど…

ただ、時には「そんな悠長にやっている時間はないんです」ということもある。その時には、この「原則」を無理に守る必要はない。

しかしながら、考えて欲しい。同時にやって15~90分かかる場合と、個別に対応することで常に30分かかる場合では、どちらの方が良いだろうか?同時にやったとしても、15分で仕事をやり遂げるという自信はあるだろうか?

少しでも不安になるのなら、なるべく分割して、「変更は1つずつ」の原則に戻るのが良いだろう。

こっちのブログをまじめに使うことにしました

自分の個人サイトにblog枠も併設していたのだけど、見た目をキレイにするとか、そういう手間が面倒以外の何物でもなかったので、はてブロに持ってくることにした。markdownで書くことには変わりないし。

学振PDという身分だったり、非常勤講師をさせて頂いたりという中で、教育関係に色々思うこともあったし、そういうことが少しずつでも書ければいいなぁと思っている。

電子的に作業ログを取る

はじめに:「過去メモから未来メモへ」

研究に限らず、なんらかの作業をするときにメモを取るのは重要だと思う。ただ、取ったメモを未来に活用できなければ意味がない。このことを、パルコの広告なども手掛けてきたコピーライターの小西 利行さんは著書『仕事のスピード・質が劇的に上がる すごいメモ。』の中で、「過去メモから未来メモへ」と表現している。

電子的なメモの特色:検索

未来の自分が活用できるメモの取り方は、紙の場合と電子的な場合で大きく異なると考えている。紙の場合は1秒1ページで、さらさらと眺めながら、「お、これは」と思えることもあるだろう。そのような場合には1秒1ページで理解できるようなグラフィカルな表現が効果を発揮する。一方で、電子的なメモは「検索」という大きな武器がある。たとえ1000ページあったところで、機械に任せるだけで、必要な情報を、しかも網羅的に、見つけることができる。

電子的には沢山のメモを取り、検索する

そんな検索に特化した電子的なメモの取り方では、なるべく沢山のメモをとっておくことが重要だ。例えば、私の場合だと、以下のように「どういうことをやったのか」がなるべく再現できるようにコマンドを含めて残すようにしている。

2019/MM/DD HH:MM
そしたら、aug-cc-pVDZ-PPを使ったヨウ素込みの構造最適化を行ってみる。

ssh ********
cd workspace/****/****
emacs tmp.smi
  iodobenzeneを作る
obabel -ismi tmp.smi -ogjf -Oiodobenzene.gjf --gen3D
emacs iodobenzene.gjf
  gaussianを走らせるための設定を記述。
  #p opt=(tight) b3lyp/aug-cc-pVDZ-PP scf=(qc,tight)
g16 < iodobenzene.gjf > iodobenzene.log
  んー、なんかうまくいかない?
  どうやら、aug-cc-pVDZ-PPなんてものはないらしい。ちゃんと細かく指定しろと。うーん。なるほど。
  (以下略)

こんな記述の状態なので、1時間の作業で50行を超えることもしばしばである。お世辞にも見やすいとは言えない代物だが、こんな状態だからこそ、検索という機能はちゃんと見つけてくれる。

例えば、どういう検索をするだろうか。

  1. aug-cc-pVDZ-PPを使ったGaussianによる構造最適化の設定はどうやるんだっけ?
  2. 久しぶりにGaussianを使うのだが、どうやってファイルを準備して、どうやって入出力すればいいのだろうか?
  3. 半年前ってどういう作業をしていただろうか?

どんな場合でも、やることは検索ただ1つだ。「aug-cc-pVDZ-PP」という検索ワードを使えば試行錯誤と、試行錯誤の結果が出てくるだろうし、少なくともディレクトリはわかるだろう。あるいは、Gaussianの使い方がわからなければ、「Gaussian」という単語で検索してみたり、「g16」という実行コマンドを検索してみたりすれば、それっぽいものはヒットする。半年前は?と思うなら、例えば「2019/09」という検索ワードで検索すれば、日付も記載しているので2019年9月ごろにやった作業内容がすべてヒットする仕組みだ。

質より量が大切

検索システムは、表示によって全く左右されない。だから、見た目は二の次だ。どうせこんなメモは自分以外ほとんど読まない。フォントサイズやセクションのレベルを考えるくらいなら、もっと沢山の物事を記録し続ける方が良い。沢山の文章を書けば、検索でヒットする可能性が高まる。「質より量」なのである。

終わりに:「アレがない!」の労力を無くすために

1年前の自分の作業など、何も覚えていないのが当然。そういうことになった時に「どの作業ディレクトリでやったんだ…」と思い、立ち尽くし、作業ディレクトリ全体をgrepにかけて、ようやくそれらしい作業ディレクトリを見つけたこともある。そんな労力を少しでも減らし、最終的にはゼロにするためにも、こういうメモの努力は必要だと考えている。

出だしが肝心

面白いもので、モラルや信頼、なんでもかんでも、人間は本質的に悪くする(しかし短期的に労が少なかったり、利己的だったりする)方を選ぶ力が働くらしい。積み上げたり維持したりするのはとても大変なわりに、崩れるのは比較的簡単なものだ。 でも1つ例外があって、それが「出だし」。最初の頃の印象は結構残るものだし、組織の雰囲気も最初に感じたものが重要で、後から締め直したところで人間の行動はなかなか変わるものではない。

過去にこんな経験をしたことがある(登場人物は全体で見て尊敬しているので、かなりボカします)。元々リーダーが内務が得意な、メンバーに目を行き届かすタイプの人間で、良いグループが構築されていた。議論や助言も活発で、もちろん遊ぶときは遊ぶ、そんな感じだった。しかしリーダーが外務が得意な方に変わってから、内務が相対的に悪くなり、まず議論が減った。議論が減ると、時間の限られた能力のある人が(利益が少ないと感じたのか)来る頻度が減り、助言が減った。これが2,3年で起きた。その状態から、またもとの状態に戻すのが大変なのは、まぁ想像がつくのではないだろうか。

あるいは、基本的に朗らかなのに、ある特定の人達に対してだけやけに厳しい人というのも複数人見てきた。そういうのを見てしまうと、「裏でどう思われてるかね」と、案外信頼しきれなくなってしまうものだ。

逆に、「うわーこのグループはキツいな…」と思ってから、自分で活動して改善しようとしたところで、うまくいった経験はほとんどない。私の能力不足もあるだろうが、知り合いの話を聴いていても、改善しようとしても心が折れた、というケースの方が多いし、状況はそこまで変わらないらしい。集団のモラルを改善しようと1人で動いたところで、煙たがられるだけなのだ。

信頼についてもそうだ。どれほど親しかったとしても、一度「許さない」と思うようなことがあれば、そこから分かり合うのは非常に難しい。

そんなわけで、最初に信用され、最初に集団としてのモラルをはっきりと示すことが大切だと、強く感じている。

【論文メモ】Cosolvent-Based Molecular Dynamics for Ensemble Docking: Practical Method for Generating Druggable Protein Conformations

とりあえず手法の理解まで。

論文情報

 S. Uehara & S. Tanaka, "Cosolvent-Based Molecular Dynamics for Ensemble Docking: Practical Method for Generating Druggable Protein Conformations", J Chem Inf Model 57, 742-756, 2017. doi: 10.1021/acs.jcim.6b00791

どんな論文?

  • アンサンブルドッキングに用いるタンパク質構造を、cosolvent MDを使って生成
  • MDで生成された多数のタンパク質構造からアンサンブルドッキング用の代表構造選出手法を提案
  • 通常のMDに比べて、cosolvent MDを使うことでアンサンブルドッキングの性能が向上した

背景

  • ドッキング計算はタンパク質の構造変化を考慮しないため、現実に即していない部分が存在
  • タンパク質の柔軟性を考慮する一つの方法として、アンサンブルドッキングがある
  • 実験的に得られた構造だけではアンサンブルが不十分であることもあり、MDに基づくタンパク質構造生成が有望
  • Induced fitによるタンパク質構造変化を起こすためには、化合物のような分子がMDの系に必要
  • また、MDで得られた多数の構造から有望な代表構造群を得ることも重要な課題

手法①:cosolvent MD (CMD, Mixed-solvent MD, MSMD)

  • cosolvent MDでCryptic pocketを出現される手法が存在、ポケットを拡張できる
  • Isopropanol, benzene, purineの3種類について、それぞれ0.25Mの濃度で追加した系を独立に作成
  • 50 ns のシミュレーションを行い、1psごとに合計50,000 件のタンパク質構造を取得

手法②:代表構造の選出

  • 多数の構造について、単純にbinding pocketのRMSDでclusteringしてもドッキングに適さない構造が代表構造として含まれてしまう
  • そこで、KMeans clusteringで500件まで絞って、そのあとにRSPI (Rank-based Screening Performance Index) に基づいて10件のタンパク質構造をアンサンブルドッキング用の構造とする
  • RSPIは、簡単に言うと「Activeのドッキングスコアが高くなるようなタンパク質構造をアンサンブルドッキング用の代表構造とする」ための指標

手法③:アンサンブルドッキング

  • AutoDock Vinaを利用してアンサンブルドッキングを実施
  • アンサンブルを取る際には、最良値を取る/平均値を取るという2パターンを試した。
  • また、比較対象として、通常のMDによる構造群、APO体構造、HOLO体構造の3パターンを用意

データセット および 評価指標

  • DEKOIS 2.0から、6件の標的タンパク質を選択
  • DEKOIS 2.0のActive 40件、Decoy1,200件を利用
  • 6件のタンパク質について、APO体/HOLO体をPDBから取得
  • BEDROC (alpha=20.0) と AUROC で評価

結果と考察

(これから読む。)

【論文メモ】Structure-Based Analysis of Cryptic-Site Opening

論文情報

  1. Sun et al., "Structure-Based Analysis of Cryptic-Site Opening", Structure 28, 1-13, 2020. doi: 10.1016/j.str.2019.11.007

どんなもの?

  • APO構造の中には、薬剤結合するには浅すぎる/小さすぎる Cryptic siteというものが存在することが多い。
  • そのデータセットであるCryptoSite setのうち32種類のタンパク質について精査してみると、Cryptic siteは常にcrypticであることは少ないことが分かった。残基変異や別の部位へのリガンド結合によってポケットが現れることが殆どである。
  • APO構造からHOLO構造へguideするABMDを行い、ポケットのdruggability scoreの分布をみるなどの分析を行った。

かいつまむと

  • CryptoSite set 93タンパク質中、APO構造がPDBに10件以上存在している32件を選択して解析を行ったところ、8件はどのX-ray構造でもcrypticだった一方、6件は時々pocketが姿を見せ、残りの18件は、cryptic site以外の場所における変異やリガンド結合によってポケットが姿を見せる、アロステリックな挙動を示していた。
  • 先述の3グループから1タンパク質ずつ、計3タンパク質を選択して、ABMD (targeted MDみたいなもの) による解析を行ってみると、MD中での構造変化の傾向が異なった(それはそう)。
  • 以上の結果から、cryptic siteを見つけるのに、homologousなタンパク質は有益な情報を提供してくれるだろう。