RDKitとは
ケモインフォマティクス(cheminformatics: 化学 x 情報学の分野)やマテリアルズ・インフォマティクスで使われるオープンソースのツール。
-
- 化学分野に特有のファイルであるsdfファイルやSMILES表記の読み書き
-
- 2D、3Dで分子を描写し、反応性が高い部位などを描画する
- LogPなど分子の各種指標(記述子と呼ばれる)を計算する
など、化学物質を統計的に扱ったり、構造を確認する上で、様々なことができる。
RDKit+Jupyter notebookの環境構築
RDKitは、Pythonで動かすが、通常のライブラリのように、pip installが使えない(→理由)。RDKitの公式サイトでは、Anacondaを使ってそれ専用の環境を用意する方法をすすめているので、基本的にそれに従ってインストールする。
本記事ではさらにJupyter notebook上で、R言語のようにインタラクティブに動かす環境の構築を目指す。Jupyter notebookを使うと、データやライブラリをいちいち読み込まなくていい上に、実行結果を随時確認できるのが便利である。(ただし、画像データを扱うときに一工夫必要な時がある。)
手順
【動作確認OS】Windows 10、MacOS
-
- Anacondaを(公式サイト)からダウンロード・インストールする。
-
- Anacondaがすでにインストールされている場合には、conda prompt(*Windowsの場合。Macの場合はターミナル上、以下同様。)上で、$ conda update condaをして最新の状態にアップデートしておく。
-
- conda prompt上で、$ conda create -c conda-forge -n my-rdkit-env rdkitと入力して実行。インストール途中で proceed?と聞かれたらyを入力してEnter。
-
- RDKitのインストールが終わったあと、$ conda activate my-rdkit-envとすると、RDKitが動く環境がアクティベートされる(プロンプト上に(my-rdkit-env)の文字が表示される)。
-
- 上記の状態で、$ conda install notebook ipykernelと入力して実行し、my-rdkit-env環境の中にJupyter notebookをインストールする。
-
- 続けて、$ipython kernel install –user –name my-rdkit-env とすると、Jupyter notebookのkernelに、作成した”my-rdkit-env”環境が追加される(再起動すると表示されるようになる)。
- Jupyter notebookを開いている場合にはいったん終了する。conda promptを閉じ、Anacondaを終了する。
テスト:SMILESから構造式を描写してみよう!
from rdkit import Chem
m = Chem.MolFromSmiles('COC(=O)c1ccccc1O')
m
入力したセルを実行する(Shift+Enter)と、以下の出力が得られる。
もっと色々な機能を試したい人は…。
有志の方が公式ドキュメントを日本語に翻訳してくれています。順に試してみましょう。
https://rdkit.org/docs_jp/Getting_Started_with_RDKit_in_Python_jp.html