RDKitとは

ケモインフォマティクス(cheminformatics: 化学 x 情報学の分野)やマテリアルズ・インフォマティクスで使われるオープンソースのツール。

    • 化学分野に特有のファイルであるsdfファイルやSMILES表記の読み書き

 

    • 2D、3Dで分子を描写し、反応性が高い部位などを描画する

 

    LogPなど分子の各種指標(記述子と呼ばれる)を計算する

など、化学物質を統計的に扱ったり、構造を確認する上で、様々なことができる。

RDKit+Jupyter notebookの環境構築

RDKitは、Pythonで動かすが、通常のライブラリのように、pip installが使えない(→理由)。RDKitの公式サイトでは、Anacondaを使ってそれ専用の環境を用意する方法をすすめているので、基本的にそれに従ってインストールする。

本記事ではさらにJupyter notebook上で、R言語のようにインタラクティブに動かす環境の構築を目指す。Jupyter notebookを使うと、データやライブラリをいちいち読み込まなくていい上に、実行結果を随時確認できるのが便利である。(ただし、画像データを扱うときに一工夫必要な時がある。)

手順

【動作確認OS】Windows 10、MacOS

    1. Anacondaを(公式サイト)からダウンロード・インストールする。

 

    1. Anacondaがすでにインストールされている場合には、conda prompt(*Windowsの場合。Macの場合はターミナル上、以下同様。)上で、$ conda update condaをして最新の状態にアップデートしておく。

 

    1. conda prompt上で、$ conda create -c conda-forge -n my-rdkit-env rdkitと入力して実行。インストール途中で proceed?と聞かれたらyを入力してEnter。

 

    1. RDKitのインストールが終わったあと、$ conda activate my-rdkit-envとすると、RDKitが動く環境がアクティベートされる(プロンプト上に(my-rdkit-env)の文字が表示される)。

 

    1. 上記の状態で、$ conda install notebook ipykernelと入力して実行し、my-rdkit-env環境の中にJupyter notebookをインストールする。

 

    1. 続けて、$ipython kernel install –user –name my-rdkit-env とすると、Jupyter notebookのkernelに、作成した”my-rdkit-env”環境が追加される(再起動すると表示されるようになる)。

 

    Jupyter notebookを開いている場合にはいったん終了する。conda promptを閉じ、Anacondaを終了する。

テスト:SMILESから構造式を描写してみよう!

image.png
from rdkit import Chem
m = Chem.MolFromSmiles('COC(=O)c1ccccc1O')
m

入力したセルを実行する(Shift+Enter)と、以下の出力が得られる。

image.png

もっと色々な機能を試したい人は…。

有志の方が公式ドキュメントを日本語に翻訳してくれています。順に試してみましょう。
https://rdkit.org/docs_jp/Getting_Started_with_RDKit_in_Python_jp.html

广告
将在 10 秒后关闭
bannerAds