化学×AI技術で世界を変える研究室

Research

Research

Virtual screeningにおけるアンサンブル効果と立体配座の影響


大規模化合物データベースから活性化合物(リガンド、阻害剤など)を抽出するために、化合物の2D,3D構造情報に基づく類似性を基準としたスクリーニング(多様な化合物から特定の化合物を選抜)が行われます。 活性化合物が生体内で標的マクロ分子との結合状態を示す立体配座の利用が、スクリーニングの精度向上に必要だと思われていました。 しかし、結晶構造から得た立体配座に基づくスクリーニングを行った場合と、その立体配座から最も似ていない(ただし、妥当な立体配座)状態で、ROCS[1]スクリーニングをした場合、両者に違いは見られませんでした。 また、活性化合物に対して仮想的に発生させたアナログを使った場合であっても、活性化合物からなるアナログを使った場合であっても、スクリーニングにおいて、後者が必ず前者より優れているという結果は得られませんでした。 つまり、類似性検索に基づくスクリーニングでは、3D立体構造はそれほど重要でないことを示唆する結果となりました[2]。
  1. ROCS version 3.2.2.2, OpenEye Scientific Software, Santa Fe, NM
  2. Miyao T. & Bajorath J. J., Comput. Aided Mol. Des., 32, 759-767, 2018

ドラッグライク化合物と天然物の可視化による知見抽出

大規模化合物データベースから活性化合物(リガンド、阻害剤など)を抽出するために、化合物の 2000年〜2010年までに認可された低分子カテゴリに属する約50%が天然物を起源とし、新規骨格を持つ薬の候補として天然物は重要な役割を果たします[1]。 また、経口薬として認められるためには、溶解性や毒性(代謝等)、膜透過性が望ましい化合物(ドラッグライクな化合物)を提案する必要があります。 そこで、天然物とドラッグライクな化合物データベース([2,3])を2次元多様体へ写像することで、可視化を行いました。
 図から、化学空間における、天然物とドラックライクな化合物の分布が把握できます。 背景色の濃さは芳香環の数に対応し、色の濃い領域にドラッグライクな化合物が多く分布しており、創薬対象としての化合物の傾向が反映されています。 特定の標的に活性のあるドラッグライク化合物に対応する天然物の探索や、反対に、天然物と同じ領域に分布しているドラッグライク化合物の探索を行うことで、 次の研究対象となる化合物を特定することや、知見を抽出することができます[4]。
  1. Newman, D. J, Cragg, G. M. J. Nat. Prod. 2012, 75 (3), 311–335.
  2. http://dnp.chemnetbase.com
  3. Schneider P, Schneider G. QSAR Comb Sci 2003; 22: 713-718.
  4. Miyao T, Reker D, Schneider P, Funatsu K, Schneider G. Planta Med 2015; 81: 429-435.

深層学習を用いた化学反応の収率予測


化学反応における収率は、反応経路を決定するための判断基準となります。先例のない反応では、化学者は勘と経験をもとに反応条件を決定する。化学反応の収率予測が可能となれば、高い収率が期待される反応に焦点を当てることができます。そのため、合理的な反応経路の設計につながり、金銭的・時間的コストの削減に繋がります。
 大規模データに適用可能な機械学習を利用した収率予測の研究[1]では、計算コストの高い量子化学計算が必要であることに加えて、モデル構築に利用していない化合物を含む反応の収率予測精度が低いという課題があります。そこで、本研究では深層学習を用いてこの課題に取り組んでいます。
  1. D. T. Ahneman, J. G. Estrada, S. Lin, S. D. Dreher, A. G. Doyle. Science. 2018, 360, 186-190

定量的構造活性相関モデリングにおけるデータ統合手法の開発

化合物の構造と⽣理活性との間の相関関係を解析し、化合物の活性を予測する統計モデルを定量的構造活性相関(QSAR)モデルと言います。QSARモデルは医薬品開発における候補化合物の探索などに⽤いられ、一般的に半数阻害濃度(IC50)、阻害定数(Ki)などを予測対象としています。IC50は実験系固有の測定値であり、QSARモデル構築では単一の実験系から取得されたデータを利用するべきですが、データ数の不足により十分な性能のモデルを構築出来ない場合があります。そのため、異なる実験系から取得したデータセットを統合する⼿法はQSARモデリングにおけるデータ不⾜を解消し、予測性能を向上させる事が期待出来ます。また、データベース上に蓄積された実験データを有効活⽤する事にも繋がります。本研究では、異なる実験系からの化合物データを統合することで、⾼精度なQSAR モデルを構築する新規の⼿法開発を行いました。
  1. A. A. Lagunin, et al., Chem. Inf. Model.2019, 59, 2 713-730

重要な動特性変数を自動抽出するソフトセンサー構築手法の開発


化学反応における収率は、反応経路を決定するための判断基準となります。先例のない反応で 近年、化学工業におけるプロセスの監視を目的として、測定容易なプロセスを用いて測定困難なプロセスを推定するソフトセンサーが広く用いられています。また、温度や圧力といったプロセスは時間遅れを伴って製品濃度や密度に影響を与えることがあります。 したがって、時間遅れを考慮してソフトセンサーの式を構築する必要があります。
時間遅れを考慮した既存手法であるGAVDS法[2]では、入力に用いるデータによって選択される時間遅れが大きくなるという問題点がありました。そこで、本研究では、複数の入力データの結果をもとに解を求めるアンサンブル学習を導入することで、 各プロセスの時間遅れ変数を決定しました[3]。この提案手法によって、各プロセスにおける重要な時間遅れが解明され、モデルの精度や解釈性が向上することを文献データによる検証によって確認しました。
  1. D. T. Ahneman, J. G. Estrada, S. Lin, S. D. Dreher, A. G. Doyle. Science. 2018, 360, 186-19Kadlec P, Gabrys B, Strandt S. Comput Chem Eng. 2009, 33, 795-814.
  2. Kaneko H, Funatsu K. AIChE J. 2012, 58, 1829-1840
  3. Hikosaka T, Aoshima S, Miyao T, Funatsu K. Ind.Eng.Chem.Res. 2020, 59, 26 12156-12163
Copyright©Data-driven Chemistry Group,2022All Rights Reserved.