Utilizing Reinforcement Learning for de Novo Drug Design #35

shnakazawa · 2023-12-04T00:37:19Z

Svensson, Hampus Gummesson, et al. “Utilizing Reinforcement Learning for de Novo Drug Design.” arXiv [q-bio.BM], 30 Mar. 2023, http://arxiv.org/abs/2303.17615. arXiv.

新薬の開発に強化学習を応用。目的の性質を持つ候補分子を探索するフレームワークを構築。
- 新薬開発の成功率は成功率3万分の1とも言われるような世界。本論文の手法が実際に使えるとなるとインパクトは大きい。
新薬開発の特徴として、目的の性質を十分に満たせれば、局所最適解の発見でも問題ない。
- = 多様な答えがありうる。
- = 学習中のステップで最高のスコアを示しているものでなくても、目的に到達できる可能性がある。
Diversity FilterのとReplay bufferの導入・工夫により多様な分子が学習対象と扱われるようになり、高活性を期待できる多様な分子の提案に成功した。

多様性が必要となる文脈では同じ発想が使えそう。すなわち応用は創薬以外にも！

Abstract

Deep learning-based approaches for generating novel drug molecules with specific properties have gained a lot of interest in the last years. Recent studies have demonstrated promising performance for string-based generation of novel molecules utilizing reinforcement learning. In this paper, we develop a unified framework for using reinforcement learning for de novo drug design, wherein we systematically study various on- and off-policy reinforcement learning algorithms and replay buffers to learn an RNN-based policy to generate novel molecules predicted to be active against the dopamine receptor DRD2. Our findings suggest that it is advantageous to use at least both top-scoring and low-scoring molecules for updating the policy when structural diversity is essential. Using all generated molecules at an iteration seems to enhance performance stability for on-policy algorithms. In addition, when replaying high, intermediate, and low-scoring molecules, off-policy algorithms display the potential of improving the structural diversity and number of active molecules generated, but possibly at the cost of a longer exploration phase. Our work provides an open-source framework enabling researchers to investigate various reinforcement learning methods for de novo drug design.

(DeepL翻訳)

特定の性質を持つ新規の医薬品分子を生成するための深層学習ベースのアプローチは、ここ数年、多くの関心を集めている。最近の研究では、強化学習を利用した文字列ベースの新規分子生成の有望な性能が示されている。本論文では、強化学習をde novoドラッグデザインに利用するための統一的なフレームワークを開発し、ドーパミン受容体DRD2に対する活性が予測される新規分子を生成するRNNベースのポリシーを学習するために、様々なオン/オフポリシー強化学習アルゴリズムと再生バッファを体系的に研究している。その結果、構造的多様性が重要な場合、少なくともトップスコアとロースコアの両方の分子をポリシーの更新に使用することが有利であることが示唆された。また、生成されたすべての分子を繰り返し使用することで、オンポリシーアルゴリズムの性能安定性が向上するようです。さらに、高スコア、中間スコア、低スコアの分子を再生する場合、オフポリシーアルゴリズムは、構造多様性と生成される活性分子の数を改善する可能性を示すが、探索段階が長くなることを代償としている可能性がある。本研究は、de novoドラッグデザインのための様々な強化学習法を研究するためのオープンソースのフレームワークを提供するものである。

コード

GitHub

解決した課題/先行研究との比較

新薬候補物質の探索に機械学習が用いられるようになってきており、強化学習を使った報告もいくつも出てきている。
多くの報告では、一般的な強化学習のように「活性の最も期待できる分子Top○%」を次のサイクルに回すような形で学習を進めていた。
本論文では学習途中で成績の悪い分子もあえて残すことで、薬として十分な活性を期待できる多様な分子の提案に成功した。

技術・手法のポイント

新薬開発においては必ずしも（唯一の）全体最適解を見つける必要がない。性能が閾値を超えていれば局所最適解に向かっている分子でも目的達成となる。そのため、多様性の確保に重きをおく工夫が導入されている。

多様な解を得るため、以前の学習サイクルでスコアづけした分子を "Replay Buffer" に保存。そこから特定の割合で、特定のスコアの分子を、現在進行中の学習プロセスに戻す。
- 戻すときに「全てを戻す」「スコアTop層のみ戻す」「Top層とBottom層のみを戻す」など条件を振り検証
- →TopスコアとBottomスコアの両方の分子の再考が多くの条件下でベストであった (Fig.5他))
さらに、似たような構造の分子にペナルティを課すDiversity Filterを導入。これにより多様な分子を生成・評価できた。

評価指標

分子、分子スキャフォールド、トポロジースキャフォールドの数で多様性を評価。Episodic Rewardsで活性の高さを評価。
- スキャフォールド：薬が作用するために必要な基盤、みたいなイメージ。それを分子レベル（分子スキャフォールド）および構造レベル（トポロジースキャフォールド）で評価
On/Off Policy, With/without Diversity Filterの組み合わせの4条件で検証。いずれのケースでも、Top層だけでなくTop層とBottom層をReplay Bufferから現行の学習に混ぜ戻すもののほうが良いスコアを示した。
- On Policy/Without Diversity Filterのケースでは中間的なスコアのものも重要

感想

今回はdopamine receptor (DRD2)をターゲットとした薬剤のみで検証されている。他の受容体や、あるいは他の作用機序の薬剤でも同手法が使えるのかデータが欲しい (使えないと考える理由はないが)
同様に、SMILES記法以外での表現にも使えるだとか、新薬開発以外の文脈でも使えるだとか、「今回のタスクspecificではない」というデータが付けばさらにインパクトのある論文になりそう。

重要な引用

Schneider, Gisbert, and Uli Fechner. “Computer-Based de Novo Design of Drug-like Molecules.” Nature Reviews. Drug Discovery, vol. 4, no. 8, Aug. 2005, pp. 649–63.
- 新薬開発への計算機の応用についてのレビュー。
Fedus, William, et al. “Revisiting Fundamentals of Experience Replay.” Proceedings of the 37th International Conference on Machine Learning, edited by Hal Daumé Iii and Aarti Singh, vol. 119, PMLR, 13--18 Jul 2020, pp. 3061–71.
- Replay bufferについて
Blaschke, Thomas, et al. “Memory-Assisted Reinforcement Learning for Diverse Molecular de Novo Design.” Journal of Cheminformatics, vol. 12, no. 1, Nov. 2020, p. 68.
- 似た構造の分子を予測することにペナルティを課す。Diversity Filter.

shnakazawa added Materials informatics Reinforcement Learning labels Dec 4, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Utilizing Reinforcement Learning for de Novo Drug Design #35

Utilizing Reinforcement Learning for de Novo Drug Design #35

shnakazawa commented Dec 4, 2023

Utilizing Reinforcement Learning for de Novo Drug Design #35

Utilizing Reinforcement Learning for de Novo Drug Design #35

Comments

shnakazawa commented Dec 4, 2023

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

感想

重要な引用