机器学习，通过结构预测化学反应性

在有机合成化学领域，发现新反应的“灵感”往往来源于经验、专业知识、对化学机理的深刻理解，甚至来源于直觉。然而，精确预测单一化学反应的结果，无论是对于优秀的化学家还是计算机模型都是巨大挑战，因为优化反应需要收集大量的实验数据。即使已经建立起的成熟的方法学，对于经验丰富的化学家来说，也常常难以预测复杂底物是否会发生预期的转化。这使得不少化学合成的任务变得挑战性高且费时费力（这意味着对于合成经验不丰富的小伙伴来说，重复文献结果颇具难度，延期毕业风险与日俱增）。

为应对这一化学合成领域难题，德国明斯特大学化学系的Frank Glorius教授团队（图1）发展了基于分子结构预测化学反应性的机器学习平台。

文2-1.jpg

图1. Frank Glorius教授团队。图片来源：University of Muenster ^[1]

目前，基于对机制的理解人们可以对合成反应作出准确的定性评估。不过，化学结构和反应之间的关系极其复杂，单凭化学直觉做定量预测几乎是不可能的。机器学习算法在许多领域都得到了广泛的应用，然而在化学领域被应用于定量预测化学反应直到最近才开始。这主要是由于缺乏可用的数据，虽然分子性质可以通过密度泛函理论（DFT）计算来获得，但是要拿到特定反应数据，没有比直接去实验室开实验更好的办法了。为了产生这些数据，学术界已经开发了在批次和连续流动条件下进行高通量实验的技术，以便用几毫克材料在短时间内进行数千次反应。利用这些工具，结合实体和虚拟化合物库，化学反应领域的机器学习模型被不断开发出来。

机器学习模型要对相关化合物进行全面的识别，需要将化学结构转化为机器可读的表达模式。由于每个分子和反应都是唯一的，因此要选择一组通用且一致的物理性质作为普遍分子描述符就变得极具挑战性。Frank Glorius团队提出，所有物理参数最终可以追溯到化合物二维Lewis结构，并假定Lewis结构可以作为基于机器学习预测化学反应性的理想输入（图2）。

文2-2.jpg

图2. 有机化学通用预测平台概念图。图片来源：ChemRxiv

首先，他们需要找到一种能被机器读取的Lewis结构描述方式。在化学信息学中，通常是使用字符串方式（如SMILES、InChI等）来描述结构。然而，这类字符串没有固定的长度或可定义的起始点，基于算法的模式识别采用这样的方式就不太合适了。他们认为解决这个问题的直接方案是使用分子指纹（molecular fingerprints），这些位向量（bit vectors）已被用于子结构和相似性结构搜索，也被成功地应用于药物开发中的虚拟筛选。科学家们已经开发了一些分子指纹，可以在亚秒的水平上进行有效计算，长度一致且与分子大小无关。这些优势，让分子指纹看起来非常适合作为机器学习模型的输入。

Frank Glorius团队推出的这个基于结构的机器学习平台，可以进行有机化学性质和反应性预测。这种策略仅依靠相关分子的SMILES为输入，就可将其自动转换为相应的分子指纹，所以可非常方便地用于现有问题集。具体来说，该方法为每个分子产生一个配置多样的指纹阵列（24种分子指纹）。这种多指纹特征（multiple fingerprint feature, MFF）输入与观察到的实验数据相匹配，被用于训练机器学习模型，使得该模型最终能够预测训练集之外的化学性质和反应性（图3）。

文2-3.jpg

图3. 多指纹特征（MFF）模型示意图。图片来源：ChemRxiv

过去几十年开发的机器学习算法，大致可以分为“基于距离（distance-based）”和“非基于距离（non-distance-based）”两大类。基于距离的算法建立在“相似输入产生相似输出，反之亦然”的假设之上。然而，在有机化学中，相似的结构并不一定总能发生相似的反应。因此，他们选择非基于距离的算法，具体来说是一种多参数随机森林（random forest）算法来构建机器学习模型。接下来，他们将自己的模型应用到一系列结构不同的分子中。他们从自己研究小组化学库中选择2900多个有机小分子进行计算，结果发现多指纹特征（MFF）模型能够精确预测HOMO-LUMO能隙，10多个随机交叉验证步骤所显示的平均R²为0.89。由于HOMO–LUMO能隙是分子的一个整体性质，这说明MFF模型不仅能表征和比较分子的局部亚结构，而且能反映分子的整体特征。这个结果也支持了他们最初的假设，即（计算）分子性质最终可以回溯到（2D）Lewis结构中（图4）。

文2-4.jpg

图4. 轨道能量预测。图片来源：ChemRxiv

预测催化反应的对映选择性是化学界关注的一个热点。以往有研究基于单热编码模型（one-hot encoded model）进行预测，将样本外（out-of-sample）预测数据划分为一个通用训练集、一个底物测试集（sub）、一个催化剂测试集（cat）和一个两者兼有测试集（sub-cat）。Frank Glorius团队在数据分割上沿用以往研究经验，但采用随机森林算法，结果表明他们的模型精确度更高。特别是在最具挑战性的催化剂样本外预测（cat，sub-cat）中表现尤为突出。当单热编码模型相关性非常低时，他们的多指纹特征模型性能几乎与原始复杂描述符模型一样好，这些结果进一步证明了多指纹特征方法的有效性及其对不同化学问题的适用性（图5）。

文2-5.jpg

图5. 对映选择性预测。图片来源：ChemRxiv

与立体选择性相比，定量预测产率的要求更高，因为它们受到许多参数的影响，而不仅仅依赖于一个基本步骤。Frank Glorius团队同样基于以往的运算经验分割样本外数据，并运用多指纹特征输入方式，4组测试集中有3组显示了相当好的相关性，测试结果依然比单热编码模型的表现要好很多（图6）。

文2-6.jpg

图 6. 产量预测。图片来源：ChemRxiv

最后，他们使用了一个报道中的真实实验数据集进行应用研究。2015年，Dreher等人在纳摩量级上进行了自动化高通量筛选，以寻找适合碳-杂原子成键的条件（Science, 2015, 347, 49–53）。在钯催化下，亲电试剂3-溴吡啶与16种不同的氮、氧、碳、磷和硫亲核试剂进行偶联反应（图7a）。他们研究了16种催化剂和6种碱，在不到一天时间内进行1536次反应，并用液相色谱-质谱法（LC-MS）测定相对转化率。基于该报道的数据，Frank Glorius团队采用多指纹特征模型以类似于之前报道的产量预测方式直接预测相对转化率，结果令人鼓舞。他们的多指纹特征模型具有良好的反应预测相关性，显著高于单热编码模型（R²分别为0.76和0.59）。此外，应用多指纹特征模型还可以实现催化剂的样本外预测。利用12种催化剂的数据预测其余4种催化剂的反应均得到令人满意的结果。这证明了多指纹特征方法的通用性，及其学习化学结构和预测化学反应活性的潜力（图7）。

文2-7.jpg

图7. 预测反应性。图片来源：ChemRxiv

至此，Frank Glorius团队基于分子结构预测化学反应性的机器学习平台介绍完毕。贴心的是，为了帮助化学合成的小伙伴们能快速运用这种方法，他们提供了一种易于应用的软件工具，并且正在开发一种扩展软件包。笔者也认为，这种广义的基于结构的预测方法将有助于加快机器学习预测模型在分子化学中的应用。

原文（扫描或长按二维码，识别后直达原文页面，或点此查看原文）：

文2-91.jpg

A Structure-Based Platform for Predicting Chemical Reactivity

Frederik Sandfort, Felix Strieth-Kalthoff, Marius Kühnemund, Christian Beecks, Frank Glorius

ChemRxiv, 2019, DOI: 10.26434/chemrxiv.9981488.v1

参考文献：

1. Glorius Group

https://www.uni-muenster.de/Chemie.oc/glorius/