传统的材料研发和合成面临一些巨大的挑战。特别是一些组分或者结构复杂的材料,比如有机分子,高分子,有机无机混合材料,因为它们化学空间和合成路径的巨大的可调性,往往需要巨大的试错成本。并且在这一过程中还需要很有经验和化学直觉的实验者设计完成实验。所以研发新的工具可以帮助高效快速地探索合成反应空间最近因着机器学习的兴起成为新的研究热点。其中金属有机纳米胶囊(metal-organic nanocapsules)的合成就是其中一种。因其在催化、气体吸附与分离、传感器等领域的优异表现而引起研究学者的极大兴趣。然而,跟其它材料合成一样,金属有机纳米胶囊的合成依然依赖繁琐复杂且低效的试错路径。
最近,密苏里大学机械工程系林见课题组联合该校化学系有机化学教授Jerry L. Atwood课题组,提出了机器学习算法辅助材料合成。该算法利用已经完有的实验数据(包括成功的和失败的实验)可成功预测给定反应条件下金属有机纳米胶囊的结晶与否(准确率大于90%),从而极大减少因试错过程中产生的人力物力的投入,缩短新型金属有机纳米胶囊的发现周期。最重要的是算法可以帮助提取材料合成隐藏的信息,从而有助于培养实验者的化学直觉。相关研究成果以题为“Machine Learning Assisted Synthesis of Metal-Organic Nanocapulses”发表在化学专刊Journal of the American Chemical Society上。
"
首先,研究人员将从实验记录本中整理出的486个实验数据作为原始数据集,包含193个反应产物出现单晶的记录(标记为1)与293个无任何反应或生成沉淀的记录(标记为0),见上图。根据个人经验与文献阅读,我们确定了17条可能影响金属有机纳米胶囊结晶的化学特征,并将上述原始数据集按照7/3的比例划分为训练集与测试集。
"
研究人员比较九种不同的机器学习算法,发现XGBoost算法表现出最高的预测准确率91 %和F1检验值87 %,同时也具有最高的AUC值、召回率和精确率,见上图。
"
其次,研究人员通过XGBoost的特征重要性函数,发现合成制备金属有机纳米胶囊过程中,试剂、有机配体、调节剂和阳离子是最主要的是否形成单晶的影响因素,见上图。另外研究人员还发现,即使化学特征的数量由原来的17个减少到6个,XGBoost算法依然表现出极高的鲁棒性。
"
再其次,研究人员通过对XGBoost决策过程的详细研究,总结了三条制备金属有机纳米胶囊单晶的可能路径,见上图。研究人员可以根据金属阳离子的价态与半径制定出合适的反应条件。
"
最后,研究人员设计了三类共20个实验用以验证得出的三条化学假设。结果表明,XGBoost具有比研究人员更高的预测准确率。同时发现一个新型金属有机纳米胶囊单晶SCP-4,它是由两种不同的纳米胶囊单元相互连接而成,见上图。
该研究的意义在于,首次将机器学习算法用于合成制备金属有机纳米胶囊,既可缩减合成反应的数量以减少人力物力的投入,又可深入分析反应条件背后的化学启示以指导下一步研究方向。该方法还可通过变更机器学习算法的化学特征以扩展到其他有机无机化合物的合成与发现,同时将机器学习算法与高通量合成也会为化合物的发现与发展带来无限可能。
文章链接:https://pubs.acs.org/doi/10.1021/jacs.9b11569