- +1
《自然》封面:人工智能掀起材料革命,將顛覆人類科研方式

發(fā)現(xiàn)一種新的材料是非常艱難的過(guò)程,通常要經(jīng)歷無(wú)數(shù)次失敗,偶爾在機(jī)緣巧合之下取得成果,還要費(fèi)勁功夫反向檢測(cè)這種新材料的性質(zhì)。但有一批材料科學(xué)家轉(zhuǎn)換思路,使用計(jì)算機(jī)模型和機(jī)器學(xué)習(xí)算法生成海量假想的材料,建立數(shù)據(jù)庫(kù),從中篩選出值得合成的材料,再通過(guò)檢索這些材料可能擁有的性質(zhì)進(jìn)行具體應(yīng)用測(cè)試,比如將這種材料用作導(dǎo)體表現(xiàn)如何、用作絕緣體性能又如何、這種材料是否具有磁性、那種材料的抗壓力是多少。
2016年5月5日,Nature 將一篇機(jī)器學(xué)習(xí)算法改變材料發(fā)現(xiàn)方式的論文放上封面,并提出“從失敗中學(xué)習(xí)”:美國(guó)研究者利用機(jī)器學(xué)習(xí)算法,用失敗或不成功的實(shí)驗(yàn)數(shù)據(jù)預(yù)測(cè)了新材料的合成,并且在實(shí)驗(yàn)中機(jī)器學(xué)習(xí)模型預(yù)測(cè)的準(zhǔn)確率超過(guò)了經(jīng)驗(yàn)豐富的化學(xué)家,這意味著機(jī)器學(xué)習(xí)將改變傳統(tǒng)材料發(fā)現(xiàn)方式,發(fā)明新材料的可能性也大幅提高。
使用計(jì)算機(jī)模型和機(jī)器學(xué)習(xí)算法的好處在于,失敗的實(shí)驗(yàn)數(shù)據(jù)也能用作下一輪的輸入,繼而不斷完善算法。倫敦帝國(guó)學(xué)院研究副院長(zhǎng)、材料科學(xué)家 Neil Alford 以觀察者身份發(fā)表評(píng)論,這種做法代表了實(shí)驗(yàn)科學(xué)和理論科學(xué)的真正融合。
加州大學(xué)伯克利分校的材料科學(xué)家 Gerbrand Ceder 在接受 Nature 記者采訪時(shí)說(shuō),使用機(jī)器學(xué)習(xí)算法有望大幅提高新材料發(fā)現(xiàn)的速度和效率。Ceder 是最早開(kāi)始使用計(jì)算模型和機(jī)器學(xué)習(xí)生成假想材料的科學(xué)家之一,他以化合物磷酸鐵鋰為例:磷酸鐵鋰最初于 20 世紀(jì) 30 年代被合成,但當(dāng)時(shí)世人并不認(rèn)為這種材料會(huì)有多大用途,直到 1996 年科學(xué)家發(fā)現(xiàn)磷酸鐵鋰大有取代現(xiàn)有鋰離子電池的可能。
哈佛大學(xué)的研究者采用計(jì)算材料科學(xué)思路,使用“失敗”數(shù)據(jù),成功完成了這篇被選為本期 Nature 封面的論文。
有了機(jī)器學(xué)習(xí),再也不怕失敗了
論文標(biāo)題:Machine-learning-assisted materials discovery using failed experiments
作者:Paul Raccuglia、Katherine C. Elbert、Philip D. F. Adler、Casey Falk、Malia B. Wenny、Aurelio Mollo、Matthias Zeller、Sorelle A. Friedler、Joshua Schrier、Alexander J. Norquist
來(lái)源:Nature 533, 73–76 (05 May 2016) doi:10.1038/nature17439
使用失敗實(shí)驗(yàn)在機(jī)器學(xué)習(xí)輔助下進(jìn)行材料發(fā)現(xiàn)(摘譯)
對(duì)諸如有機(jī)模板合成的金屬氧化物、金屬有機(jī)骨架(MOF)和有機(jī)鹵化鈣鈦礦等無(wú)機(jī)-有機(jī)雜化材料的研究已經(jīng)持續(xù)了數(shù)十年。水熱法和(非水)溶劑熱合成已經(jīng)產(chǎn)生了數(shù)千種新材料,這些新材料幾乎包含了元素周期表中的所有元素。然而,我們?nèi)晕闯浞掷斫膺@些化合物的形成過(guò)程,對(duì)新化合物的開(kāi)發(fā)主要依靠試探性合成。在Materials Genome Initiative的推動(dòng)下,計(jì)算機(jī)模擬和數(shù)據(jù)驅(qū)動(dòng)的方法成為對(duì)實(shí)驗(yàn)試錯(cuò)方法的替代選擇。三個(gè)主要的策略是:基于模擬來(lái)預(yù)測(cè)材料的電荷遷移率、光生伏打性質(zhì)、氣體吸附能力和鋰離子嵌入等物理性質(zhì),從而確定那些有前景的合成對(duì)象。通過(guò)整合高通量合成與測(cè)量工具,從大規(guī)模實(shí)驗(yàn)數(shù)據(jù)中確定材料的結(jié)構(gòu)-性質(zhì)關(guān)系。基于諸如沸石結(jié)構(gòu)分類和氣體吸附性能等相似的晶體結(jié)構(gòu),對(duì)材料進(jìn)行聚類。
在這里,我們展示了用反應(yīng)數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)算法,繼而預(yù)測(cè)模板合成的釩亞硒酸鹽結(jié)晶過(guò)程的反應(yīng)結(jié)果。我們使用未發(fā)表的“黑暗”反應(yīng)信息,這些反應(yīng)信息來(lái)自那些失敗或未成功的水熱合成實(shí)驗(yàn)。我們從實(shí)驗(yàn)室的筆記本檔案中收集了這些信息,并運(yùn)用化學(xué)信息學(xué)技術(shù)為筆記本中的原始數(shù)據(jù)添加了理化性質(zhì)描述。我們用由此產(chǎn)生的數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型預(yù)測(cè)反應(yīng)能否成功。當(dāng)使用先前未經(jīng)測(cè)試的、市場(chǎng)有售的有機(jī)砌塊進(jìn)行水熱合成實(shí)驗(yàn)時(shí),我們的機(jī)器學(xué)習(xí)模型獲得了比傳統(tǒng)人類策略更好的效果,并成功預(yù)測(cè)了有機(jī)模板合成的無(wú)機(jī)物的形成條件,成功率達(dá) 89%。對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行反演后,可以揭示出關(guān)于成功產(chǎn)物形成條件的嶄新假設(shè)。
實(shí)驗(yàn)中機(jī)器學(xué)習(xí)模型反饋機(jī)制示意圖

機(jī)器學(xué)習(xí)模型超越傳統(tǒng)人類策略

支持向量決策樹(shù)

算法生成的假設(shè)及其化學(xué)三維結(jié)構(gòu)模型

我們的機(jī)器學(xué)習(xí)方法使我們能夠利用包含歷史反應(yīng)的化學(xué)信息,并闡明支配反應(yīng)結(jié)果的因素。機(jī)器學(xué)習(xí)模型對(duì)先前未經(jīng)測(cè)試的有機(jī)胺的預(yù)測(cè)準(zhǔn)確率,超過(guò)了依靠多年來(lái)形成的化學(xué)直覺(jué)所實(shí)現(xiàn)的準(zhǔn)確率。此外,我們的方法以可驗(yàn)證的假設(shè)形式揭示了支配反應(yīng)結(jié)果的化學(xué)原理,它能更成功地制造新化合物,也能產(chǎn)生有用的化學(xué)信息,這代表了試探性反應(yīng)的革新性進(jìn)步。
AI 真能發(fā)現(xiàn)神奇材料嗎?
計(jì)算材料科學(xué)還是一門(mén)新興的學(xué)科,其主要推動(dòng)著就是上文提到的加州大學(xué)伯克利分校的材料科學(xué)家 Gerbrand Ceder 。受人類基因組計(jì)劃的啟發(fā),Ceder 想到了使用高通量數(shù)據(jù)驅(qū)動(dòng)的方法進(jìn)行材料發(fā)現(xiàn)。Ceder 認(rèn)為,人類基因組本身并非能作為疾病治療的方案,但卻可以為醫(yī)學(xué)提供研發(fā)疾病治療方案的海量基本定量數(shù)據(jù)——材料科學(xué)是不是也能借鑒遺傳科學(xué)的方法,用“材料基因組”(該詞為 Ceder 所創(chuàng))編碼各種化合物呢,就像 DNA 堿基對(duì)編碼蛋白質(zhì)等各種生物材料一樣?
2003 年,Ceder 研究組創(chuàng)建了一個(gè)量子力學(xué)計(jì)算數(shù)據(jù)庫(kù),用于預(yù)測(cè)金屬合金最有可能形成的晶體結(jié)構(gòu),因?yàn)檫@是發(fā)明新材料的基礎(chǔ)。在過(guò)去,即使使用用超級(jí)計(jì)算機(jī)也需要通過(guò)多次反復(fù)長(zhǎng)期大量試錯(cuò)找到合金的基態(tài)。但在 Ceder 研究組 2003 年發(fā)表的一篇論文中,他們描述了一種捷徑:研究人員首先計(jì)算出一些常見(jiàn)二元合金晶體結(jié)構(gòu)的能量,建立小型數(shù)據(jù)庫(kù),然后設(shè)計(jì)了一種機(jī)器學(xué)習(xí)算法,這種算法可以從上述數(shù)據(jù)庫(kù)中提取模式,繼而預(yù)測(cè)出新合金基態(tài)的可能值。結(jié)果表明,Ceder 研究組設(shè)計(jì)的這種機(jī)器學(xué)習(xí)算法表現(xiàn)良好,大大縮減了計(jì)算時(shí)間。
2006年,Ceder 在 MIT 開(kāi)始了 Materials Genome Project,用改進(jìn)后的機(jī)器學(xué)習(xí)算法預(yù)測(cè)能用作電動(dòng)車(chē)電池的鋰材料。2010年,該計(jì)劃的數(shù)據(jù)庫(kù)里已經(jīng)包含了2萬(wàn)種計(jì)算機(jī)預(yù)測(cè)的化合物。另一方面,Ceder 研究組成員 Stefano Curtarolo 在 2006 年去了杜克大學(xué)并在那里建立了自己的實(shí)驗(yàn)室——Center for Materials Genomics,專門(mén)研究金屬合金,Curtarolo 研究組與其他兩家研究機(jī)構(gòu)合作,逐漸改進(jìn) 2003 年的機(jī)器學(xué)習(xí)算法并拓展數(shù)據(jù)庫(kù),構(gòu)建了 AFLOW 系統(tǒng),能計(jì)算已知的晶體結(jié)構(gòu)并且自動(dòng)預(yù)測(cè)新的晶體結(jié)構(gòu)。
2011年6月,白宮宣布斥資幾億美元進(jìn)行 Materials Genome Initiative(MGI),由此開(kāi)始計(jì)算材料科學(xué)這門(mén)學(xué)科成為主流。如今,除了 Ceder 的 Materials Project,還有原 Ceder 研究組成員、現(xiàn)杜克大學(xué)材料科學(xué)家 Stefano Curtarolo 的數(shù)據(jù)庫(kù) AFLOWlib,以及西北大學(xué)材料研究者 Chris Wolverton 在 Ceder 思路啟發(fā)下,用自己研發(fā)的算法和模型建立的數(shù)據(jù)庫(kù) Open Quantum Materials Database(OQMD)。
這3大數(shù)據(jù)庫(kù)都含有從材料科學(xué)界廣泛使用的無(wú)機(jī)晶體結(jié)構(gòu)數(shù)據(jù)庫(kù)中提取的5萬(wàn)種材料,這些都是曾經(jīng)被制造出來(lái)的固體,但其導(dǎo)電性和磁性尚未被徹底研究。其不同之處在于:Ceder 的 Materials Project 側(cè)重沸石、鋰電池相關(guān)以及金屬有機(jī)骨架結(jié)構(gòu)材料,并以較高的標(biāo)準(zhǔn)衡量是否將計(jì)算機(jī)預(yù)測(cè)的材料納入數(shù)據(jù)庫(kù);Curtarolo 的 AFLOWlib 是最大的數(shù)據(jù)庫(kù),包含 100 多萬(wàn)種材料和幾十萬(wàn)種假想材料,但相應(yīng)的里面也不乏只能存在一瞬間的材料;Wolverton 的 OQMD 有大約 40 萬(wàn)種假想材料,其中鈣鈦礦相關(guān)的尤其豐富,此外正如名字中 Open 那樣,用戶可以下載整個(gè)數(shù)據(jù)庫(kù)。
目前這3大數(shù)據(jù)庫(kù)都在用各自的方法不斷補(bǔ)充數(shù)據(jù)、完善算法,但離理想還有很大距離。當(dāng)前的機(jī)器學(xué)習(xí)算法相對(duì)擅長(zhǎng)預(yù)測(cè)某種晶體是否穩(wěn)定,但在預(yù)測(cè)吸光性和導(dǎo)電性時(shí)則會(huì)出現(xiàn)很大誤差。不過(guò),Materials Project 已經(jīng)發(fā)現(xiàn)了幾種有望超越現(xiàn)有鋰離子電池陰極材料性能的材料,以及有可能提高太陽(yáng)能電池能量轉(zhuǎn)化率的金屬氧化物。都柏林三一學(xué)院的研究人員使用 AFLOWlib 預(yù)測(cè)了 20 種可用于制作傳感器或計(jì)算機(jī)存儲(chǔ)器的磁性材料,并且成功合成了其中的兩種,同時(shí)經(jīng)實(shí)驗(yàn)證明其磁性與預(yù)測(cè)非常接近,相關(guān)論文已經(jīng)在 Nature 發(fā)表。
歐洲也有類似的計(jì)算材料計(jì)劃:由瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)為首的一批計(jì)算材料科研機(jī)構(gòu)共同組建了 MARVEL,EPFL 的材料科學(xué)家 Nicola Marzari 是該項(xiàng)目的負(fù)責(zé)人。Marzari 正在使用新的計(jì)算平臺(tái)制作一個(gè)叫做 Materials Cloud 的數(shù)據(jù)庫(kù),主要用于搜索石墨等由一層原子或分子組成的“二維”材料,這類材料可以在納米電子、生物醫(yī)學(xué)設(shè)備領(lǐng)域得到廣泛應(yīng)用。Marzari 的 Materials Cloud預(yù) 計(jì)今年晚些時(shí)候啟動(dòng),學(xué)界也對(duì)此表示了普遍的關(guān)注。據(jù) Mzrzari 預(yù)計(jì),到 Materials Cloud 開(kāi)放時(shí),系統(tǒng)將會(huì)得出大約 1500 種有望進(jìn)入試驗(yàn)階段的二維材料結(jié)構(gòu)。

不過(guò),計(jì)算材料的發(fā)現(xiàn)也不全是好的結(jié)果:EPFL 中心的計(jì)算化學(xué)家 Berend Smit 及其研究組篩選了計(jì)算機(jī)預(yù)測(cè)的 65 萬(wàn)種材料后得出結(jié)論,當(dāng)前用于存儲(chǔ)甲烷的材料基本已經(jīng)是最好的了,縱使得到改善,存儲(chǔ)效率也只能微量提升,這說(shuō)明美國(guó)寄希望于重大技術(shù)突破(如使用納米多孔材料存儲(chǔ)甲烷)而設(shè)定的能源目標(biāo)很可能是不現(xiàn)實(shí)的。
目前,Ceder 和 Curtarolo 都在努力開(kāi)發(fā)更好的機(jī)器學(xué)習(xí)算法,從已知化合物合成過(guò)程中提取規(guī)律。Marzari 告訴 Nature 記者,材料科學(xué)已經(jīng)從手工時(shí)代進(jìn)入了產(chǎn)業(yè)化階段,雖然現(xiàn)在市面上還沒(méi)有計(jì)算材料得到應(yīng)用,但他相信十年后不僅會(huì)有,而且可能會(huì)有很多。
不過(guò),就連支持使用計(jì)算機(jī)和機(jī)器學(xué)習(xí)生成假想材料的科學(xué)家也指出,要從假想材料到現(xiàn)實(shí)落地還有很長(zhǎng)一段距離。首先,現(xiàn)有數(shù)據(jù)庫(kù)所含有的材料數(shù)據(jù)本身就不多,連現(xiàn)有已知材料都沒(méi)有收錄完全,更被說(shuō)計(jì)算機(jī)生成的材料了。其次,這種用數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn)方法并不適用于所有的材料(目前算法只能預(yù)測(cè)完美晶體)。再者,即使計(jì)算機(jī)生成了一種極有前景的材料,要在實(shí)驗(yàn)室里將其合成、制為實(shí)物也仍然可能需要花費(fèi)很長(zhǎng)時(shí)間。Ceder 對(duì) Nature 記者說(shuō),計(jì)算機(jī)隨時(shí)都在生成有趣的新材料,但有時(shí)候半年多時(shí)間都無(wú)法在實(shí)驗(yàn)室里將其制造出來(lái)。換句話說(shuō),在理論上合成一種材料相對(duì)簡(jiǎn)單,但要在實(shí)驗(yàn)室里把它做出來(lái)很難。
但是,材料科學(xué)家對(duì)于發(fā)現(xiàn)新的化合物充滿信心,他們相信還有數(shù)不清的新材料有待合成,而這些新材料將對(duì)電子工業(yè)、能源產(chǎn)業(yè)、機(jī)器人產(chǎn)業(yè)、健康醫(yī)療和交通運(yùn)輸帶來(lái)巨大改變。
本文經(jīng)新智元(微信號(hào):AI_era)授權(quán)轉(zhuǎn)載。新智元是人工智能領(lǐng)域排名第一的社交平臺(tái),專注報(bào)道人工智能領(lǐng)域的前沿資訊、產(chǎn)業(yè)分析和技術(shù)干貨。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




