材料研發的典範轉移:從理論模擬到機器學習

Cheng En Li
Apr 1, 2024

2019 年日韓兩國因二戰強制勞動賠償問題無法取得共識,引發日韓貿易戰。日本下令提高光阻劑等半導體關鍵材料出口韓國的門檻,大幅提高韓國半導體廠的採購難度。由於南韓對日本光阻劑的依賴超過九成,此舉形同切斷南韓半導體產業的重要命脈,雖然南韓因此極力推動化學原料國產化,不過至今仍無法擺脫對日本的依賴。凸顯出材料研發在維持國家安全和全球市場競爭優勢中的戰略重要性。另一方面,隨著半導體晶片、電動車、高速網路等技術的迅速發展,對於材料、元件和模組的性能要求越來越高。為了滿足這些技術對於材料的高性能需求,掌握開發先進材料對企業而言一直是維持競爭力的重點。

The four paradigms of science.

以往新材料的發現多半是在偶然或是反覆實驗中被發現的,隨著量子力學的理論被提出,科學家開始從大量的實驗轉為計算各種材料的原子位置、電荷密度分佈等基本性質來進行材料研發。近年來 AI 與機器學習(machine learning, ML)的快速發展帶動下,以材料模擬運算結果為基礎,輔以AI機器學習建立的數學預測模型,能簡化材料特性之間的複雜關係,快速精準地預測材料或產品特性,可有效降低研發成本與產品開發週期。

目前國際上已有許多研究團隊與企業積極導入高效能電腦模擬運算與AI機器學習於材料科學領域上,本文將一一盤點

  • 資料驅動的材料研發流程
  • AI 於材料研發的案例
  • 挑戰與未來方向

資料驅動的材料研發

機器學習技術在材料的探索與開發主要分為兩種情境:

  1. 特性預測:從已知的分子資訊推估材料的性質。
  2. 逆向材料設計(inverse design):從所需的材料性質,尋找理想的分子結構。

特性預測

以機器學習進行特性預測,流程大致如下:目標定義、資料前處理、特徵工程、模型訓練與分析,最終實際應用在材料開發上。

首先,在定義完分析目標之後,需要取得分析主題的相關資料,目前有許多材料模擬運算和實驗相關資料庫,記載了材料的種類與特性。其中 Material Project (MP)是一個免費的模擬資料庫平台,由柏克萊大學的 Kristin Persson 團隊開發,MP 資料庫開放使用者上傳相關的模擬資料,同時有開放的討論區以及自有開發的整合機器學習軟體工具,是目前最完整的模擬資料庫。在材料實驗資料庫方面,SciFinder 是目前最豐富最完整的化學檢索資料庫,資料來源包括:期刊文獻、專利等,資料包含:化學物質基礎特性、化學反應、實驗設計等各類型科學資料。

取得資料之後,需要對資料進行前處理,將各種格式轉換成電腦可以運算處理的表示式,才能供後續的模型訓練使用。在材料科學中,分子的組成、排列和微觀結構等特徵對於開發新材料至關重要。因此,在機器學習的過程中,如何將分子結構轉換為適當表達形式變得尤為關鍵,這個轉換對於機器學習應用的成功與否的影響,甚至超過了選擇不同演算法的影響。然而至今尚沒有一個表示法能夠完整地包含所有分子的資訊,需要考慮應用情境選擇要使用的分子表示法。

轉換成分子表示法後的資料,通常資料維度高達數千以上,此時需要透過特徵工程,以特徵選擇(Feature Selection)來協助降低維度 (Dimensionality Reduction),保留權重較高的維度,加速進行後續的機器學習建模。而在機器學習方法上,以遷移學習(Transfer Learning)、元學習(Meta Learning)、 神經圖靈機(Neural Turing Machine; NTM)、貝葉斯框架等,來處理資料量較少的任務。以既有資料評估過模型表現之後,即可使用該模型進行材料性質的預測。

逆向材料設計

逆向設計中最早的方法之一是高通量虛擬篩選(High- Throughput Virtual Screening; HTVS),它起源於藥物開發。研究人員首先嘗試將已知的分子庫範圍縮小至一百萬至一千萬個分子作為初始的候選材料,接著進行一層又一層的篩選,篩選條件通常會根據特定的需求進行,如合成的便利性、溶解性、毒性、穩定性和活性等,最終得到最有潛力的化合物。

逆向設計近年來也有許多利用最佳化演算法的做法。例如:貝氏最佳化演算法(Bayesian optimization)、粒子群最佳化演算法(Particle swarm optimization)以及基因演算法(Genetic Algorithm)。通常會搭配前述的特性預測機器學習模型一起使用。

它的運作原理大致如下:想像你在一個巨大的黑暗房間裡尋找一個藏有寶藏的神秘箱子。你手裡有一支手電筒,但它的光束很窄,只能照亮房間裡的一小塊區域。你的目標是找到那個藏寶箱,但是你希望盡可能少走彎路,因為每走一步都需要消耗能量。

最佳化演算法就像是一種聰明的策略,幫助你更有效地在黑暗中探索:

  1. 先猜一下:一開始,你會根據直覺猜測寶藏可能在哪裡,這就像是建立一個基本假設。
  2. 選擇下一步:然後,你會用一種特別的方法來決定下一步往哪裡走。這個方法會考慮到兩件事:一是去那些你認為可能會有寶藏的地方,二是探索一些新的地方,因為寶藏可能就藏在那裡。
  3. 檢查並學習:每當你用手電筒照亮一個新的區域,你就會檢查是否找到了寶藏。無論找到與否,這次探索都會給你一些新的線索,幫助你更好地猜測寶藏的位置。
  4. 重複:你會根據新獲得的信息調整你的策略,然後重複這一過程,每次都更聰明地選擇下一步往哪裡走。

用這種方式,你會逐漸縮小搜索範圍,並在盡可能少走彎路的情況下找到那個藏寶箱。

生成式模型和上述全域最佳化在運作方式和基本原理上不太一樣。生成模型不太依靠研究人員或科學家設定的規則執行任務,它們傾向於從大量的數據中學習執行任務,而不僅僅是簡單地執行某些任務。生成模型不適用於資料量不足的情況,因此常被用於分子動力學和遺傳算法的補充應用。另外,雖然生成模型生成的化學結構中大部分是有效的,但其中很大一部分結構在合成上是不可行的。這也意味著,雖然生成的結構在理論上是可行的,但在實驗上很難合成它們。

AI 推動 Gorilla® Glass 研發

2007 年 2 月,蘋果公司正在為了第一代 iPhone 的發表如火如荼地準備著,但賈伯斯非常不滿意手機原型使用的塑膠材質面板保護蓋,因為經常會被一起放在口袋裡的鑰匙刮花。他致電給康寧董事長兼執行長魏文德(Wendell Weeks),說想要幫一款相當特別的手機尋找一款夠薄、又夠堅固的玻璃材料當 LCD 面板的保護玻璃,而且手機產品 7 月就要上市。

當時康寧內部有一款可能符合需求的玻璃技術,但是根本沒有生產過。理論上說,一款新產品從研發到量產需要數年時間,而蘋果留給康寧的時間只有短短不到半年的時間,幾乎是不可能的任務。但是魏文德答應了這項任務,最終這個名為大猩猩玻璃(Gorilla® Glass)的產品成功登上 iPhone 的門面,為康寧公司的產品再創新頁。

康寧曾經分享在研發大猩猩玻璃的過程中,使用神經網絡和遺傳算法模型,預測能夠達到所需液相線溫度和楊氏模數的玻璃組成。這項研發的挑戰在於該玻璃包含超過八種成分化合物,對於如此複雜的系統,沒有物理預測模型。而為了達到玻璃成品要能夠輕薄、強度夠高,並且能夠符合製程的需求,研究人員需要找到能夠做出適合的液相線溫度且在特定溫度下黏度夠低的玻璃配方組成。

ML 於核廢料儲存材料研發

當實驗資料難以取得的情況,也是機器學習方法可以派得上用場的時候,核廢料的處理就是一個典型案例。

核廢料根據輻射量的高低,被分為低階和高階兩類。低階核廢料包括核電站運營中受到輻射污染的物品,如工作人員的工作服和廢液,以及來自醫療和研究機構的一些輻射廢物;相對而言,高階核廢料主要是指使用過的核燃料棒。輻射水平隨時間減弱,具體速度取決於核素的類型。例如,低階廢料中常見的鈷-60,其半衰期約為 5.3 年,意味著其放射性活性每 5.3 年降低一半,這類廢料需大約一百年時間才能降至接近自然背景輻射水平。而高階核廢料的放射性降低速度則更慢,如鈽-239的半衰期達到了二萬四千年,遠遠超出人類可以量測的範圍。

要科學家執行以萬年為單位的實驗不切實際,且為能吸收核廢料於長時間衰變期放出的放射線,該材料須由 22~64 種不同元素組成。如此複雜的研究條件,讓科學家近年來更廣泛地採用機器學習技術協助研發。

未來挑戰與展望

儘管以資料趨動模式,在材料研發領域有巨大的潛力及優勢,仍然還是有一些挑戰是未來我們需要克服的,包括:資料品質、模型的可解釋性。

在資料品質方面,現今大部分的資料庫是以模擬計算資料為主,幾乎没有完整的實驗資料庫。這是因為實驗研究通常涉及到購買原材料、維護實驗設備、進行實驗操作以及後續的樣品分析等工作,需要大量的時間和金錢投資。再者,一些材料的實驗研究可能涉及高壓、高溫、輻射或是化學危險,這些條件下的實驗不僅難以執行,而且可能對研究人員和環境構成威脅。此外,實驗資料的標準化也是重要課題,例如:研究人員應確保材料特性是在相同的溫度壓力條件下所測得,以提供後續研究更精確的資訊。

驗證理論的預測是推動材料設計和開發工作最重要的一步,因此建立足夠的實驗資料庫是必要的,並且在模擬資料庫和實驗資料庫之間建立協同作用,仍然是資料驅動材料科學末來的重要挑戰。

AI 模型的可解釋性面臨的挑戰,主要源於材料系統複雜性與先進 AI 技術的黑盒特性的交織。材料系統涉及從原子到宏觀尺度的多層次結構和相互作用,這些過程的高度非線性和多變量特性,使得直接理解和預測材料行為極為困難。當這種複雜性遇到深度學習等 AI 模型時,問題更加顯著。這些模型雖然在預測精度上非常成功,但其密集的層次結構和大量參數使得解釋它們的預測變得不透明。此外,這些模型在學習過程中所自動提取的特徵,常常不具物理意義,進一步增加了解釋的難度。

材料研發與改良,採用結合專家經驗、理論模擬、機器學習AI演算法的方法必然是未來發展的趨勢。隨著更多開放科學資料平台的建立和電腦高速運算能力的提升,這場以資料和演算法為驅動的材料科學典範轉移,將開啟人類對未知材料世界的新篇章。

如果你喜歡這篇文章的話,歡迎透過以下連結請我喝杯飲料!

https://www.buymeacoffee.com/hellolichengen

--

--