計算機化學將科研工作者從繁重的實驗中解脫出來,利用其強大的數(shù)據(jù)處理能力,幫助科研工作者更快地實現(xiàn)分子結(jié)構(gòu)設(shè)計模擬、實驗數(shù)據(jù)處理、合成路徑設(shè)計等問題,在化學材料領(lǐng)域已經(jīng)有十分廣泛的應用。自2016年Alpha Go擊敗人類圍棋世界冠軍后,計算機化學領(lǐng)域中的機械學習也進入到大眾視野。機器學習可以通過獲得的實驗數(shù)據(jù)來優(yōu)化自身算法,使得可以實現(xiàn)對實驗結(jié)果的準確預測,在化學材料領(lǐng)域有廣闊的應用前景。由此可見,計算機化學在化學材料領(lǐng)域科研工作中占有越來越重要的地位。
但是,計算機化學現(xiàn)在面臨著重現(xiàn)性危機。近期,《Chemical World》的科學記者發(fā)表了相關(guān)文章。2019年10月,一個天然產(chǎn)物化學家團隊發(fā)現(xiàn)在廣泛使用的NMR軟件中發(fā)現(xiàn)問題,這個問題是存在于代碼深處的文件排序問題,這個問題使得化學位移的預測出現(xiàn)錯誤。而這個問題的發(fā)現(xiàn)導致了在過去五年內(nèi)發(fā)表的超過150篇文章存在不確定性。
01 “核磁位移”和操作系統(tǒng)有關(guān)?
采用“ Willoughby-Hoye” Python腳本簡化輸出文件的處理時,計算得到的天然產(chǎn)物核磁位移取決于操作系統(tǒng),運行不同的操作系統(tǒng)處理得到的核磁位移出現(xiàn)較大偏差,可能導致錯誤的實驗結(jié)果。
02 不是第一次!
這種問題已經(jīng)在計算機化學領(lǐng)域不是第一次出現(xiàn)了,而這個事件折射出了計算機化學中的重大危機。計算機科學領(lǐng)域的發(fā)展是十分迅速的,包括計算機硬件發(fā)展和計算機軟件的迭代更新。通常,在計算機領(lǐng)域,源代碼公開可以使得算法更新速度加快。而在計算機化學領(lǐng)域的研究成果實際上并不對普通大眾公開,這就導致了算法的滯后。在一方面這導致了計算機化學中算法的問題發(fā)現(xiàn)不夠及時,另一方面文章中的代碼跟不上編譯器和解釋器的迭代速度而導致在現(xiàn)有系統(tǒng)中不兼容的問題,這使得過去在計算機化學領(lǐng)域的研究成果在現(xiàn)如今的電腦上無法重現(xiàn)。
有很多努力在嘗試解決這些問題。Konrad Hinsen是法國奧爾良國家科學研究中心的研究員。幾年前,他與他人共同創(chuàng)辦了ReScience C雜志,目的在于創(chuàng)建一個空間,讓嘗試重新使用舊代碼的人們可以共享他們的結(jié)果。
03 代碼公開or保密?
隨著機器學習的興起,機器學習模式解決化學問題得到了越來越廣泛的研究。但是在可重復性上,機器學習更應該制得憂慮?;瘜W科研工作者多是用機器學習來解決之前沒有軟件解決的問題,而對于算法是否最優(yōu)的方面卻沒有過多的考量。畢竟大多數(shù)化學研究者并沒有什么成體系的編程學習的背景。在另一方面,在訓練機器學習的過程中需要大量的數(shù)據(jù),而這些數(shù)據(jù)也不可能將其放入研究文章中,公之于眾。這就會導致實驗數(shù)據(jù)可能丟失的風險增大,與此同時,其他的同行研究者也無法理解通過機器學習后得到的算法。這就使機器學習得到的算法成為了黑箱。對于機器學習得到的算法,是需要經(jīng)過大量公共數(shù)據(jù)去檢驗和改進的。麻省理工學院的Regina?Barzilay?提到:“不幸的是,這種水平的測試仍然不是AI和化學領(lǐng)域的普遍做法。我希望它會改變。”在這方面的缺失,也促使了機器學習得到的算法無法重復使用。
04 沒那么簡單!
以機器學習為代表的計算機化學領(lǐng)域無法重復的問題,其解決方法不僅僅是在道德上將代碼公開就能解決的。一個復雜算法的源代碼通常包括內(nèi)存管理,處理數(shù)據(jù)集和優(yōu)化性能所需的計算,近似值和技術(shù)計算機制等等,這就導致了除了開發(fā)者以外無人能看懂代碼。
同時開源代碼同樣面臨著計算機化學科研工作者成果的保護問題。開源就以為著計算機化學科研工作者要將自己的工作成果無償奉獻,那怎么從法律層面去保護科研工作者的權(quán)益?同時代碼的更新也是需要大量的人力物力去處理的,這些更新代碼所需的資源從哪里來?這些爭議性的問題還有待進一步的解決。要解決以機器學習為代表的計算機化學重復性問題還有很長的路要走。
文章來源: