實現(xiàn)快速無監(jiān)督解析冷凍電鏡三維結(jié)構(gòu)的軟件—cryoSPARC(冷凍電鏡獲得三維結(jié)構(gòu)的原理)
撰文:王有望 李承珉
作者為中科院生物物理所朱平組在讀研究生。
一門偉大的科學(xué)技術(shù)想要造福全人類,需要通過很多科學(xué)家的努力來提升性能,減少成本,同時降低門檻,最終能讓一個非專業(yè)訓(xùn)練的人能用較少的資源獲得高性價比的成果。作為《自然·方法》(Nature Methods)盤點的2015年最受關(guān)注的技術(shù),冷凍電鏡(cryo-EM)三維重構(gòu)技術(shù)也不例外。冷凍電鏡方法早在1968年就開始發(fā)展,但是由于技術(shù)方法的瓶頸,一直只能做一些較低分辨率的結(jié)構(gòu)解析工作。近年來,冷凍電鏡技術(shù)飛速發(fā)展,不斷突破,在分辨率上已經(jīng)開始可以和晶體學(xué)相媲美。而且,由于其不需要結(jié)晶,對樣品的均一性要求也相對較低,樣品用量少,可重復(fù)性較高,加上快速冷凍能使生物分子盡量保持其天然結(jié)構(gòu)狀態(tài),冷凍電鏡三維重構(gòu)技術(shù)已經(jīng)成為結(jié)構(gòu)生物學(xué)領(lǐng)域一顆亮眼的明星。
冷凍電鏡三維重構(gòu)技術(shù)革命性的突破主要來自兩個方面:一是直接電子探測器的發(fā)明,二是高分辨圖像處理算法的改進。前者從硬件上讓電鏡的圖片質(zhì)量和信噪比有了質(zhì)的提升,將冷凍電鏡帶入了一個以電影的形式快速記錄電鏡圖像的新時代,后者則從軟件上將冷凍電鏡分辨率推入到了一個全新的高度,甚至讓高度柔性動態(tài)的樣品的高分辨解析變得可能。
在直接電子探測器的幫助下,對于比較好的樣品,一般自動收集1到2天的照片,就有可能獲得足夠解析到原子分辨率的優(yōu)質(zhì)數(shù)據(jù)。然而接下來,對數(shù)據(jù)的分析與處理,可能要花費一個專業(yè)人員數(shù)周以上的時間。對于一個包含數(shù)百萬個顆粒,擁有多個構(gòu)像分子量較大的數(shù)據(jù),即使在高性能計算集群上,也可能要花費超過50萬 CPU小時的時間。引入 GPU 加速技術(shù)是目前很多主流軟件的選擇,譬如Relion GPU版,在GPU的加速幫助下,已經(jīng)大大縮短了分析計算的時間與成本。相對以前的軟件需要的較多的人工干預(yù),Relion非常簡潔,對電鏡新人非常的友好。事實上,相對簡潔易用的Relion軟件及其采用的基于最大似然概率方法的三維分類技術(shù)正是冷凍電鏡革命性突破的重要推手之一。然而,即使是Relion的GPU版本,投入在分析計算的時間與資源,需要人工輸入以及調(diào)整的參數(shù)數(shù)量,以及對一個比較正確的初始模型的依賴,依然還有提升空間(圖1)。
圖 1:RELION-2.0的計算流程。對顆粒進行快速傅里葉變換,與模型的傅里葉變換的每個取向(包括三維空間的3個旋轉(zhuǎn)參數(shù)和平面內(nèi)的2個平移參數(shù))的切片進行比對,得出取向分布函數(shù),根據(jù)分布函數(shù)加權(quán)重構(gòu)出新的模型。
在2月6號在線發(fā)表的《自然·方法》上,來自多倫多大學(xué)和約克大學(xué)的研究小組介紹了他們新開發(fā)的一款名叫cryoSPARC的軟件,用于快速無監(jiān)督的冷凍電鏡結(jié)構(gòu)解析(rapid unsupervised cryo-EM structure determination)。與Relion等目前主流電鏡軟件相比,cryoSPARC引入了兩個新的算法進行改良。第一個是隨機梯度下降法(stochastic gradientdescent,簡稱SGD),用于快速尋找低分辨率的三維模型,可以從電鏡數(shù)據(jù)上直接搭建初始模型。在冷凍電鏡三維重構(gòu)中,利用不同方法獲得一個相對比較正確的初始模型并輸入到Relion等軟件來進行進一步三維分類和重構(gòu)是一個較為常規(guī)的手段。而cryoSPARC則很好地集成了這個問題,不再需要人為去“告訴”以及干預(yù)它使用什么樣的初始模型。這樣也能比較好地避免人為給予的模型帶來的模型偏向(model bias)。事實上,開發(fā)者們對于這個算法帶來的優(yōu)化非常自信,以至于他們將這套軟件命名為cryoSPARC ,即“cryo-EM single-particle ab initio reconstruction and classification”的縮寫,翻譯成中文就是冷凍電鏡單顆粒從頭重構(gòu)和分類技術(shù)。第二個算法則是分支界限最大似然優(yōu)化法(branch-and-bound maximum likelihood optimization),用于改進顆粒對齊方式,減少冗余計算,從而節(jié)約大量計算資源以及加速高分辨率的重構(gòu)步驟。Relion在這一步使用的是傅里葉空間的全局搜索和局域搜索結(jié)合的方式,先進行全局的暴力搜索,找到顆粒的比較正確的空間參數(shù)后再進行局域搜索,直到收斂。這種方法比較耗費時間,一直是Relion的限速步驟之一。分支界限法的引入和加速,使得原本復(fù)雜費時的冷凍電鏡三維重構(gòu)工作,現(xiàn)在有可能在相對簡單配置的臺式工作電腦上很快地完成。
這兩大算法,并非研究者們原創(chuàng)。SGD算法在深度學(xué)習(xí)領(lǐng)域,尤其是圖像識別與語音識別領(lǐng)域,應(yīng)用十分廣泛。SGD是針對非凸優(yōu)化問題比較常用的算法。冷凍電鏡單顆粒重構(gòu)正是一個典型的非凸優(yōu)化問題。它存在很多局域最優(yōu)解,如果初始條件給的不好或者稍微出現(xiàn)偏差,便很容易陷入局域最優(yōu)的狀態(tài)。這給高分辨結(jié)構(gòu)解析帶來了很大挑戰(zhàn)。SGD算法或許能帶來一個新的思路。就如同一個登山的游客想從山頂快速到達山腳,比較有效的一種方法就是他每到一個點都環(huán)顧四周,總可以找到某個方向是梯度最大的,也就是坡度最陡。就這樣,他總能找到一條路可以最快到達山腳。這便是經(jīng)典的梯度下降法。然而如果這個山山谷比較多(即非凸問題),他也很可能會因為這個方法陷入到某個山谷,而無法到達地面。隨機梯度下降則有可能會避免這個問題,他不會去測所有方向的梯度,而是每次隨機選擇某些方向,尋找梯度最小,到達新的位置后再隨機尋找新的方向,直至最后收斂。雖然迭代到最終收斂需要的次數(shù)會比傳統(tǒng)梯度下降法多,但是由于需要訓(xùn)練的數(shù)據(jù)少,可以大幅下降計算耗時,而且多次重復(fù)隨機,可以有效避免局域最優(yōu)問題。事實上對于非凸問題SGD算法也只能保證局域收斂,然而有意思的是,研究者們發(fā)現(xiàn)對于電鏡數(shù)據(jù),這種算法會有非常好的表現(xiàn)。
分支界限算法算法是一種在解空間樹上搜索問題解的方法,使用廣度優(yōu)先或最小耗費優(yōu)先的方法搜索空間樹。假如你現(xiàn)在需要從一堆數(shù)中挑選最小的那一個。你可以對數(shù)據(jù)進行分組,例如A和B。如果你能夠統(tǒng)計出A組的下界大于B組的某個值,那么你就可以放心大膽的將A組數(shù)據(jù)全部丟棄,然后對B組數(shù)據(jù)采用同樣的方法。和二分法有些相似。冷凍電鏡三維重構(gòu)中的三維精修過程中最消耗資源的步驟就是統(tǒng)計每個顆粒與三維模型的每個取向上的似然度,然后做出取向分布函數(shù)(也就是Expectation步驟)。顯然,如果對所有空間取向和所有傅里葉空間頻率進行搜索是一個很巨量的計算任務(wù),而且有可能會因為顆粒信噪比較低的原因,顆粒信息量的分配會出現(xiàn)錯誤。分支界限法的關(guān)鍵是如何分組并得到一個下界,這個下界要易于計算并且能夠保證排除掉的一定不會存在最優(yōu)解。研究人員給出的方法的假設(shè)是:如果一個顆粒在低分辨時就無法與低分辨模型很好的匹配,那么這個顆粒在高分辨時也是無法對齊的。所以第一輪全局搜索只統(tǒng)計低分辨信息,隨后的搜索都是在局域完成的。這樣,整個Expectation的步驟就可以很快完成,三維分類和三維精修就得到了加速。
為了測試這兩大算法能否真正有效,研究者們對已發(fā)表的數(shù)套數(shù)據(jù)進行了測試,包括嗜酸熱原體(Thermoplasmaacidophilum)的20S蛋白酶體,瘧原蟲(Plasmodium falciparum)的80S核糖體,以及amphipol-solubilized rat的TRPV1通道蛋白,以及嗜熱菌(T. thermophilus)的V/A-ATPase酶。測試工具僅僅是一臺配置了i7-5820K CPU處理器和一塊單獨英偉達特斯拉系列K40GPU顯卡的工作站。對于電鏡計算來說,這已經(jīng)是非常簡陋的配置了。然而就是在這樣的配置下,研究者們花費幾十分鐘或數(shù)個小時,就可以完成整個重構(gòu)過程。而即使是Relion GPU版,完成相同任務(wù)也可能需要數(shù)倍甚至十倍的時間。圖二展示了他們測試使用的數(shù)據(jù),每一步驟的時間以及最終到達的分辨率。雖然他們很好的節(jié)約了計算時間與資源,但是在計算的準確性上,絲毫沒有降低,反而還能得到一些更好的結(jié)果。譬如對35645個TRPV1的顆粒數(shù)據(jù)耗時66分鐘最終重構(gòu)結(jié)果為3.3埃,略高于已發(fā)表的3.4埃結(jié)果。有意思的是,對于嗜熱菌的V/A-ATPase的數(shù)據(jù),使用cryoSPARC分類重構(gòu),最終得到三類狀態(tài),分別為6.4埃,7.6埃以及7.9埃。而已發(fā)表的結(jié)果里,只得到了兩種狀態(tài),分辨率分別6.4埃和9.5埃??磥磉@種自主建初始模型的行為,可能對于分類會有不錯的幫助(圖2)。
圖2:使用SGD算法和分支界限法的計算流程與耗時(ref.1)
雖然從研究者們測試的數(shù)據(jù)來看,集合了隨機梯度下降法和分支界限法的cryoSPARC軟件有著性價比極高的處理能力,然而在制約冷凍電鏡三維重構(gòu)的一些關(guān)鍵性問題上,譬如顆粒的取向優(yōu)勢和低信噪比等問題,并沒有表現(xiàn)的比Relion更加優(yōu)異。不過這掩蓋不了它的強大,特別是如果該軟件以后能在使用者自己的數(shù)據(jù)上有如同測試數(shù)據(jù)一樣優(yōu)秀的表現(xiàn)的話。借鑒使用別的領(lǐng)域成熟而且優(yōu)秀的算法是大勢所趨,尤其在人工智能深度學(xué)習(xí)快速發(fā)展的今天。相信在不遠的未來,隨著各領(lǐng)域的交叉融合,越來越多的不同領(lǐng)域的優(yōu)秀人員加入到電鏡技術(shù)的開發(fā)與研究,電鏡這門偉大的科學(xué)技術(shù)將為人類帶來更大的福利。
參考文獻:
-
Punjani A, Rubinstein JL, Fleet DJ & Brubaker MA. cryoSPARC: algorithms for rapid unsupervised cryo-EM structure determination.Nat Methods, 2017, doi:10.1038/nmeth.4169
Nogales E &Scheres SH. Cryo-EM: A unique tool for the visualization of macromolecular complexity.Mol Cell, 2015. 58(4):677-89
Kimanius D, Forsberg BO, Scheres SH,& Lindahl E. Accelerated cryo-EM structure determination with parallelisation using GPUs in RELION-2.Elife. 5: e18722. doi:10.7554/eLife.18722
EDITORIAL, Method of the Year 2015,Nat Methods, 2016, 13(1). doi:10.1038/nmeth.3730
Bottou L. Large-scale machine learning with stochastic gradient descent. InProc. COMPSTAT’2010 (eds. Lechevallier, Y. & Saporta, G.).177–186 (2010).
注:中國生物物理學(xué)會設(shè)有冷凍電鏡分會(全稱為“冷凍電子顯微學(xué)分會”, 原名為“生物超微結(jié)構(gòu)顯微成像專業(yè)委員會”),主辦過多場冷凍電鏡方面的高端學(xué)術(shù)研討會,并打造了冷凍電鏡技術(shù)培訓(xùn)的系列精品課程。
2017年生物物理學(xué)會將繼續(xù)舉辦冷凍電鏡研討會及技術(shù)培訓(xùn)課程。有興趣者請關(guān)注生物物理學(xué)會官網(wǎng)或微信公號 (ID: BPSC1979)。