上海交大發布蛋白質設計模型“Venus”
中新網上海3月22日電 (記者 許婧)上海交通大學特聘教授洪亮團隊22日發布最新成果:團隊將AI與蛋白質設計與改造相結合,建立了全球最大的蛋白質數據集,基于該數據集訓練的模型,可以精準、高效地預測、設計蛋白質的功能,把蛋白質生產由“緩慢的試錯”變為“高效率的精準設計”。
蛋白質是由氨基酸序列構成的,氨基酸序列的長度從數百個到上千個不等。AI時代,數據是推動技術進步的核心資源,龐大的蛋白質序列數據集能幫助模型更好地理解蛋白質的序列、結構和功能關系。洪亮團隊建立的蛋白質序列數據集Venus-Pod(Venus-Protein Outsize Dataset)含有近90億條蛋白質序列,包含數億個功能標簽,是全球數據規模最大、功能批注標簽最多的數據集,也是另一行業知名模型——美國ESM-C模型訓練用的21億蛋白質序列的4倍體量。

洪亮表示,該數據集構成了巨大的“蛋白質礦藏”,使得人類有可能挖掘新的蛋白或者生物催化劑,助力生物醫藥和合成生物學的快速發展;其次,AI大模型有望通過海量數據的學習和掌握自然界蛋白質的進化模式,為AI設計優異的蛋白質產品提供寶貴的學習資料。
蛋白質是由20種氨基酸組成的一條高分子鏈,這個高分子鏈會扭曲并折疊成獨特的三維結構,正是這種獨特結構賦予了特定蛋白質的生物功能。要設計出一款成功的蛋白質產品,不能只關注它的三維結構,而是要能成功預測和設計它的功能。洪亮團隊直接瞄準“功能預測”這一終極目標,將復雜的蛋白質設計變成以需求為導向,配合少量實驗輸出結果的簡單過程。
“我們訓練了Venus(啟明星)系列模型,與DeepMind團隊的AlphaFold預測蛋白質結構不同,這個模型學習自然界蛋白質序列的組織規則以及它與功能之間的關系,其預測蛋白質突變功能的精度位居行業榜單之首?!焙榱琳f,Venus系列模型具備兩大核心功能:“AI定向進化”與“AI挖酶”。這些超常規功能的蛋白質在生物技術、醫藥研發和工業生產中具有巨大的應用潛力,能夠為相關領域帶來創新和突破。
同時,配合Venus系列模型的全球首款低通量大體積蛋白質表達、純化與功能檢測自動化一體機,可在24小時內不間斷地完成100余個蛋白質的表達、純化與檢測任務,較人力效率提高近10倍,將大大減少研發過程中的人力、物力和時間成本投入,顯著提高蛋白質工程與合成生物學研究的效率。
據介紹,一款功能過硬的蛋白質產品的誕生,通常需要豐富的專家經驗配合數以萬計的實驗試錯。長期以來,蛋白質設計改造的時間長、成本高、試錯密集問題,一直是業界難題。
洪亮介紹,該成果配合行業領先的自動化設備,已經進行產業化落地,比如Venus系列模型對某體外診斷頭部公司堿性磷酸酶(ALP)的改造項目。Venus系列模型成功優化 ALP,使其分子活性超國際頭部公司產品3倍,為超敏檢測診斷(如心肌梗塞、阿爾茲海默癥)帶來巨大價值。目前,改造后的 ALP已進入200L規模放大生產階段,標志著Venus系列模型成功實現產業轉化。(完)


社會新聞精選:
- 2025年03月25日 17:41:23
- 2025年03月25日 16:58:50
- 2025年03月25日 14:45:22
- 2025年03月25日 14:09:34
- 2025年03月25日 13:23:07