最新消息
首頁 最新消息
之江實驗室圖計算中心副主任陳紅陽:生物制藥×GraphAI大模型 | 2023-04-10 |
文章来源:由「百度新聞」平台非商業用途取用"https://finance.sina.cn/tech/2023-04-10/detail-imypwqvq4557579.d.html" 在生物領域,數據往往呈現出排列不整齊的非歐式結構,無法使用常規的歐式結構算法進行處理。我們可以采用圖神經網絡,如GCN、GAT、GraphSAGE和GIN等,通過消息傳遞機制聚合自身與鄰居節點的特征,來更新該節點的特征,挖掘實體之間的關聯信息,最終得到節點或圖的特征表示。在圖神經網絡訓練過程中,隨著網絡層數的加深,會引起過平滑問題。通過使用「圖+Transformer」機制,在Transformer架構上引入圖結構信息,可以解決過平滑問題。另外,也可以用跳過鏈接(SkipConnection),通過將淺層圖嵌入添加到深層網絡,以提高節點之間的區分度,有效提升最終的表達能力,避免過平滑。生物制藥領域普遍存在數據標簽稀缺的問題,這是因為很多數據需要領域內經驗豐富的專家進行人工標注,其成本非常昂貴。我們可以采用一些無監督的預訓練策略,如自編碼策略(Autoencoding)、自回歸策略(AutoregressiveModeling)、掩碼策略(MaskedComponentsModeling)、上下文預測策略(ContextPredictionModeling)等策略,來人為的構造有標簽的數據。科學領域和計算機領域存在著明顯的知識鴻溝,目前的交叉研究往往采用簡單的建模方式,缺少對科學領域內前沿研究成果的結合。我們需要在模型中融入領域知識來提高模型在特定領域的表現。不同于計算機視覺領域中圖像分類問題,只需要人類常識性的知識就可以判別。生物制藥領域需要引入更專業的知識,比如結合分子的軌道理論、表面靜電勢、自旋密度等值面等。最后,我們還需要解決大模型的工程問題。大規模圖數據中存在百萬節點和上億邊,這對設備的計算和存儲提出了更高的要求,特別是從存儲到計算過程中,如何減少IO開銷來加速模型的訓練速度,面臨非常大的挑戰。另外,如何做到負載均衡,如何解決模型Loss下降不穩定,如何快速更新梯度來加快收斂,這些工程問題都是非常大的挑戰。團隊相關研究進展接下來,簡單介紹一下我們團隊在這個領域做的一些布局。這是我們團隊研發的朱雀圖計算平臺,集成了很多傳統的圖深度學習方法,包括利用分布式的存儲策略等。也做了很好的國產硬件適配,包括華為的昇騰和鯤鵬。在平臺上面我們可以做很多下游的任務,包括分子的生成等。其中也集成了我們自研的一些圖學習算法,例如去年登榜OGB的孿生圖神經網絡PSG算法,通過多次中 關鍵字標籤:www.bestgen.com.tw/ |
|