本發(fā)明涉及藥物研發(fā),具體是指基于人工智能的藥物分子生成方法。
背景技術(shù):
1、在藥物研發(fā)領(lǐng)域,傳統(tǒng)的藥物分子發(fā)現(xiàn)過程漫長、成本高昂且效率較低。通常需要耗費大量的人力、物力和時間對眾多化合物進行合成、篩選與測試,以尋找具有潛在治療效果且安全性良好的藥物分子。隨著化學(xué)合成技術(shù)的發(fā)展,可合成的化合物數(shù)量呈指數(shù)級增長,這使得傳統(tǒng)的藥物研發(fā)模式面臨巨大挑戰(zhàn)。
2、近年來,人工智能技術(shù)的興起為藥物分子生成帶來了新的機遇。計算機輔助藥物設(shè)計(cadd)已經(jīng)在藥物研發(fā)中得到了一定的應(yīng)用,但仍存在一些局限性。例如,基于規(guī)則或模板的藥物分子設(shè)計方法靈活性較差,難以生成全新結(jié)構(gòu)類型的藥物分子。
3、生成對抗網(wǎng)絡(luò)(gan)作為一種強大的深度學(xué)習(xí)模型,在圖像生成、文本生成等領(lǐng)域取得了顯著成果。其通過生成器和判別器的對抗訓(xùn)練,能夠?qū)W習(xí)到數(shù)據(jù)的潛在分布,從而生成與真實數(shù)據(jù)相似的新樣本。將gans應(yīng)用于藥物分子生成領(lǐng)域,有望突破傳統(tǒng)藥物研發(fā)的瓶頸,快速生成大量具有潛在活性的藥物分子結(jié)構(gòu),為藥物研發(fā)提供更多的選擇和可能。
4、所以,基于人工智能的藥物分子生成方法成為人們亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是提供一種基于人工智能的藥物分子生成方法,利用該方法生成具有潛在活性和較低毒性的新型藥物分子,顯著縮短藥物研發(fā)周期,降低研發(fā)成本,提高研發(fā)成功率。
2、為解決上述技術(shù)問題,本發(fā)明提供的技術(shù)方案為:一種基于人工智能的藥物分子生成方法,包括以下步驟,
3、s1、數(shù)據(jù)收集與預(yù)處理
4、收集大量已知藥物分子的結(jié)構(gòu)數(shù)據(jù),包括化學(xué)結(jié)構(gòu)、活性數(shù)據(jù)、毒性數(shù)據(jù)等。這些數(shù)據(jù)可以從公開的藥物數(shù)據(jù)庫(如pubchem、chembl等)獲取。
5、對收集到的數(shù)據(jù)進行清洗,去除錯誤或不完整的數(shù)據(jù)記錄。
6、將藥物分子結(jié)構(gòu)數(shù)據(jù)進行smiles(simplified?molecular?input?line?entrysystem)編碼,將一個藥物分子的化學(xué)結(jié)構(gòu)轉(zhuǎn)換為對應(yīng)的smiles字符串s,以便計算機能夠處理。
7、s2、構(gòu)建藥物分子生成模型
8、使用生成對抗網(wǎng)絡(luò)(gan)深度學(xué)習(xí)架構(gòu)來構(gòu)建藥物分子生成模型。
9、構(gòu)建生成器(generator)和判別器(discriminator)網(wǎng)絡(luò)結(jié)構(gòu)。生成器的輸入是一個隨機向量z(通常是低維的,例如z∈rn,其中n可以取100-200),其輸出是一個生成的藥物分子結(jié)構(gòu)表示,即smiles字符串。判別器的輸入是真實的藥物分子結(jié)構(gòu)表示或生成器生成的藥物分子結(jié)構(gòu)表示,輸出是一個判斷該輸入是真實還是生成的概率值p∈[0,1]。對于生成器網(wǎng)絡(luò)結(jié)構(gòu),包含多個全連接層和激活函數(shù),設(shè)第i層的輸入為xi,權(quán)重矩陣為wi,偏置為bi,輸出為xi+1,則輸出為:xi+1=relu(wixi+bi)。判別器網(wǎng)絡(luò)結(jié)構(gòu)類似,但最后一層使用sigmoid函數(shù)將輸出映射到[0,1]區(qū)間,即對于判別器的最后一層輸出o,
10、s3、訓(xùn)練模型
11、定義損失函數(shù);對于gan模型,生成器的損失函數(shù)旨在最小化生成的分子被判別器誤判為真實分子的概率,判別器的損失函數(shù)旨在最大化正確判斷真實分子和生成分子的能力。設(shè)生成器的損失函數(shù)為lg,判別器的損失函數(shù)為ld。對于一批真實藥物分子數(shù)據(jù)xreal和生成器生成的藥物分子數(shù)據(jù)xgen,判別器的損失函數(shù)計算公式為:
12、
13、其中d(x)是判別器對輸入x判斷為真實的概率。
14、生成器的損失函數(shù)計算公式為:
15、
16、使用adam優(yōu)化算法等來更新生成器和判別器的參數(shù)。在每次迭代中,先固定生成器參數(shù),訓(xùn)練判別器,然后固定判別器參數(shù),訓(xùn)練生成器,反復(fù)迭代直到模型收斂。設(shè)學(xué)習(xí)率為α,對于參數(shù)θ的更新方法如下:
17、
18、其中mt是一階矩估計,β1是相關(guān)系數(shù),是損失函數(shù)關(guān)于參數(shù)θ的梯度;
19、
20、vt是二階矩估計,β2是相關(guān)系數(shù);
21、
22、其中∈是一個很小的數(shù)防止分母為0。
23、s4、生成新的藥物分子
24、從一個隨機分布(如正態(tài)分布n(0,1))中采樣得到隨機向量z。
25、將z輸入到訓(xùn)練好的生成器中,生成器輸出對應(yīng)的藥物分子結(jié)構(gòu)表示,即smiles字符串。
26、將生成的smiles字符串轉(zhuǎn)換回藥物分子結(jié)構(gòu)。
27、s5、對生成的藥物分子進行初步的有效性和安全性評估來判斷其是否具有潛在的藥物活性和較低的毒性風(fēng)險。
28、本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點在于:
29、1、本發(fā)明利用生成對抗網(wǎng)絡(luò),能夠從隨機向量快速生成藥物分子結(jié)構(gòu)表示,大大縮短了藥物分子生成的時間,提高了研發(fā)效率。
30、2、通過對大量已知藥物分子結(jié)構(gòu)數(shù)據(jù)的學(xué)習(xí),生成器能夠捕捉到藥物分子的潛在結(jié)構(gòu)特征分布,從而生成具有合理化學(xué)結(jié)構(gòu)的藥物分子。這有助于發(fā)現(xiàn)全新結(jié)構(gòu)類型的藥物分子,為解決一些疑難病癥提供了更多創(chuàng)新藥物的可能性。
31、3、基于損失函數(shù)和adam優(yōu)化算法,生成器和判別器在對抗訓(xùn)練過程中不斷優(yōu)化自身參數(shù)。判別器能夠準確地區(qū)分真實藥物分子和生成的藥物分子,生成器則根據(jù)判別器的反饋不斷調(diào)整生成策略,使生成的藥物分子更接近真實藥物分子的特征,從而提高生成藥物分子的質(zhì)量和有效性。
32、4、本發(fā)明能夠?qū)ι傻乃幬锓肿舆M行初步的有效性和安全性評估,篩選出具有潛在藥物活性且毒性風(fēng)險較低的分子。這減少了后續(xù)在動物實驗和臨床試驗中對無效或高毒性分子的測試,節(jié)省了大量的研發(fā)成本和時間。
1.一種基于人工智能的藥物分子生成方法,其特征在于:包括以下步驟,
2.根據(jù)權(quán)利要求1所述的基于人工智能的藥物分子生成方法,其特征在于:還包括對生成的藥物分子進行初步的有效性和安全性評估,判斷其是否具有潛在的藥物活性和毒性風(fēng)險。
3.根據(jù)權(quán)利要求2所述的基于人工智能的藥物分子生成方法,其特征在于:所述生成器的網(wǎng)絡(luò)結(jié)構(gòu)還包括若干個全連接層和激活函數(shù),設(shè)第i層的輸入為xi,權(quán)重矩陣為wi,偏置為bi,輸出為xi+1,則:xi+1=relu(wixi+bi)。
4.根據(jù)權(quán)利要求3所述的基于人工智能的藥物分子生成方法,其特征在于:所述判別器的網(wǎng)絡(luò)結(jié)構(gòu)最后一層使用sigmoid函數(shù)將輸出映射到[0,1]區(qū)間,即對于判別器的最后一層輸出o,
5.根據(jù)權(quán)利要求4所述的基于人工智能的藥物分子生成方法,其特征在于:使用adam優(yōu)化算法來更新生成器和判別器的參數(shù);在每次迭代中,先固定生成器參數(shù),訓(xùn)練判別器,然后固定判別器參數(shù),訓(xùn)練生成器,反復(fù)迭代直到模型收斂;設(shè)學(xué)習(xí)率為α,對于參數(shù)θ的更新方法如下:
6.根據(jù)權(quán)利要求5所述的基于人工智能的藥物分子生成方法,其特征在于:采用基于結(jié)構(gòu)相似性的虛擬篩選方法,將生成的藥物分子與已知具有活性的藥物分子進行結(jié)構(gòu)比對,計算相似性得分,根據(jù)得分判斷其潛在的藥物活性;
7.根據(jù)權(quán)利要求6所述的基于人工智能的藥物分子生成方法,其特征在于:所述已知藥物分子的結(jié)構(gòu)數(shù)據(jù)包括化學(xué)結(jié)構(gòu)、活性數(shù)據(jù)、毒性數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的基于人工智能的藥物分子生成方法,其特征在于:所述隨機向量z為低維向量,即z∈rn,其中n取100-200。