最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

「青蓮聚焦」歷“九”彌新——揭秘AI 在蛋白質(zhì)組學(xué)是怎樣的存在?

2021-08-18 11:10 作者:青蓮百奧  | 我要投稿



集齊


文末圖片


即可召喚千元大禮







前面我們通過對《核酸研究》web service專刊的AI相關(guān)文章介紹,大致了解了AI在生命科學(xué)各領(lǐng)域中的應(yīng)用。本篇文章我們將重點介紹AI在蛋白質(zhì)組學(xué)各領(lǐng)域中的應(yīng)用。

點擊圖片前情回顧



蛋白質(zhì)組學(xué)最重要的一個領(lǐng)域是以質(zhì)譜技術(shù)為核心,進行蛋白質(zhì)的鑒定和定量。串聯(lián)質(zhì)譜技術(shù)的發(fā)展,讓我們得以從全局角度研究不同生物系統(tǒng)的蛋白表達和翻譯后修飾。隨著質(zhì)譜技術(shù)的完善與成熟,產(chǎn)出的數(shù)據(jù)量也呈現(xiàn)高速增長。近幾年,越來越多的臨床上百例樣本被用于蛋白質(zhì)組的鑒定和定量,使得蛋白質(zhì)組的數(shù)據(jù)解析問題日益凸顯。因此,在原始數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量控制、蛋白質(zhì)和肽段的鑒定和定量、翻譯后修飾的監(jiān)測和復(fù)雜多樣的下游分析等環(huán)節(jié)需要更復(fù)雜的算法,將大量數(shù)據(jù)轉(zhuǎn)化為有用的生物信息。同時,和臨床數(shù)據(jù)相結(jié)合的蛋白質(zhì)組數(shù)據(jù)的解析,也為我們解決臨床問題提供了更多的可能,如何將復(fù)雜的蛋白質(zhì)組數(shù)據(jù)和臨床數(shù)據(jù)相結(jié)合進行深入的挖掘,也成為了當下重要的研究課題。

人工智能(artificial intelligence, AI)在最近的20年里發(fā)展異常迅速,在計算機視覺、語音識別、自然語言處理、生物信息學(xué)和醫(yī)療圖像分析等領(lǐng)域取得優(yōu)越表現(xiàn)。機器學(xué)習(xí)是現(xiàn)代人工智能的重要分支,如支持向量機和隨機森林等算法常應(yīng)用于生物數(shù)據(jù)的分析。作為機器學(xué)習(xí)的后起之秀,深度學(xué)習(xí)是以人工神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的一類算法和架構(gòu)。深度學(xué)習(xí)區(qū)別于其他算法的特點之一,是它能自動從數(shù)據(jù)中學(xué)習(xí)特征和規(guī)律,而不需要手動創(chuàng)建特征(handcrafted feature engineering),即科學(xué)家常?;趯I(yè)知識或經(jīng)驗進行重要特征的提取。

人工智能早已在生命科學(xué)領(lǐng)域被廣泛應(yīng)用。在蛋白質(zhì)組領(lǐng)域,人工智能也逐漸滲透到了蛋白質(zhì)組的基礎(chǔ)鑒定、定量技術(shù),以及質(zhì)譜信息和臨床研究相結(jié)合的數(shù)據(jù)挖掘中。以下我們從蛋白質(zhì)組的技術(shù),以及與臨床相結(jié)合的數(shù)據(jù)挖掘進行介紹。



PART.1

蛋白質(zhì)組技術(shù)相關(guān)的數(shù)據(jù)預(yù)測



蛋白質(zhì)組技術(shù)相關(guān)的數(shù)據(jù)預(yù)測,包括了蛋白質(zhì)組實驗各個步驟的數(shù)據(jù)解析(主要包括保留時間的預(yù)測,以及串聯(lián)譜圖的鑒定等),以及翻譯后修飾和空間結(jié)構(gòu)的預(yù)測等。



保留時間的預(yù)測

常規(guī)的蛋白質(zhì)組學(xué)分析流程通常包括樣品前處理、色譜分離、質(zhì)譜檢測和數(shù)據(jù)分析。其中,色譜分離是液相色譜-質(zhì)譜聯(lián)用(LC-MS)蛋白質(zhì)組學(xué)分析中的關(guān)鍵環(huán)節(jié)。保留時間(retention time)是指肽段從色譜柱洗脫(elute)的時間點。準確地預(yù)測保留時間有助于1)提升搜庫鑒定肽段的靈敏度,2)作為肽段鑒定的質(zhì)量評估指標,3)構(gòu)建DIA數(shù)據(jù)分析的譜圖庫和4)推進靶向蛋白質(zhì)組學(xué)實驗。


可用于預(yù)測保留時間的模型主要包括以下幾種:


質(zhì)譜串聯(lián)譜圖的預(yù)測

每次質(zhì)譜實驗可獲得數(shù)十萬張質(zhì)譜譜圖(MS/MS spectrum),每張譜圖包含不同片段離子的質(zhì)荷比(m/z)和定量值信息,這些信息只要決定于幾個關(guān)鍵因素:1)質(zhì)譜儀類型和肽段碎裂方法(如CID、HCD或ETD)及參數(shù)設(shè)定(如歸一化碰撞能量,NCE);2)肽段的序列和修飾;3)肽段的前體電荷態(tài)。盡管肽段碎裂的機理很復(fù)雜,尚未得到清楚的解釋,但在實驗中可重現(xiàn),通常也是可預(yù)測的。

利用序列預(yù)測譜圖的工具從方法上可分為兩類:一類是假說驅(qū)動的,如移動質(zhì)子假說在串聯(lián)質(zhì)譜肽碎裂的研究中廣泛被接受,MassAnalyzer就是其中之一;另一類是數(shù)據(jù)驅(qū)動的,一般采用深度學(xué)習(xí)或傳統(tǒng)機器學(xué)習(xí)的算法。

目前可用于質(zhì)譜串聯(lián)譜圖預(yù)測的方法有以下:


肽段從頭測序

肽段從頭測序(de novo peptide sequencing)是深度學(xué)習(xí)在蛋白質(zhì)組學(xué)中的一項突破性應(yīng)用。從頭測序在不依賴蛋白質(zhì)數(shù)據(jù)庫的情況下直接從譜圖推斷出序列。

通常,將譜圖看作圖片,序列看作圖片的文字描述,以編碼器-解碼器架構(gòu)(Encoder-decoder architecture)設(shè)計深度學(xué)習(xí)模型。典型的例子是DeepNovo和DeepNovo-DIA。


翻譯后修飾的預(yù)測

目前已經(jīng)確定的翻譯后修飾(post-translational modification, PTM)方式超過400種,?常見修飾過程有磷酸化、泛素化、甲基化、乙酰化、糖基化、SUMO化、亞硝基化、氧化等。PTM極大地增加了細胞蛋白質(zhì)組復(fù)雜性和蛋白質(zhì)功能多樣性,在很多生物過程中扮演著重要角色。機器學(xué)習(xí)因為其靈活性和實際表現(xiàn)較好,很早就應(yīng)用于PTM預(yù)測。

深度學(xué)習(xí)在PTM預(yù)測上的應(yīng)用可分為兩類:1)預(yù)測某種PTM(如磷酸化)的修飾位點,即某位點是否會發(fā)生修飾;2)酶特異性預(yù)測,即某位點是否會被特定酶(如某一種磷酸化激酶)修飾。

用于PTM預(yù)測的深度學(xué)習(xí)模型包括:


蛋白質(zhì)結(jié)構(gòu)預(yù)測

蛋白質(zhì)結(jié)構(gòu)一定程度上決定了蛋白質(zhì)功能。在蛋白質(zhì)設(shè)計和藥物篩選等研究中,利用氨基酸序列預(yù)測蛋白質(zhì)空間結(jié)構(gòu)起重要作用。二級結(jié)構(gòu)是指規(guī)則的局部結(jié)構(gòu)模式,通常包含為三種類型,即alpha螺旋、β折疊和β轉(zhuǎn)角。二級結(jié)構(gòu)預(yù)測可以輔助同源序列比對。蛋白質(zhì)通過卷曲折疊會構(gòu)成三維結(jié)構(gòu),蛋白質(zhì)的功能正由其結(jié)構(gòu)決定。了解蛋白質(zhì)結(jié)構(gòu)有助于開發(fā)治療疾病的藥物。AlphaFold是Google旗下DeepMind開發(fā)的一款人工智能程序,它采用深度學(xué)習(xí)算法通過蛋白質(zhì)序列來預(yù)測蛋白質(zhì)結(jié)構(gòu),是目前為止秀的蛋白質(zhì)結(jié)構(gòu)預(yù)測程序。

常用蛋白質(zhì)結(jié)構(gòu)預(yù)測方法的工作流程和網(wǎng)絡(luò)架構(gòu):


PART.2

蛋白質(zhì)組與臨床數(shù)據(jù)結(jié)合的數(shù)據(jù)挖掘



蛋白質(zhì)組數(shù)據(jù)只有一小部分用于當前經(jīng)典的蛋白質(zhì)鑒定和定量,利用AI技術(shù)的特性,結(jié)合臨床數(shù)據(jù)與復(fù)雜的質(zhì)譜數(shù)據(jù)進行深入的挖掘,有望能獲得更多的信息。目前已經(jīng)有不少工作在這領(lǐng)域進行了嘗試,我們介紹兩個代表性的案例,一個是基于MALDI-TOF的數(shù)據(jù)進行臨床樣本的分類,另外一個是對LC-MS的數(shù)據(jù)分析進行癌和癌旁的分類。



案例一:基于機器學(xué)習(xí)的COVID-19檢測

Ling Yan等開發(fā)了一種基于MALDI-TOF MS的高通量血清肽組分析方法,用于有效檢測?COVID-19[32]。分析了146名COVID-19患者和152名對照病例(包括?73?名具有相似臨床癥狀的非COVID-19患者、33名結(jié)核病患者和46名健康人)的血清樣本。在?MS?數(shù)據(jù)處理和特征選擇之后,使用八種機器學(xué)習(xí)方法構(gòu)建分類模型。具有25個特征峰的邏輯回歸機器學(xué)習(xí)模型在檢測COVID-19時實現(xiàn)了準確度(99%),98%的靈敏度和?100%的特異性。這一結(jié)果證明了在大量人群中篩查、常規(guī)監(jiān)測和診斷COVID-19的方法的巨大潛力。


案例二:基于深度學(xué)習(xí)的腫瘤分類

Hao Dong等采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對公共數(shù)據(jù)庫的腫瘤數(shù)據(jù)建模和分類,提出了用深度學(xué)習(xí)處理MS原始數(shù)據(jù)的新方法[33]。數(shù)據(jù)集包括HCC、DGC和DGC組織的癌和癌旁數(shù)據(jù)各110對、84對和58對。利用SVM預(yù)篩選出2048個特征峰,訓(xùn)練得到含3個卷積層的深度學(xué)習(xí)分類器。在以84對-DGC為訓(xùn)練集和58對-DGC為測試集的測試中,CNN深度學(xué)習(xí)模型達到90%的準確率。在與其他五個機器學(xué)習(xí)模型的比較中,CNN深度學(xué)習(xí)表現(xiàn)更好。在與以MaxQuant為例的常規(guī)分析比較中,使用XIC數(shù)據(jù)的CNN分類器對癌和癌旁之間的顯著差異更加敏感。



兩篇文章的研究思路是類似的。由于特征峰過多,首先要做的是降維,即篩選數(shù)據(jù)特征。再構(gòu)建恰當?shù)臄?shù)據(jù)集用于模型訓(xùn)練,獲得AI分類器?;诮徊鏅z驗對多個模型做比較,得到最優(yōu)分類模型和方法。

兩個案例也存在不同點。案例一基于機器學(xué)習(xí)方法,采用三種算法篩選特征,再求并集,最終只選取了排名最靠前的25個特征;而案例二基于CNN深度學(xué)習(xí)方法,采用一種算法和其他輔助條件篩選2048個特征,數(shù)據(jù)空間的維度更高。



總結(jié)



如上所述,AI在蛋白質(zhì)組學(xué)的很多研究領(lǐng)域表現(xiàn)突出,并且仍有巨大的潛力,甚至在不久的將來可能徹底改變我們分析蛋白質(zhì)組學(xué)數(shù)據(jù)的方式。不容忽視的是,在多數(shù)蛋白質(zhì)組學(xué)研究場景中AI因各種限制而無的放矢;同時,盡管具有優(yōu)越的性能,但AI模型通常被認為是黑盒子,其可解釋性仍然是一個巨大的挑戰(zhàn)。目前,正在開發(fā)不同的算法和工具來應(yīng)對這一挑戰(zhàn),如Captum等,但鮮有應(yīng)用于蛋白質(zhì)組學(xué)研究的報道。





集齊


下方圖片


即可召喚千元大禮





親愛的小伙伴們,本月正值青蓮邁向第九年的周年活動月,開展歷“九”彌新活動,我們屆時會推出四項新研發(fā)成果,僅需集齊四張新技術(shù)圖片就有機會獲得我們的千元大禮哦!




參考文獻


1. C. Ma,?Y. Ren,?J. Yang,?Z. Ren,?H. Yang,?S. Liu,?Anal. Chem.?2018,?90, 10881.

2. S. Gessulat,?T. Schmidt,?D. P. Zolg,?P. Samaras,?K. Schnatbaum,?J. Zerweck,?T. Knaute,?J. Rechenberger,?B. Delanghe,?A. Huhmer,?U. Reimer,?H.-C. Ehrlich,?S. Aiche,?B. Kuster,?M. Wilhelm,?Nat. Methods.?2019,?16,?509.

3. S. Tiwary,?R. Levy,?P. Gutenbrunner,?F. Salinas Soto,?K. K. Palaniappan,?L. Deming,?M. Berndl,?A. Brant,?P. Cimermancic,?J. Cox,?Nat. Methods.?2019,?16,?519.

4. S. Guan,?M. F. Moran,?B. Ma,?Mol. Cell. Proteomics.?2019,?18,?2099.

5. Y. Yang,?X. Liu,?C. Shen,?Y. Lin,?P. Yang,?L. Qiao,?Nat. Commun.?2020,?11,?146.

6. B. Wen,?K. Li,?Y. Zhang,?B. Zhang,?Nat. Commun.?2020,?11,?1759.

7. R. Bouwmeester,?R. Gabriels,?N. Hulstaert,?L. Martens,?S. Degroeve,?bioRxiv?2020.?https://doi.org/10.1101/2020.03.28.013003

8. X. X. Zhou,?W. F. Zeng,?H. Chi,?C. Luo,?J. Zhan,?S.-M. He,?Z. Zhang,?Anal. Chem.?2017,?89, 12690.

9. W. F. Zeng,?X. X. Zhou,?W. J. Zhou,?H. Chi,?J. Zhan,?S.-M. He,?Anal. Chem.?2019,?91,?9724.

10. Y. M. Lin,?C. T. Chen,?J. M. Chang,?BMC Genomics?2019,?20,?906.

11. K. Liu,?S. Li,?L. Wang,?Y. Ye,?H. Tang,?Anal. Chem.?2020,?92,?4275.

12. X. Zhao,?J. Li,?R. Wang,?F. He,?L. Yue,?M. Yin,?IEEE Access?2018,?6, 63560.

13. K. Yu,?Q. Zhang,?Z. Liu,?Y. Du,?X. Gao,?Q. Zhao,?H. Cheng,?X. Li,?Z.-X. Liu,?Brief. Bioinform.?2019, bbz107,?https://doi.org/10.1093/bib/bbz107

14. M. Wu,?Y. Yang,?H. Wang,?Y. Xu,?BMC Bioinformatics?2019,?20,?49.

15. B. Yu,?Z. Yu,?C. Chen,?A. Ma,?B. Liu,?B. Tian,?Q. Ma,?Chemom. Intell. Lab. Syst.?2020,?200, 103999.

16. Y. Zhao,?N. He,?Z. Chen,?L. Li,?IEEE Access?2020,?8, 14244.

17. J. Chen,?R. Yang,?C. Zhang,?L. Zhang,?Q. Zhang,?IEEE Access?2019,?7, 142368.

18. H. Long,?B. Liao,?X. Xu,?J. Yang,?Int. J. Mol. Sci.?2018,?19,?2817.

19. Z. Chen,?X. Liu,?F. Li,?C. Li,?T. Marquez-Lago,?A. Leier,?T. Akutsu,?G. I. Webb,?D. Xu,?A. I. Smith,?L. Li,?K.-C. Chou,?J. Song,?Brief. Bioinform.?2019,?20,?2267.

20. Z. Chen,?N. He,?Y. Huang,?W. T. Qin,?X. Liu,?L. Li,?Genom. Proteom. Bioinf.?2018,?16,?451.

21. Y. Xie,?X. Luo,?Y. Li,?L. Chen,?W. Ma,?J. Huang,?J. Cui,?Y. Zhao,?Y. Xue,?Z. Zuo,?J. Ren,?Genom. Proteom. Bioinf.?2018,?16,?294.

22. D. Wang,?D. Liu,?J. Yuchi,?F. He,?Y. Jiang,?S. Cai,?J. Li,?D. Xu,?Nucleic. Acids. Res.?2020,?48,?W140.

23. E. Fenoy,?J. M. G. Izarzugaza,?V. Jurtz,?S. Brunak,?M. Nielsen,?Bioinformatics?2019,?35,?1098.

24. F. Luo,?M. Wang,?Y. Liu,?X. M. Zhao,?A. Li,?Bioinformatics?2019,?35,?2766.

25. K. E. Kirchoff,?S. M. Gomez,?bioRxiv?2020.?https://doi.org/10.1101/2020.02.04.934216

26. I. Deznabi,?B. Arabaci,?M. Koyuturk,?O. Tastan,?Bioinformatics?2020,?36,?3652.

27. D. Wang,?Y. Liang,?D. Xu,?Bioinformatics?2019,?35,?2386.

28. W. Ning,?P. Jiang,?Y. Guo,?C. Wang,?X. Tan,?W. Zhang,?D. Peng,?Y. Xue,?Brief. Bioinform.?2020, bbaa038.

29. K. Y. Huang,?J. B. Hsu,?T. Y. Lee,?Sci. Rep.?2019,?9, 16175.

30. F. He,?R. Wang,?J. Li,?L. Bao,?D. Xu,?X. Zhao,?BMC Syst. Biol.?2018,?12,?109.

31. H. Fu,?Y. Yang,?X. Wang,?H. Wang,?Y. Xu,?BMC Bioinformatics?2019,?20,?86.

32. L. Yan, J. Yi, C. Huang, J. Zhang, S. Fu, Z. Li, Q. Lyu, Y. Xu, K. Wang, H. Yang, Q. Ma, X. Cui, L. Qiao, W. Sun, P. Liao, Anal. Chem. 2021, 93, 11.

33. H. Dong, Y. Liu, W. F. Zeng, K. Shu, Y. Zhu, C. Chang, Proteomics 2020, 20, 21.



「青蓮聚焦」歷“九”彌新——揭秘AI 在蛋白質(zhì)組學(xué)是怎樣的存在?的評論 (共 條)

分享到微博請遵守國家法律
得荣县| 海淀区| 两当县| 龙南县| 镇坪县| 惠州市| 龙口市| 乐都县| 罗平县| 革吉县| 新干县| 林甸县| 将乐县| 石景山区| 辽阳县| 北流市| 道孚县| 邵阳市| 安阳市| 无极县| 雅江县| 屯昌县| 沁源县| 吉首市| 南昌市| 成安县| 康马县| 如皋市| 陵川县| 韶关市| 富阳市| 密云县| 康乐县| 青冈县| 昂仁县| 启东市| 遂溪县| 上犹县| 桐柏县| 洞头县| 轮台县|