Foldseek——蛋白結構相似性搜尋
Nature biotechnology 上發(fā)表題為
“Fast and accurate protein structure search with Foldseek”
的文章,構建了一個與blast搜索序列同源性類似的、可以快速搜索相似蛋白結構的搜索工具Foldseek。
伴隨著AlphaFold等工具的產生和逐步完善,蛋白質結構的數(shù)據(jù)庫也逐漸完善,但是搜索這些數(shù)據(jù)庫仍存在瓶頸。對蛋白結構進行相似性的比對,F(xiàn)oldseek相較于Dali、TM-align 和 CE等工具,速度有了顯著的提升,打破了基于結構的分析的最后一塊壁壘。
最廣泛使用的蛋白質注釋和分析方法是基于序列相似性搜索,例如:interproscan, eggNoG, 及blastp等。盡管基于序列同源性的蛋白功能注釋已經非常完善,但許多蛋白質仍然無法被注釋,且從序列檢測蛋白的進化關系仍然具有挑戰(zhàn)性,而各種蛋白數(shù)據(jù)庫的完善或可以彌補序列注釋的缺陷。
隨著蛋白結構預測工具的日趨完善,兼具序列和結構的分析將逐步取代基于序列的分析。該文章提供了一個蛋白結構相似性搜索的網頁版工具,網址為:?https://search.foldseek.com?,包括 AlphaFoldDB(版本 4:Proteomes 和 Swiss-Prot)、AlphaFoldDB(版本 4)和以 50% 序列同一性聚類的CATH?25?、ESM Atlas-HQ 和蛋白質數(shù)據(jù)庫 (PDB)。此外,該工具也可以本地運行,其開源網址為:?https://github.com/steineggerlab/foldseek 。利用該網頁可以通過AlphaFold預測的蛋白結構(pdb文件)查找結構相似的蛋白,從而對蛋白的進化關系和功能進行注釋。

參考文獻:
van Kempen, M., Kim, S.S., Tumescheit, C.?et al.?Fast and accurate protein structure search with Foldseek.?Nat Biotechnol?(2023). https://doi.org/10.1038/s41587-023-01773-0