最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

GEO數(shù)據(jù)庫使用和數(shù)據(jù)下載

2023-05-25 09:11 作者:小云愛生信  | 我要投稿

?小果?生信果?? 原創(chuàng)不易?? 歡迎點贊+收藏+關注


網(wǎng)址為https://www.ncbi.nlm.nih.gov/

在搜索框前面的All Databases處有個下拉箭頭,可以選擇不同的數(shù)據(jù)庫,這里我們選擇GEO Dataset數(shù)據(jù)庫,這里面就是我們要找的數(shù)據(jù)了。


在搜索框里打上關鍵字,一般是疾病的名字,這里以Stanford A型主動脈夾層(Type A Aortic Dissection,TAAD)為例:輸入關鍵字后,點擊搜索就可以了

上面這個圖就是搜索結果了,我們選擇數(shù)據(jù)集一般有一下幾個考量:

第一是物種,一般常用到的就是人,大鼠和小鼠。右邊可以選擇物種,縮小范圍。

第二是測序類型,常見的是Expression profiling by array和Expression profiling by high throughput sequencing,這個一般就是mRNA的表達量了,此外還有單細胞,非編碼RNA,甲基化等類型,可以根據(jù)需要選擇。

第三是樣本量,一般來講,樣本越多越好,很多分析都對樣本量有要求,比如WGCNA就要大于15,雙疾病要求每組至少6個樣本。

第四還需要留意樣本組成,一般疾病最好要有患病和正常樣本的分組,癌癥樣本最好要有預后信息。

我們點進一個樣本集,看一下下面這個:

可以先看一下樣本的基本信息,數(shù)據(jù)集的標號是GSE開頭的。

然后我們看一下樣本構成,患病和正常樣本分的很清楚,樣本的編號是GSM開頭,重點關注一下測序平臺,這個是RNA測序數(shù)據(jù),這樣的數(shù)據(jù)庫一般會提供一個表達矩陣放在補充材料里,如果沒有的話,一般就不選擇這個數(shù)據(jù)集了,不過我們這個是有的,就在最下面的Supplementary file里,直接下載就可以了。

這個表達矩陣就算是整理的比較好的,有基因名,表達數(shù)據(jù)是count值,可以根據(jù)需要進行標準化。


接下來小云再給大家找一個芯片數(shù)據(jù)集,它的下載方式和測序數(shù)據(jù)不太一樣。

上面這個是結直腸癌的,GSE39582,測序平臺GPL570,這也是一個常見的芯片測序平臺,芯片數(shù)據(jù)要從Series Matrix Files處下載,點進去,界面如下:

點擊就可以下載了。


芯片數(shù)據(jù)下載之后需要做一個轉換,因為芯片數(shù)據(jù)的行名是探針編號,需要轉換為基因名,探針和基因名的對應關系可以點擊測序平臺,也就是GPL570這個位置,根據(jù)下面這個表進行ID轉換。



推薦閱讀

生信果”,生信入門、R語言、生信圖解讀與繪制、軟件操作、代碼復現(xiàn)、生信硬核知識技能、服務器、生物信息學的教程,以及基于R的分析和可視化等原創(chuàng)內容,一起見證小白和大佬的成長。

GEO數(shù)據(jù)庫使用和數(shù)據(jù)下載的評論 (共 條)

分享到微博請遵守國家法律
新疆| 武胜县| 竹北市| 棋牌| 遵义县| 天气| 枣强县| 溧水县| 台南县| 香港| 饶河县| 新安县| 万源市| 常熟市| 广德县| 怀宁县| 延吉市| 乌拉特前旗| 武义县| 浑源县| 启东市| 保定市| 洛川县| 大竹县| 时尚| 浙江省| 平遥县| 泽普县| 剑河县| 芦溪县| 灵石县| 凤山县| 安吉县| 香格里拉县| 武穴市| 大洼县| 井研县| 铁岭县| 涪陵区| 左云县| 上杭县|