12.1 Swin-Transformer網(wǎng)絡(luò)結(jié)構(gòu)詳解


2021 best paper
不同任務(wù)排名
目標(biāo)檢測:coco數(shù)據(jù)集

比較難理解的在4、5部分
swin transformer vs VIT

1、swin transformer構(gòu)建的feature map具有層次性,所以對(duì)目標(biāo)檢測、分割等任務(wù)更有優(yōu)勢
VIT直接下采樣16倍,后面一直保持下采樣倍率不變,無法像swin transformer一樣構(gòu)建具有層次性的特征層
2、swin transformer的feature map當(dāng)中,用的是一個(gè)個(gè)窗口的形式將feature map分隔開,窗口之間沒有重疊
vit當(dāng)中是一個(gè)整體,沒有進(jìn)行分割
這一個(gè)個(gè)window就是待會(huì)講的windows multi-head self-attention,引入這個(gè)結(jié)構(gòu)就可以在每個(gè)window內(nèi)部計(jì)算self-attention,window之間不進(jìn)行信息傳遞
好處:大大降低運(yùn)算量,尤其是在淺層網(wǎng)絡(luò)(下采樣倍率低),相對(duì)于在整個(gè)特征圖上進(jìn)行multi-head self-attention可以減少計(jì)算量
表格:對(duì)比
網(wǎng)絡(luò)框架

patch partition是什么
linear embedding干什么
將48變成C
每個(gè)stage重復(fù)堆疊swin transformer block n次,n是偶數(shù)

patch merging如何操作

W-MSA模塊

MSA vs W-MSA

兩個(gè)公式怎么來的


SW-MSA

示例:黑色是特征圖
窗口移動(dòng)前

移動(dòng)后



5和3本來是分開的兩個(gè)區(qū)域,我們把他們強(qiáng)行劃分在一個(gè)window里,對(duì)它們進(jìn)行MSA是有問題的
如何單獨(dú)計(jì)算5的MSA和3的MSA

和原來在整個(gè)窗口進(jìn)行自注意計(jì)算量一樣,只是多了一個(gè)mask操作
注意還原會(huì)原來位置
滑動(dòng)窗口舉例

相對(duì)位置偏移(通過表格展示其重要性)

什么是相對(duì)位置偏移?

如何將二元坐標(biāo)轉(zhuǎn)一元坐標(biāo),




為什么是(2M-1)*(2M-1)


