最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

TimeSformer 自用筆記

2023-03-23 21:43 作者:flow___  | 我要投稿

Timesformer

Is Space-Time Attention All You Need for Video Understanding?? - 2021

Video Transformer還未遍地開花時的早些時候的文章,做的實驗比較詳盡。r2+1d的原班人馬,把ViT向視頻領域(Video Transformer)遷移的初步嘗試,且逐漸可以用于處理視頻長度超過1分鐘的視頻,作者做了下述5種嘗試。

和下圖一一對應的5種自注意力計算方法
此圖畫的非常形象
  1. 最左邊一列起,只在當前幀內自己做,與時間維度無關。

  2. 和相鄰的所有幀都做自注意力,很明顯這是不可行的,需要的顯存和計算量都太大。

  3. 先在在幀內做全局的自注意力,然后維度降下去后幀間再做時序上的自注意力操作,有點類似于CNN+LSTM做視頻的感覺,把問題變成2+1維的模式,計算復雜度應該是從H^2*W^2*D^2?減到?H^2*W^2 +?D^2。

  4. 這里和SwinTransformer很像,分patch做子注意力操作,減少的是幀內的自注意力計算的復雜度。

  5. 這里也是減少的幀內的自注意力計算的復雜度,類似于分成3個1*1卷積在做計算,這樣的復雜度將會變得很低很低

上述五種模型的效果表現(xiàn),注意參數(shù)來不等于計算量的增長和內存消耗

作者對比效果較好的2,3模型,其中2的計算代價太大

最后文章選用的第三種方案。


小結:?Transformer在視覺視頻領域的擴展性和穩(wěn)健性都是極佳的,而且視頻本身就是一個多模態(tài)的信號,其中可以提取深度圖,光流圖,音頻信號等等,部分互聯(lián)網視頻甚至也會有字幕,可以可以設計成各種各樣的自監(jiān)督信號,如果使用恰當,就能獲得不錯的成果。


TimeSformer 自用筆記的評論 (共 條)

分享到微博請遵守國家法律
奎屯市| 桦川县| 广东省| 闽清县| 汉川市| 武隆县| 资阳市| 金阳县| 名山县| 龙南县| 威海市| 邹平县| 连城县| 临邑县| 华池县| 遵义县| 东丰县| 平乡县| 都兰县| 巫山县| 历史| 河池市| 永城市| 进贤县| 尚义县| 朝阳区| 边坝县| 天台县| 汽车| 富民县| 望江县| 莫力| 广元市| 安平县| 渭南市| 南昌市| 长岛县| 石泉县| 桦川县| 方山县| 通城县|