最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

深度學習多模態(tài)實戰(zhàn)班

2023-03-01 11:03 作者:南蠻果  | 我要投稿
  1. 之眼視覺的提取,大多用的是Faster R-CNN:
    1.1 直接提取視覺向量;
    1.2 進行目標檢測,輸出bounding box和對應位置;
    1.3 進行目標檢測,提取類別特征。
    潛在問題:提取的信息有冗余和噪音,對下游任務有益的視覺信息沒有被有效提取,和對應的文本信息有語義鴻溝,不好做視覺-文本對齊等。

  2. 文本一般會用BERT或者Roberta做初始化,大規(guī)模訓練集會從頭開始訓練。

Early fusion:特征提取后,一般是直接concat,進入transformer;
Late fusion:特征提取后,模態(tài)內部再進行深度學習,再做模態(tài)交互。


深度學習多模態(tài)實戰(zhàn)班的評論 (共 條)

分享到微博請遵守國家法律
乌兰浩特市| 仲巴县| 南通市| 交城县| 平原县| 通城县| 渝北区| 酉阳| 金坛市| 黄龙县| 巍山| 浮梁县| 巴青县| 清流县| 昌江| 清水县| 新竹县| 酉阳| 莱州市| 玉屏| 靖安县| 塔河县| 沅陵县| 南投市| SHOW| 隆尧县| 湟中县| 枣庄市| 丁青县| 阿拉善右旗| 伊春市| 集安市| 绥宁县| 东宁县| 耿马| 黄山市| 连平县| 安塞县| 克什克腾旗| 霍城县| 霍州市|