智源青年科學(xué)家候選人 | 張祥雨:挑戰(zhàn)自動化深度學(xué)習(xí)系統(tǒng)


4月16日,北京智源人工智能研究院發(fā)布“智源學(xué)者計(jì)劃”,宣布重點(diǎn)支持四類人才:智源科學(xué)家首席(CS)、智源研究項(xiàng)目經(jīng)理(PM)、智源研究員(PI),以及智源青年科學(xué)家。
其中,智源青年科學(xué)家是38歲以下?lián)碛胁┦繉W(xué)位、在科研上具有無限發(fā)展?jié)摿Φ那嗄陮W(xué)者,智源研究院將支持他們開展開放性、探索性研究,勇闖人工智能科技前沿“無人區(qū)”,支持他們面向未來人工智能新思維和新體系的發(fā)展,提出引領(lǐng)性的原創(chuàng)基礎(chǔ)研究成果。
在首批9位智源青年科學(xué)家候選人名單中,28歲的張祥雨,是最年輕的一位。他的擬研究項(xiàng)目為:自動化深度學(xué)習(xí)系統(tǒng)。
在平均年齡僅24歲的曠視研究院,28歲的張祥雨已有l(wèi)eader的樣子:每天為團(tuán)隊(duì)里來自清華、北大等名校的員工、實(shí)習(xí)生討論和規(guī)劃研究方向,他們的研究成果可能會決定公司下一個突破性的基礎(chǔ)技術(shù)。
就是這樣一個不到30歲的年輕人,在近年來深度學(xué)習(xí)推動學(xué)術(shù)和產(chǎn)業(yè)兩界發(fā)展的進(jìn)程中身居幕后——2015年橫空出世的ResNet,張祥雨是主要作者,負(fù)責(zé)底層框架和編碼,跟一作何愷明配合;之后又提出ShuffleNet——憑借其輕量級低功耗和高性能,成為曠視拿下OPPO、小米等手機(jī)大廠視覺訂單的技術(shù)核武器。
現(xiàn)在,張祥雨又把研究重點(diǎn)放到了另一個領(lǐng)域:AutoML。AutoML自動化設(shè)計(jì)、訓(xùn)練AI模型,是用 “計(jì)算換智能” 的新范式——如果說手工設(shè)計(jì)AI模型是坦克的話,AutoML就是飛機(jī),可以極大地加速產(chǎn)品及解決方案在各行業(yè)落地,大大降低人力操作成本。
張祥雨認(rèn)為,70%的AI從業(yè)者依然從事著能被機(jī)器替代的重復(fù)性工作,AutoML這項(xiàng)看似會讓AI從業(yè)者“失業(yè)”的工作,他們從去年就已經(jīng)開始了,這項(xiàng)工作的意義不僅僅能讓AI自動設(shè)計(jì)AI成為現(xiàn)實(shí),更重要的是,還能夠讓企業(yè)的產(chǎn)品和方案找到快速落地的捷徑,提升整個行業(yè)的AI建模和訓(xùn)練效率,真正實(shí)現(xiàn)“以非凡科技,為客戶和社會持續(xù)創(chuàng)造最大價值”。
兩個月復(fù)現(xiàn)AlexNet
與曠視研究院院長孫劍的經(jīng)歷一樣,張祥雨也是一名“土生土長”的西安交大人,從本科到博士都在西安交大就讀,在大三那年(2011年),張祥雨拿下了美國大學(xué)生數(shù)學(xué)建模競賽(MCM)特等獎提名獎(Finalist),當(dāng)時創(chuàng)下西安交大參加該項(xiàng)競賽以來歷史最好成績。
但張祥雨也從不認(rèn)為自己是“神童”型選手。“我資質(zhì)真的一般,都是拼命刷題刷的。”
那么在高智商選手云集的AI領(lǐng)域,接連在CVPR、NIPS等頂會“中獎”的人為什么是他?28歲就能拿起斧頭為公司開辟基礎(chǔ)算法新路的人,為什么也是他?
在辦公區(qū),張祥雨的工位很難不被注意到,在他桌子上高壘著兩摞紙,張祥雨說這是他最近在看的論文。

“從2016年到現(xiàn)在,我已經(jīng)看了1800篇了,看過的都用軟件記下來”。粗略算一下,張祥雨平均每天看兩篇論文。而這只是他每天做實(shí)驗(yàn)、管理團(tuán)隊(duì)之余,停歇片刻去做的事情。
憑借這次獲獎經(jīng)歷,張祥雨獲得了后來到微軟亞洲研究院實(shí)習(xí)的資格。
獲得實(shí)習(xí)資格的有三人,但最終只有一個人能留下。當(dāng)時還在微軟亞洲研究院擔(dān)任首席研究員的孫劍給這三人出了一道題:用一個月的時間,將人臉檢測的速度提升十倍。
這個任務(wù)現(xiàn)在來看比較容易實(shí)現(xiàn),但當(dāng)時還沒有引入深度學(xué)習(xí),張祥雨就靠著對模型調(diào)參,用了三天左右的時間完成任務(wù),孫劍看過之后當(dāng)場決定留下張祥雨。
張祥雨之前并沒有做科研的經(jīng)驗(yàn),這次有意思的實(shí)習(xí)考驗(yàn)讓他初嘗到做科研的成就感。他也意識到走學(xué)術(shù)路線,需要到產(chǎn)業(yè)界去鍛煉。
到了微軟之后,張祥雨加入了視覺計(jì)算組,這個小組里的每一位成員名字放在當(dāng)下來看都是業(yè)界大牛:小組負(fù)責(zé)人孫劍,組員包括何愷明、危夷晨、代季峰、袁路、曹旭東、任少卿等。
在組里,張祥雨尤其擅長編程,并且還是唯一一個會CUDA人。剛加入小組時,就憑借這一技之長成為多個項(xiàng)目的核心成員,比如幫助危夷晨做Head Dance游戲,為袁路做瀏覽器圖片布局等。
2013年,張祥雨面臨一個重要選擇:博士課題。當(dāng)時受微軟亞洲研究院工作的一些影響,張祥雨傾向于做人臉這個領(lǐng)域。但是導(dǎo)師孫劍果斷讓他去做深度學(xué)習(xí),“孫老師認(rèn)為Deep learning以后必然會火,他一直非常有前瞻力,我很相信他”。
于是,張祥雨就成了孫劍組里第一個做深度學(xué)習(xí)的博士生。
他做的第一個深度學(xué)習(xí)相關(guān)的工作就是復(fù)現(xiàn)深度學(xué)習(xí)經(jīng)典論文AlexNet,這篇由Alex Krizhevsky和2018年圖靈獎得主Geoffrey Hinton等人完成的論文,讓深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)重新崛起。

張祥雨花了兩個月的時間對論文進(jìn)行了復(fù)現(xiàn),包括寫完底層全部code。
復(fù)現(xiàn)AlexNet的經(jīng)歷算是深度學(xué)習(xí)的入門,之后他的主要工作是做框架、寫code。當(dāng)時深度學(xué)習(xí)的框架非常少,于是張祥雨干脆自己寫了一個,包括CPU和GPU的。
2013年底Caffe問世,為了對Caffe的模型做兼容,張祥雨就把接口也改成Caffe一樣,還起了個名字叫Caffe Pro。
這份code關(guān)鍵的一個亮點(diǎn)是支持圖優(yōu)化,支持多卡,這為后來ResNet的誕生打下了基礎(chǔ)。
ResNet的誕生
在完成這份code以后,孫劍就把何愷明、任少卿、張祥雨拉到一起做深度學(xué)習(xí),在組隊(duì)之前,何愷明做了圖像重建和哈希計(jì)算,任少卿做人臉。
經(jīng)過一年的磨合,“何張任”組合在孫劍的帶領(lǐng)下小有所成,ECCV、TPAMI等國際視覺會議的論文中開始出現(xiàn)這三個二十多歲中國人的名字。
這幾位年輕人真正爆發(fā)是在2015年。
當(dāng)時包括谷歌、百度在內(nèi)的大廠都在參加ImageNet大規(guī)模視覺識別挑戰(zhàn)賽,當(dāng)時人類識別圖像正確分類的誤差率為5.1%,誰能打破5.1%,就代表在這一領(lǐng)域機(jī)器超越了人類,而2014年最好的成績是6.67%,由谷歌創(chuàng)造,但依舊沒能實(shí)現(xiàn)5.1%,百度也積極嘗試,試圖第一個打破5.1%。
“何張任”組合決心跟大廠們硬剛一下。
事實(shí)證明,想要突破大廠們都還沒打破的記錄并非易事。主要是由于神經(jīng)網(wǎng)絡(luò)想提升能力就得持續(xù)加深,但一加深就不收斂,導(dǎo)致實(shí)驗(yàn)結(jié)果很不理想。
有一天,張祥雨突然意識到收斂的問題跟梯度消失有關(guān)系,如果做一些獨(dú)立性假設(shè)的話,是可以推出一套參數(shù)初始化的法則,讓梯度消失的問題解決。因此他推導(dǎo)出一組公式,后來在微軟內(nèi)部命名為“xiangyu初始化法”。
接著,“何張任”組合又引入一種新的修正線性單元(ReLU),將其稱為參數(shù)化修正線性單元(PReLU),并且通過對修正線性單元的非線性特征進(jìn)行直接建模,推導(dǎo)出一種符合理論的初始化方法,并直接從頭開始訓(xùn)練網(wǎng)絡(luò),將其應(yīng)用于深度模型的收斂過程。
這種方法應(yīng)用到比賽之后結(jié)果出爐:錯誤率已降低至4. 94%,超越人類!
不過,張祥雨認(rèn)為,打破記錄確實(shí)可以長點(diǎn)臉,但是并不足以證明AI直接超過了人類。他們發(fā)現(xiàn),挑戰(zhàn)到了后面就完全變成了一個工程問題,成了怎么用有限的資源訓(xùn)練起來更大的網(wǎng)絡(luò)。
“其實(shí)我個人是非常不滿意的,因?yàn)殡m然打敗了人類,但更多是一個噱頭,我們也知道這些方法并不很work,主要是靠調(diào)參和堆模型?!睆埾橛暾f。
張祥雨又重新復(fù)盤,他發(fā)現(xiàn)2014年的ImageNet冠軍谷歌GoogLeNet只用了一點(diǎn)幾個G的復(fù)雜度就實(shí)現(xiàn)了非常高的準(zhǔn)確度,他認(rèn)為GoogLeNet可能是其他幾個模型的必經(jīng)之路。
經(jīng)過幾個月的研究,張祥雨發(fā)現(xiàn),GoogLeNet最本質(zhì)的是它那條1x1的shortcut?!罢f白了,可以把它簡化到最簡單,可以發(fā)現(xiàn)GoogLeNet只有兩條路,一條是1×1,另一條路是一1x1和一個3x3”。
到底是什么在很低的復(fù)雜度上支撐起了GoogLeNet這么高的性能?
張祥雨猜想,它的性能由它的深度決定,為了讓GoogLeNet 22層的網(wǎng)絡(luò)也能夠成功地訓(xùn)練起來,它必須得有一條足夠短的直路。
基于這個思路,張祥雨開始設(shè)計(jì)一個模型,利用一個構(gòu)造單元不斷的往上分,雖然模型結(jié)構(gòu)的會非常復(fù)雜,但是不管怎么復(fù)雜,它永遠(yuǎn)有一條路,但深度可以非常深?!拔艺J(rèn)為這種結(jié)構(gòu)就可以保持足夠的精度,同時也非常好訓(xùn)練,我把這個網(wǎng)絡(luò)稱為分形網(wǎng)?!?/p>
張祥雨把分形網(wǎng)的成果跟何愷明商量,何愷明的意見是:結(jié)構(gòu)還是過于復(fù)雜。
“復(fù)雜的東西往往得不到本質(zhì)”,何愷明一語中的,并建議進(jìn)一步對這個模型進(jìn)行化解,用它的一個簡化形式。
于是張祥雨又延伸之前的假設(shè):最短的路,決定容易優(yōu)化的程度;最長的路,決定模型的能力,因此能不能把最短路盡可能的短,短到層數(shù)為零?把最深的路,無限的變深?
基于這個思路,誕生了ResNet,有一條路沒有任何參數(shù),可以認(rèn)為層數(shù)是0。

“何愷明老師的研究思路對我啟發(fā)很大,從紛繁的結(jié)構(gòu)中找出最work的本質(zhì)屬性,這種極簡化的思想是ResNet的核心,并且使得ResNet有很強(qiáng)的泛化能力,任何人都可以在基礎(chǔ)上做各種修改,能啟發(fā)別人的研究?!睆埾橛暾f。
ResNet提出后,“何張任”組合打比賽,張祥雨負(fù)責(zé)code部分,當(dāng)年一下取得5項(xiàng)挑戰(zhàn)賽第一,“何張任”組合在導(dǎo)師孫劍的指導(dǎo)下獲2016年CVPR最佳論文獎,迄今單篇引用超20000,ResNet也成為計(jì)算機(jī)視覺領(lǐng)域最流行的框架之一。
從ShuffleNet到AutoML:年輕人拿起了公司戰(zhàn)略的斧頭
2016年7月,張祥雨也博士畢業(yè)后追隨導(dǎo)師孫劍,開啟了工作歷程。
而剛剛工作,張祥雨便遇到了一個非常嚴(yán)峻的問題:產(chǎn)品落地較為困難,特別是在手機(jī)領(lǐng)域,實(shí)在沒有一個靠譜的網(wǎng)絡(luò)可以去依賴。
就在這時,作為論文評審的張祥雨審了一篇論文,這篇論文是Keras作者Fran?ois Chollet等人寫的,張祥雨比較認(rèn)可論文里所提到的Xception網(wǎng)絡(luò),他敏銳地意識到這個idea可以用于輕量級網(wǎng)絡(luò)設(shè)計(jì),“以后絕對可以用到移動端”,是未來可發(fā)展的一個方向,并且還給了這篇論文一個Oral。
雖然這篇論文后來被另外的評審給否了,但是給張祥雨帶來非常大的靈感和啟發(fā)。不久之后,張祥雨和同事周昕宇開始一起研究移動端模型,在前期的工作基礎(chǔ)上提出了一個高性能模型,二人不謀而合,同時想到了一個想法——Shuffle。
二人在努力合作后,以共同一作的身份中標(biāo)了CVPR,并且不論是從實(shí)驗(yàn)結(jié)果還是對業(yè)界的影響上,ShuffleNet都是成為移動端網(wǎng)絡(luò)模型的杰出代表之一,2017年蘋果推出帶有3D人臉解鎖功能的iPhoneX ,安卓手機(jī)廠商隨后跟進(jìn),包括VIVO、小米還有錘子手機(jī)的人臉解鎖技術(shù),其實(shí)就是ShuffleNet在背后提供計(jì)算,能夠讓各種配置不一的手機(jī)都能實(shí)現(xiàn)毫秒級人臉解鎖。
2018年,作為ShuffleNet的升級版,ShuffleNet V2 為ECCV 2018 所收錄。而在剛剛落幕的VALSE 2019中,ShuffleNet V2 一舉斬獲拿下 “VALSE 2018 年度杰出學(xué)生論文獎”。其論文技術(shù)及一套輕量高效模型方法論的提出,有遷移通用能力的同時,還兼具理論實(shí)踐意義和學(xué)術(shù)借鑒意義。
技術(shù)有時候是為了跟上業(yè)務(wù)需求,但對張祥雨而言,需要做出一些超前的底層技術(shù),能夠讓技術(shù)預(yù)見到公司未來幾年戰(zhàn)略需求,同時還能拉開跟對手的差距,是最理想的情況,但這對一個年僅28歲的年輕人來說并非易事。
在關(guān)鍵時刻,孫劍的建議起到了非常重要的作用。當(dāng)年張祥雨還是博士生時,孫劍建議他做深度學(xué)習(xí);2017年,孫劍建議他做高性能網(wǎng)絡(luò),2018年,孫劍建議做AutoML。
AutoML領(lǐng)域的研究,之前一直是被國外如Google、微軟等大企業(yè)“壟斷”的狀態(tài),Google已經(jīng)推出Cloud AutoML產(chǎn)品,走得非??壳?,既能讓公司業(yè)務(wù)有很好的落地路徑,也給競爭對手造成了不小壓力。
經(jīng)過一年多的研究,今年4月,張祥雨作為共同一作發(fā)表了他的第一篇AutoML技術(shù)論文。論文提出的超網(wǎng)絡(luò)包含所有子結(jié)構(gòu),只訓(xùn)練一次,所有子結(jié)構(gòu)便可以直接從超網(wǎng)絡(luò)獲得其權(quán)重,無需從頭訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,在精度、內(nèi)存消耗、訓(xùn)練時間、模型搜索的有效性及靈活性方面最優(yōu),超過了Google、Facebook等公司AutoML的成績。
文章轉(zhuǎn)載自微信公眾號“新智元”,作者:新智元